337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

AI邪修時刻!Meta聯手MIT投毒,左腳踩右腳強行升天

0
分享至


新智元報道

編輯:傾傾

【新智元導讀】Meta SOAR用「劇毒數據」當墊腳石,硬生生把模型從Fail@128的認知黑洞里拽出來,推理能力暴漲9.3%!2026年,這才是最硬核的反殺路線。

如果給AI喂一份錯誤率高達67%的教材,結局會是什么?

放在以前,他絕對會被噴成篩子:這叫「數據投毒」!輕則模型腦霧,重則邏輯崩塌,直接送進ICU。

但在Meta FAIR的實驗室里,這劑毒藥,變成了救命的神藥。


論文鏈接:https://arxiv.org/abs/2601.18778

不僅沒把模型喂傻,反而讓它踩著一堆「滿嘴謊言」的廢料,爬上了人類無法觸及的推理巔峰。

崩塌的常識:錯題集才是真理?

研究團隊選了MATH和HARP數據集里最變態的「Fail@128」子集。

這是什么概念?就是讓Llama-3.2-3B對著一道題連蒙128次,成功率依然是0。

這不僅僅是「難」,還是絕對的認知真空:在傳統的強化學習里,這意味著「梯度消失」——就像在黑屋子里打拳,因為從來沒打中過,它根本不知道該往哪兒用力。

DeepSeek R1的解法是「卷算力」,靠GRPO瘋狂采樣,賭那千萬分之一的「頓悟時刻」。

但Meta選了另一條路——自己造路。

SOAR架構搞出了一個「教師模型」,專門生成中間難度的「墊腳石問題」。

研究員扒開這些「墊腳石」一看,背脊發涼:84%的題目邏輯結構清晰、合理;只有33%的參考答案是做對的。

劃重點:2/3的答案都是錯的!

如果按照OpenAI o1的清洗標準,這些數據會在第一輪就被作為「幻覺垃圾」剔除。

但在SOAR眼里,這些全是寶藏。

哪怕「教師模型」自己都算不對微積分,它依然能編出一道高質量的微積分題。

當「學生模型」去解這道題時,即便最后對答案是寂寞,但它在「構建推理路徑」過程中的腦力體操,是實打實的!


SOAR課程演化示例:左圖顯示學生在Fail@128硬題上的greedy acc隨教師訓練/promotion階段階梯上升;右圖展示典型生成題目——Stage 1多為生活word problem,Stage 2轉向高等代數/三角。這證明教師通過promotion逐步生成更難但結構有效的墊腳石,推動學生推理突破。

事實證明,謬誤,竟然是通往真理的墊腳石。

SOAR機制:逼迫AI「誠實」的黑盒游戲

在AI自我進化的歷史上,無數次在一個坎上跌倒——「自我欺騙」。

AI為了拿獎勵,經常會生成一堆簡單重復的垃圾題來刷分。

對此,SOAR搞了一個極其冷酷的「雙層博弈」:

  • 混沌建筑師(Teacher):負責瞎編題,不管對錯。

  • 絕境求生者(Student):負責做題,然后去挑戰那道「Fail@128」的終極死局。


SOAR的meta-RL訓練循環:教師模型生成合成數據集,學生模型在內層循環中進行強化學習訓練,并在硬驗證問題上評估進步,計算獎勵R反饋給教師進行外層更新。獎勵完全基于學生在極難題目上的真實提升,而非生成數據的正確性。

除此以外,Meta引入了「有根獎勵」機制。建筑師編的題再花哨也沒用,只有當學生做完這些題,在真實的Fail@128難題上漲分了,建筑師才能拿到獎勵。


SOAR教師變體消融學習曲線:用Grounded-T(有根獎勵教師,粉紅實線)采樣的問題訓練學生,在MATH和HARP上實現最高、最穩定的Pass@32提升,遠超Base-T(藍虛線,波動大)和Hard Only(藍點線)

所以,為了得高分,建筑師只能去「猜」學生到底缺什么,要出什么題。


SOAR教師種子消融學習曲線:Grounded-T(G-T(1)到G-T(4),紅色系線)四個獨立種子生成的課程,讓學生Pass@32穩定一致升至~18-22%(MATH)/~12-15%(HARP),方差極??;Intrinsic-T(I-T(1)到I-T(3),青色系線)三個種子波動劇烈,甚至出現崩潰模式(I-T(1)學生性能崩盤)。這證明有根獎勵讓教師政策魯棒,而內在獎勵易不穩定/崩潰。

它必須生成那些怪異的、甚至含有錯誤答案的題目,因為只有這些題目,才能讓學生真的進步。


直接訓練 vs 自生成課程:左側稀疏獎勵導致無梯度信號;右側教師模型生成中間難度問題,形成漸進式課程,幫助學生模型在Fail@128數據集上實現突破


SOAR一圖封神:教師造合成錯題,學生苦練+硬題評估,獎勵直擊硬題進步——粉紅曲線暴漲,藍線徹底躺平

路線之爭:DeepSeek的蠻力 vs Meta的詭道

2026年的大模型推理戰爭,本質上是三種「宗教」的碰撞。

DeepSeek R1:賭博式的「頓悟」

DeepSeek R1代表了「暴力美學派」。

其核心武器GRPO依賴于大規模采樣——讓模型反復嘗試,直到偶然撞上那個正確的答案,產生所謂的「頓悟時刻」。

這在一般難題上效果極佳,但在Fail@128這種「絕對死局」面前,DeepSeek的策略碰到了物理墻。

當成功率為0時,無論你采樣多少次,獎勵永遠是0。沒有正反饋,梯度就不會下降。

這就像讓一只猴子坐在打字機前,試圖靠隨機敲擊寫出《哈姆雷特》——理論上可行,但現實中算力成本是無限大。

OpenAI o1:不可持續的「潔癖」

OpenAI o1則是「精英教育派」,它堅信「CoT必須完美」。

通過大量人工清洗或高精度的合成數據,o1試圖教給模型最標準的推理步驟。

但SOAR的實驗狠狠嘲弄了這種潔癖。Meta證明,過度清洗數據可能是在扼殺天才。

SOAR生成的那些「滿嘴謊言」的問題,雖然答案錯了,但往往包含了人類意想不到的「思維突觸」。

如果按照OpenAI的標準清洗掉這些數據,模型反而失去了跳出局部最優解的機會。

更致命的是,高質量的推理數據已經面臨枯竭,人類產生難題的速度遠遠趕不上模型吃數據的速度。

SOAR的降維打擊:無中生有的「梯云縱」

Meta走的是第三條路:「自我挖掘派」。

SOAR不依賴DeepSeek式的海量算力撞大運,也不需要OpenAI式的昂貴人工數據。它在零外部輸入的情況下,通過內部互博,強行挖掘出了模型潛意識里的能力。

論文中有一個極具哲學意味的發現:

直接用訓練好的教師模型去解題,并沒有比基座模型強多少。

這說明,「出題」和「解題」是兩種完全不同的技能樹。

SOAR的高明之處在于,它不試圖把所有技能點都加在同一個腦子里,而是讓一部分算力異化為「磨刀石」,去打磨另一部分算力。


SOAR在MATH和HARP Fail@128數據集上的性能提升:Promotion Questions 帶來最大增益,證明合成數據的結構質量遠勝答案正確性。Intrinsic-T表現較差,驗證了‘有根獎勵’的重要性。

在數據枯竭論甚囂塵上的今天,Meta的這條路,可能是唯一能讓AI在沒有任何人類知識的荒原上繼續進化的希望。

數據枯竭的終結:AI的自我繁衍

長久以來,懸在AI頭頂最大的達摩克利斯之劍,是「數據枯竭論」。

行業普遍悲觀地認為,當人類生產的高質量文本被吃光后,AI的進化將停滯不前。

但要是讓AI吃自己生成的合成數據,這種「近親繁殖」會導致模型崩潰。

但SOAR徹底粉碎了這個預言。

Meta的數據顯示,負責出題的那個模型,自己做題能力沒什么提升,但它培養出的學生卻進化了。


SOAR學習曲線:用Promotion Questions (粉線) 訓練的學生模型,在1500步內Pass@32穩定升至~18-19%,接近完整MATH訓練集的上界,而Hard Only (藍線) 幾乎無進步甚至衰退。這證明自我生成的合成數據能實現長期、穩定的推理提升

Meta證明了,AI不需要人類的「真理」也能進化,它完全可以自己編寫教科書——而且是用一種人類看不懂、甚至認為全是錯誤的語言編寫的。

只要「黑盒獎勵」還在,AI就能在虛空中左腳踩右腳,螺旋升天。

曾經我們以為AI是嬰兒,必須喂純凈水;現在才發現,哪怕喂它吃垃圾、吃毒藥,它照樣能長出獠牙。

當錯誤的答案成為了通向更高智能的唯一階梯,人類手里那幾本標準答案,還有多少保質期?

參考資料:

https://ssundaram21.github.io/soar/

https://arxiv.org/abs/2601.18778


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
遲重瑞坦白:與百億富婆陳麗華35年婚姻必做之事

遲重瑞坦白:與百億富婆陳麗華35年婚姻必做之事

梁瞠侃世界
2025-12-10 22:36:33
吳邦國的狂草技藝,讓書壇驚嘆不已!

吳邦國的狂草技藝,讓書壇驚嘆不已!

書畫相約
2026-04-07 07:08:05
清明檔3天3億,馬力歐把國產片按在地上摩擦

清明檔3天3億,馬力歐把國產片按在地上摩擦

我是一個粉刷匠2
2026-04-06 20:14:58
鄭麗文行程公布,第一站南京中山陵,時間緊湊,不給外人可乘之機

鄭麗文行程公布,第一站南京中山陵,時間緊湊,不給外人可乘之機

人世間的事與人
2026-04-07 04:00:46
CBA最新排名!深圳鎖第3,魯京粵爭4,12-17這輪全敗力拼最后一席

CBA最新排名!深圳鎖第3,魯京粵爭4,12-17這輪全敗力拼最后一席

籃球資訊達人
2026-04-07 02:33:23
繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

潮鹿逐夢
2026-04-02 12:31:48
毛新宇參觀祖宅時突然發現家譜記載:原來毛主席是毛太華第20代孫

毛新宇參觀祖宅時突然發現家譜記載:原來毛主席是毛太華第20代孫

老杉說歷史
2026-03-14 20:54:20
非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

非夫妻開房,民警提醒:只要不干這個,誰管你是不是夫妻

李博世財經
2026-04-06 14:15:09
17分大逆轉,騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強勢自證

17分大逆轉,騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強勢自證

鍋子籃球
2026-04-07 12:35:32
人類首次拍到月球東方海!隱藏背面38億年,宇航員:完全超乎想象

人類首次拍到月球東方海!隱藏背面38億年,宇航員:完全超乎想象

基斯默默
2026-04-06 21:08:53
升級版的仙人跳,比戴綠帽子還憋屈

升級版的仙人跳,比戴綠帽子還憋屈

霹靂炮
2026-02-24 22:53:34
清明徒步大軍堵死南太行,一打聽全是窮游,純粹找罪受,消費不動

清明徒步大軍堵死南太行,一打聽全是窮游,純粹找罪受,消費不動

眼光很亮
2026-04-06 11:45:49
西方承認,經過中東這一仗才發現,中國手里3張王牌,別人玩不了

西方承認,經過中東這一仗才發現,中國手里3張王牌,別人玩不了

浪子阿邴聊體育
2026-04-06 10:31:30
俄專家:中國公民可以優惠條件辦理俄羅斯長期居留許可

俄專家:中國公民可以優惠條件辦理俄羅斯長期居留許可

俄羅斯衛星通訊社
2026-04-06 15:06:39
破紀錄的機會來了!單賽季101球神跡就在面前,但凱恩想要歐冠

破紀錄的機會來了!單賽季101球神跡就在面前,但凱恩想要歐冠

里芃芃體育
2026-04-07 03:00:03
總部人去樓空!上千家供應商被欠4億貨款,又一明星獨角獸暴雷了

總部人去樓空!上千家供應商被欠4億貨款,又一明星獨角獸暴雷了

品牌觀察官
2026-04-06 17:45:34
霍爾木茲海峽大消息!剛剛,直線拉升

霍爾木茲海峽大消息!剛剛,直線拉升

中國基金報
2026-04-07 10:20:20
中央定調!機關事業單位這3類人,到年齡必須退,一律不能延

中央定調!機關事業單位這3類人,到年齡必須退,一律不能延

解說阿洎
2026-04-06 08:16:59
王樹國批中科院:王興興梁文鋒不算優生,卻做出院士做不出的成就

王樹國批中科院:王興興梁文鋒不算優生,卻做出院士做不出的成就

狐貍先森講升學規劃
2026-04-07 05:50:03
男子清明掃墓,在祖墳旁意外發現近百枚鴨蛋,冷先生笑稱“感謝太奶”,一行9人,每人分了10個

男子清明掃墓,在祖墳旁意外發現近百枚鴨蛋,冷先生笑稱“感謝太奶”,一行9人,每人分了10個

觀威海
2026-04-07 10:59:07
2026-04-07 12:56:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
14915文章數 66754關注度
往期回顧 全部

科技要聞

滿嘴謊言!OpenAI奧特曼黑料大起底

頭條要聞

鄭麗文今日訪陸其彝族背景引發熱議 曾回云南祭祖

頭條要聞

鄭麗文今日訪陸其彝族背景引發熱議 曾回云南祭祖

體育要聞

官宣簽約“AI球員”,這支球隊被罵慘了...

娛樂要聞

張藝上浪姐惹爭議 黃景瑜前妻發文內涵

財經要聞

2026年,全國租房市場還有波降價潮

汽車要聞

廣汽電池獨立戰,背后的產業鏈博弈

態度原創

親子
藝術
手機
游戲
教育

親子要聞

為什么說養孩子等于“毀容”?看看前后對比照,寶媽們的辛酸淚

藝術要聞

美麗風光看不盡

手機要聞

vivo X300 Ultra深度體驗:跨越手機、邁向微單的新物種

這誰頂得住!玩家感嘆:索尼第一方未來陣容太豪華

教育要聞

咱就說這個第一非爭不可嗎?

無障礙瀏覽 進入關懷版