網易首頁 > 網易號 > 正文申請入駐

AI邪修時刻！Meta聯手MIT投毒，左腳踩右腳強行升天

2026-04-07 09:43:43　來源: 新智元

北京舉報

分享至

新智元報道

編輯：傾傾

【新智元導讀】Meta SOAR用「劇毒數據」當墊腳石，硬生生把模型從Fail@128的認知黑洞里拽出來，推理能力暴漲9.3%！2026年，這才是最硬核的反殺路線。

如果給AI喂一份錯誤率高達67%的教材，結局會是什么？

放在以前，他絕對會被噴成篩子：這叫「數據投毒」！輕則模型腦霧，重則邏輯崩塌，直接送進ICU。

但在Meta FAIR的實驗室里，這劑毒藥，變成了救命的神藥。

論文鏈接：https://arxiv.org/abs/2601.18778

不僅沒把模型喂傻，反而讓它踩著一堆「滿嘴謊言」的廢料，爬上了人類無法觸及的推理巔峰。

崩塌的常識：錯題集才是真理？

研究團隊選了MATH和HARP數據集里最變態的「Fail@128」子集。

這是什么概念？就是讓Llama-3.2-3B對著一道題連蒙128次，成功率依然是0。

這不僅僅是「難」，還是絕對的認知真空：在傳統的強化學習里，這意味著「梯度消失」——就像在黑屋子里打拳，因為從來沒打中過，它根本不知道該往哪兒用力。

DeepSeek R1的解法是「卷算力」，靠GRPO瘋狂采樣，賭那千萬分之一的「頓悟時刻」。

但Meta選了另一條路——自己造路。

SOAR架構搞出了一個「教師模型」，專門生成中間難度的「墊腳石問題」。

研究員扒開這些「墊腳石」一看，背脊發涼：84%的題目邏輯結構清晰、合理；只有33%的參考答案是做對的。

劃重點：2/3的答案都是錯的！

如果按照OpenAI o1的清洗標準，這些數據會在第一輪就被作為「幻覺垃圾」剔除。

但在SOAR眼里，這些全是寶藏。

哪怕「教師模型」自己都算不對微積分，它依然能編出一道高質量的微積分題。

當「學生模型」去解這道題時，即便最后對答案是寂寞，但它在「構建推理路徑」過程中的腦力體操，是實打實的！

SOAR課程演化示例：左圖顯示學生在Fail@128硬題上的greedy acc隨教師訓練/promotion階段階梯上升；右圖展示典型生成題目——Stage 1多為生活word problem，Stage 2轉向高等代數/三角。這證明教師通過promotion逐步生成更難但結構有效的墊腳石，推動學生推理突破。

事實證明，謬誤，竟然是通往真理的墊腳石。

SOAR機制：逼迫AI「誠實」的黑盒游戲

在AI自我進化的歷史上，無數次在一個坎上跌倒——「自我欺騙」。

AI為了拿獎勵，經常會生成一堆簡單重復的垃圾題來刷分。

對此，SOAR搞了一個極其冷酷的「雙層博弈」：

混沌建筑師（Teacher）：負責瞎編題，不管對錯。
絕境求生者（Student）：負責做題，然后去挑戰那道「Fail@128」的終極死局。

SOAR的meta-RL訓練循環：教師模型生成合成數據集，學生模型在內層循環中進行強化學習訓練，并在硬驗證問題上評估進步，計算獎勵R反饋給教師進行外層更新。獎勵完全基于學生在極難題目上的真實提升，而非生成數據的正確性。

除此以外，Meta引入了「有根獎勵」機制。建筑師編的題再花哨也沒用，只有當學生做完這些題，在真實的Fail@128難題上漲分了，建筑師才能拿到獎勵。

SOAR教師變體消融學習曲線：用Grounded-T（有根獎勵教師，粉紅實線）采樣的問題訓練學生，在MATH和HARP上實現最高、最穩定的Pass@32提升，遠超Base-T（藍虛線，波動大）和Hard Only（藍點線）

所以，為了得高分，建筑師只能去「猜」學生到底缺什么，要出什么題。

SOAR教師種子消融學習曲線：Grounded-T（G-T(1)到G-T(4)，紅色系線）四個獨立種子生成的課程，讓學生Pass@32穩定一致升至~18-22%（MATH）/~12-15%（HARP），方差極??；Intrinsic-T（I-T(1)到I-T(3)，青色系線）三個種子波動劇烈，甚至出現崩潰模式（I-T(1)學生性能崩盤）。這證明有根獎勵讓教師政策魯棒，而內在獎勵易不穩定/崩潰。

它必須生成那些怪異的、甚至含有錯誤答案的題目，因為只有這些題目，才能讓學生真的進步。

直接訓練 vs 自生成課程：左側稀疏獎勵導致無梯度信號；右側教師模型生成中間難度問題，形成漸進式課程，幫助學生模型在Fail@128數據集上實現突破

SOAR一圖封神：教師造合成錯題，學生苦練+硬題評估，獎勵直擊硬題進步——粉紅曲線暴漲，藍線徹底躺平

路線之爭：DeepSeek的蠻力 vs Meta的詭道

2026年的大模型推理戰爭，本質上是三種「宗教」的碰撞。

DeepSeek R1：賭博式的「頓悟」

DeepSeek R1代表了「暴力美學派」。

其核心武器GRPO依賴于大規模采樣——讓模型反復嘗試，直到偶然撞上那個正確的答案，產生所謂的「頓悟時刻」。

這在一般難題上效果極佳，但在Fail@128這種「絕對死局」面前，DeepSeek的策略碰到了物理墻。

當成功率為0時，無論你采樣多少次，獎勵永遠是0。沒有正反饋，梯度就不會下降。

這就像讓一只猴子坐在打字機前，試圖靠隨機敲擊寫出《哈姆雷特》——理論上可行，但現實中算力成本是無限大。

OpenAI o1：不可持續的「潔癖」

OpenAI o1則是「精英教育派」，它堅信「CoT必須完美」。

通過大量人工清洗或高精度的合成數據，o1試圖教給模型最標準的推理步驟。

但SOAR的實驗狠狠嘲弄了這種潔癖。Meta證明，過度清洗數據可能是在扼殺天才。

SOAR生成的那些「滿嘴謊言」的問題，雖然答案錯了，但往往包含了人類意想不到的「思維突觸」。

如果按照OpenAI的標準清洗掉這些數據，模型反而失去了跳出局部最優解的機會。

更致命的是，高質量的推理數據已經面臨枯竭，人類產生難題的速度遠遠趕不上模型吃數據的速度。

SOAR的降維打擊：無中生有的「梯云縱」

Meta走的是第三條路：「自我挖掘派」。

SOAR不依賴DeepSeek式的海量算力撞大運，也不需要OpenAI式的昂貴人工數據。它在零外部輸入的情況下，通過內部互博，強行挖掘出了模型潛意識里的能力。

論文中有一個極具哲學意味的發現：

直接用訓練好的教師模型去解題，并沒有比基座模型強多少。

這說明，「出題」和「解題」是兩種完全不同的技能樹。

SOAR的高明之處在于，它不試圖把所有技能點都加在同一個腦子里，而是讓一部分算力異化為「磨刀石」，去打磨另一部分算力。

SOAR在MATH和HARP Fail@128數據集上的性能提升：Promotion Questions 帶來最大增益，證明合成數據的結構質量遠勝答案正確性。Intrinsic-T表現較差，驗證了‘有根獎勵’的重要性。

在數據枯竭論甚囂塵上的今天，Meta的這條路，可能是唯一能讓AI在沒有任何人類知識的荒原上繼續進化的希望。

數據枯竭的終結：AI的自我繁衍

長久以來，懸在AI頭頂最大的達摩克利斯之劍，是「數據枯竭論」。

行業普遍悲觀地認為，當人類生產的高質量文本被吃光后，AI的進化將停滯不前。

但要是讓AI吃自己生成的合成數據，這種「近親繁殖」會導致模型崩潰。

但SOAR徹底粉碎了這個預言。

Meta的數據顯示，負責出題的那個模型，自己做題能力沒什么提升，但它培養出的學生卻進化了。

SOAR學習曲線：用Promotion Questions (粉線) 訓練的學生模型，在1500步內Pass@32穩定升至~18-19%，接近完整MATH訓練集的上界，而Hard Only (藍線) 幾乎無進步甚至衰退。這證明自我生成的合成數據能實現長期、穩定的推理提升

Meta證明了，AI不需要人類的「真理」也能進化，它完全可以自己編寫教科書——而且是用一種人類看不懂、甚至認為全是錯誤的語言編寫的。

只要「黑盒獎勵」還在，AI就能在虛空中左腳踩右腳，螺旋升天。

曾經我們以為AI是嬰兒，必須喂純凈水；現在才發現，哪怕喂它吃垃圾、吃毒藥，它照樣能長出獠牙。

當錯誤的答案成為了通向更高智能的唯一階梯，人類手里那幾本標準答案，還有多少保質期？

參考資料：

https://ssundaram21.github.io/soar/

https://arxiv.org/abs/2601.18778

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.