夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
聽(tīng)說(shuō)Mythos太危險(xiǎn)被封印?有人反手就給他“重建”并開(kāi)源了。
OpenMythos,整合了公開(kāi)研究和目前對(duì)Claude Mythos架構(gòu)的主流推測(cè)。
![]()
OpenMythos實(shí)現(xiàn)了一個(gè)帶有MoE路由機(jī)制的循環(huán)深度Transformer(Recurrent-Depth Transformer ,RDT),通過(guò)跨專家的權(quán)重共享和條件計(jì)算來(lái)實(shí)現(xiàn)迭代深度。
已有研究證實(shí),這種架構(gòu)僅用1半?yún)?shù),就能獲得與傳統(tǒng)模型同等的效果。
不堆參數(shù),堆循環(huán)
把這些碎片拼在一起的人叫Kye Gomez,22歲,Swarms智能體框架創(chuàng)始人。
![]()
他設(shè)計(jì)的RDT架構(gòu)有三個(gè)核心點(diǎn):
- 讓同一組權(quán)重最多反復(fù)跑16遍
- 每次走不同的專家路徑
- 推理全程在潛在空間完成。
三者合力,讓一個(gè)問(wèn)題“想更多遍”比堆參數(shù)更高效。
過(guò)去兩年,AI行業(yè)的標(biāo)準(zhǔn)打法是堆疊上百層不同的Transformer層,每層學(xué)到不同的東西,參數(shù)量直接爆炸。
RDT不用上百層,只用幾層,最多反復(fù)循環(huán)跑16遍,每一遍都基于前一輪的結(jié)果繼續(xù)計(jì)算。
![]()
同一個(gè)東西跑16遍,那不是浪費(fèi)算力嗎?
RDT的回答是不會(huì)重復(fù),因?yàn)?strong>每次循環(huán)激活的是不同的“專家”。
循環(huán)塊內(nèi)部用了混合專家層,MoE路由器在每次循環(huán)中激活不同的專家子集。
MoE的設(shè)計(jì)上借鑒了DeepSeekMoE:大量細(xì)粒度路由專家,加少量始終在線的共享專家。
Gomez把這套設(shè)計(jì)總結(jié)成一句話:
MoE提供領(lǐng)域知識(shí)的廣度,循環(huán)提供推理的深度。
廣度和深度都有了,還需要一套穩(wěn)定性機(jī)制保證循環(huán)不會(huì)跑飛。
來(lái)自UCSD和Together AI的新論文Parcae: Scaling Laws For Stable Looped Language Models提出LTI穩(wěn)定循環(huán)注入讓每輪不發(fā)散。
實(shí)驗(yàn)中用770M參數(shù)的RDT追平了1.3B參數(shù)的標(biāo)準(zhǔn)Transformer。
參數(shù)量少了近一半,效果一樣。
![]()
最后一塊拼圖是連續(xù)潛在空間推理。16輪推理全部在hidden state向量中完成,不生成任何中間token。直到最后一輪循環(huán)結(jié)束,才輸出答案。
這和Chain-of-Thought完全不同。CoT是“想一步,寫一步,再想一步,再寫一步”,中間token全部暴露給人類閱讀。
RDT是“想完16遍才說(shuō)一句話”,推理過(guò)程完全內(nèi)化。
![]()
Kye還引用了俄亥俄州立大學(xué)的一篇論文,對(duì)循環(huán)Transformer架構(gòu)做了兩個(gè)關(guān)鍵實(shí)驗(yàn)。
![]()
第一個(gè):系統(tǒng)性泛化。
訓(xùn)練時(shí)從沒(méi)見(jiàn)過(guò)的知識(shí)組合,推理時(shí)循環(huán)Transformer照樣能答對(duì),標(biāo)準(zhǔn)Transformer直接失敗。
這證明循環(huán)不是重復(fù)計(jì)算,是真正的”更深層思考”。
第二個(gè):深度外推。
訓(xùn)練時(shí)只教了20跳推理鏈,測(cè)試時(shí)直接給30跳。
循環(huán)Transformer的應(yīng)對(duì)方式就是在推理時(shí)多加幾輪循環(huán),標(biāo)準(zhǔn)Transformer直接崩潰。
這些結(jié)果說(shuō)明當(dāng)前大模型在預(yù)訓(xùn)練中已經(jīng)記住了大量事實(shí),瓶頸在于知識(shí)組合。
它們無(wú)法將已知事實(shí)串聯(lián)起來(lái)回答新穎問(wèn)題。循環(huán)似乎免費(fèi)解鎖了這種組合能力。
如果這些結(jié)論成立,Scaling的主流將從”訓(xùn)練更大的模型”轉(zhuǎn)向“讓現(xiàn)有模型在推理時(shí)多想幾遍”。
有了這些研究結(jié)果,Anthropic的Mythos是否真的用了這套架構(gòu),似乎已經(jīng)不重要了。
對(duì)循環(huán)Transformer的猜想已經(jīng)吸引了來(lái)自學(xué)術(shù)界的大量目光。
更多理論和實(shí)驗(yàn)驗(yàn)證正在路上。
GitHub:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis
參考鏈接:
[1]
https://x.com/KyeGomezB/status/2045660378844024994
[2]
https://arxiv.org/abs/2604.07822
[3]
https://arxiv.org/abs/2604.12946
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.