網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Mythos架構(gòu)被22歲小伙“逆推”開(kāi)源了！MoE和注意力借鑒DeepSeek

2026-04-20 16:05:47　來(lái)源: 量子位

北京舉報(bào)

分享至

夢(mèng)晨發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

聽(tīng)說(shuō)Mythos太危險(xiǎn)被封印？有人反手就給他“重建”并開(kāi)源了。

OpenMythos，整合了公開(kāi)研究和目前對(duì)Claude Mythos架構(gòu)的主流推測(cè)。

OpenMythos實(shí)現(xiàn)了一個(gè)帶有MoE路由機(jī)制的循環(huán)深度Transformer（Recurrent-Depth Transformer ，RDT），通過(guò)跨專家的權(quán)重共享和條件計(jì)算來(lái)實(shí)現(xiàn)迭代深度。

已有研究證實(shí)，這種架構(gòu)僅用1半?yún)?shù)，就能獲得與傳統(tǒng)模型同等的效果。

不堆參數(shù)，堆循環(huán)

把這些碎片拼在一起的人叫Kye Gomez，22歲，Swarms智能體框架創(chuàng)始人。

他設(shè)計(jì)的RDT架構(gòu)有三個(gè)核心點(diǎn)：

讓同一組權(quán)重最多反復(fù)跑16遍
每次走不同的專家路徑
推理全程在潛在空間完成。

三者合力，讓一個(gè)問(wèn)題“想更多遍”比堆參數(shù)更高效。

過(guò)去兩年，AI行業(yè)的標(biāo)準(zhǔn)打法是堆疊上百層不同的Transformer層，每層學(xué)到不同的東西，參數(shù)量直接爆炸。

RDT不用上百層，只用幾層，最多反復(fù)循環(huán)跑16遍，每一遍都基于前一輪的結(jié)果繼續(xù)計(jì)算。

同一個(gè)東西跑16遍，那不是浪費(fèi)算力嗎？

RDT的回答是不會(huì)重復(fù)，因?yàn)?strong>每次循環(huán)激活的是不同的“專家”。

循環(huán)塊內(nèi)部用了混合專家層，MoE路由器在每次循環(huán)中激活不同的專家子集。

MoE的設(shè)計(jì)上借鑒了DeepSeekMoE：大量細(xì)粒度路由專家，加少量始終在線的共享專家。

Gomez把這套設(shè)計(jì)總結(jié)成一句話：

MoE提供領(lǐng)域知識(shí)的廣度，循環(huán)提供推理的深度。

廣度和深度都有了，還需要一套穩(wěn)定性機(jī)制保證循環(huán)不會(huì)跑飛。

來(lái)自UCSD和Together AI的新論文Parcae: Scaling Laws For Stable Looped Language Models提出LTI穩(wěn)定循環(huán)注入讓每輪不發(fā)散。

實(shí)驗(yàn)中用770M參數(shù)的RDT追平了1.3B參數(shù)的標(biāo)準(zhǔn)Transformer。

參數(shù)量少了近一半，效果一樣。

最后一塊拼圖是連續(xù)潛在空間推理。16輪推理全部在hidden state向量中完成，不生成任何中間token。直到最后一輪循環(huán)結(jié)束，才輸出答案。

這和Chain-of-Thought完全不同。CoT是“想一步，寫一步，再想一步，再寫一步”，中間token全部暴露給人類閱讀。

RDT是“想完16遍才說(shuō)一句話”，推理過(guò)程完全內(nèi)化。

Kye還引用了俄亥俄州立大學(xué)的一篇論文，對(duì)循環(huán)Transformer架構(gòu)做了兩個(gè)關(guān)鍵實(shí)驗(yàn)。

第一個(gè)：系統(tǒng)性泛化。

訓(xùn)練時(shí)從沒(méi)見(jiàn)過(guò)的知識(shí)組合，推理時(shí)循環(huán)Transformer照樣能答對(duì)，標(biāo)準(zhǔn)Transformer直接失敗。

這證明循環(huán)不是重復(fù)計(jì)算，是真正的”更深層思考”。

第二個(gè)：深度外推。

訓(xùn)練時(shí)只教了20跳推理鏈，測(cè)試時(shí)直接給30跳。

循環(huán)Transformer的應(yīng)對(duì)方式就是在推理時(shí)多加幾輪循環(huán)，標(biāo)準(zhǔn)Transformer直接崩潰。

這些結(jié)果說(shuō)明當(dāng)前大模型在預(yù)訓(xùn)練中已經(jīng)記住了大量事實(shí)，瓶頸在于知識(shí)組合。

它們無(wú)法將已知事實(shí)串聯(lián)起來(lái)回答新穎問(wèn)題。循環(huán)似乎免費(fèi)解鎖了這種組合能力。

如果這些結(jié)論成立，Scaling的主流將從”訓(xùn)練更大的模型”轉(zhuǎn)向“讓現(xiàn)有模型在推理時(shí)多想幾遍”。

有了這些研究結(jié)果，Anthropic的Mythos是否真的用了這套架構(gòu)，似乎已經(jīng)不重要了。

對(duì)循環(huán)Transformer的猜想已經(jīng)吸引了來(lái)自學(xué)術(shù)界的大量目光。

更多理論和實(shí)驗(yàn)驗(yàn)證正在路上。

GitHub：
https://github.com/kyegomez/OpenMythos#the-central-hypothesis

參考鏈接：
[1]
https://x.com/KyeGomezB/status/2045660378844024994
[2]
https://arxiv.org/abs/2604.07822
[3]
https://arxiv.org/abs/2604.12946

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.