網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Mythos核心架構(gòu)開(kāi)源！22歲天才一人破解，融合DeepSeek思路

2026-04-20 17:09:52　來(lái)源: 新智元

北京舉報(bào)

分享至

新智元報(bào)道

編輯：桃子

【新智元導(dǎo)讀】Claude Mythos核心架構(gòu)，竟被一個(gè)22歲天才扒了個(gè)精光！OpenMythos現(xiàn)已全開(kāi)源，不靠堆參數(shù)，原地「循環(huán)思考」16次就能推理。閉源實(shí)驗(yàn)室的護(hù)城河，真的還在嗎？

簡(jiǎn)直太瘋狂了！

Anthropic捂得最嚴(yán)實(shí)的Claude Mythos，竟被一個(gè)22歲的年輕人扒開(kāi)了。

不是泄露，不是內(nèi)部員工跳槽帶出來(lái)的。

是一個(gè)叫Kye Gomez的初創(chuàng)CEO，以第一性原理，硬生生把Claude Mythos的核心架構(gòu)從頭推導(dǎo)了出來(lái)。

更炸裂的是，他把這一項(xiàng)目——OpenMythos全開(kāi)源了。

復(fù)現(xiàn)帖引近100萬(wàn)人圍觀

一時(shí)間，全網(wǎng)都坐不住了，網(wǎng)友們紛紛驚嘆Mythos背景精妙的設(shè)計(jì)。

不堆參數(shù)，原地「循環(huán)思考」16次

先說(shuō)結(jié)論，Kye Gomez認(rèn)為——

Claude Mythos的核心不是一個(gè)更大的Transformer，而是一種叫做「循環(huán)深度Transformer」（Recurrent-Depth Transformer, RDT）的架構(gòu)。

說(shuō)白了就是，同一套權(quán)重，在一次前向傳播里循環(huán)跑最多16次。

傳統(tǒng)大模型像蓋高樓，一層一層往上堆參數(shù)。100層不夠就200層，200層不夠就500層。

參數(shù)越多，模型越大，顯存吃得越猛，訓(xùn)練成本越恐怖。

但RDT完全換了一個(gè)思路：不蓋高樓，原地跑圈。

模型只有一個(gè)核心計(jì)算塊，但這個(gè)塊會(huì)被反復(fù)執(zhí)行。每循環(huán)一次，隱藏狀態(tài)就更新一次，就相當(dāng)于「多想了一步」。

而且所有的思考都在連續(xù)潛空間里默默進(jìn)行——不用像思維鏈（CoT）那樣，每一步都吐出可見(jiàn)的token。

這不是重復(fù)計(jì)算，是迭代推理。

架構(gòu)全拆解：三段式設(shè)計(jì)

整個(gè)OpenMythos的架構(gòu)分三段：

Prelude（序曲）→ Recurrent Block（循環(huán)核心）→ Coda（終章）

Prelude和Coda是標(biāo)準(zhǔn)的Transformer層，各跑一次。

真正的計(jì)算核心是中間的「循環(huán)塊」，它最多循環(huán)16次，每次循環(huán)的更新規(guī)則是：

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude編碼后的原始輸入，每一步都會(huì)被重新注入，防止模型在循環(huán)中「跑偏」。

MoE給廣度，循環(huán)給深度

光靠循環(huán)能解釋Mythos推理的「深度」，但解釋不了廣度。

OpenMythos在循環(huán)核心的每個(gè)FFN層，都替換成了MoE層，設(shè)計(jì)參考了DeepSeek-MoE：

大量細(xì)粒度的路由專家；
每個(gè)token只激活其中一小部分；
少量「共享專家」始終激活，負(fù)責(zé)吸收跨領(lǐng)域的通用知識(shí)。

最精妙的一點(diǎn)，隨著隱藏狀態(tài)h_t在循環(huán)中不斷演化，路由器在每一層循環(huán)深度會(huì)選擇不同的專家子集。

也就是說(shuō)，雖然權(quán)重共享，但每次循環(huán)的計(jì)算路徑完全不同：

MoE提供廣度，循環(huán)提供深度。

項(xiàng)目地址：https://github.com/kyegomez/OpenMythos

注意力機(jī)制默認(rèn)使用「多潛變量注意力」（Multi-Latent Attention），來(lái)自DeepSeek-V2，把KV緩存壓縮成低秩潛變量，在生產(chǎn)規(guī)模下能實(shí)現(xiàn)10-20倍的KV顯存節(jié)省。

三個(gè)額外機(jī)制保證循環(huán)穩(wěn)定性：LTI約束注入（譜半徑強(qiáng)制小于1）、自適應(yīng)計(jì)算時(shí)間（ACT）逐位置停機(jī)、以及深度級(jí)LoRA適配器讓每次迭代都有獨(dú)立的行為調(diào)整能力。

細(xì)思極恐，這套設(shè)計(jì)精密得像一臺(tái)瑞士鐘表。

770M打平1.3B，參數(shù)效率直接翻倍

這不是嘴上說(shuō)說(shuō)。

此前，來(lái)自Parcae團(tuán)隊(duì)的實(shí)驗(yàn)數(shù)據(jù)：一個(gè)770M參數(shù)的循環(huán)模型，在同等訓(xùn)練數(shù)據(jù)下，能達(dá)到1.3B標(biāo)準(zhǔn)Transformer的下游任務(wù)質(zhì)量。

換句話說(shuō)——用一半的參數(shù)，干了同樣的活。

這對(duì)整個(gè)行業(yè)意味著什么？

對(duì)消費(fèi)級(jí)硬件來(lái)說(shuō)，這是天大的利好。以前跑個(gè)像樣的模型，沒(méi)有A100你連門都進(jìn)不了。

現(xiàn)在呢？推理深度是時(shí)間換空間——你不需要更多的顯存，只需要多跑幾圈。

更重磅的是，這徹底改寫了AI的Scaling法則。以前拼的是誰(shuí)的參數(shù)多、誰(shuí)的GPU多、誰(shuí)的電費(fèi)賬單厚。

現(xiàn)在的規(guī)則變了：未來(lái)最強(qiáng)的模型，不是參數(shù)最多的，而是想得最多次的。

不過(guò)，作者也表示，這目前只是理論上的說(shuō)法，還需要保留一些意見(jiàn)。

高中畢業(yè)，就當(dāng)上了CEO

這位扒開(kāi)22歲Claude Mythos黑箱的大男孩Kye Gomez，是Swarms的創(chuàng)始人，之前還領(lǐng)導(dǎo)過(guò)Agora Labs。

他的研究重點(diǎn)是——大規(guī)模多智能體系統(tǒng)、替代模型架構(gòu)和多模態(tài)模型。

個(gè)人主頁(yè)顯示，Kye Gomez高中畢業(yè)之后，就開(kāi)始投身于創(chuàng)業(yè)。

在2021年-2024年間，他同時(shí)擔(dān)任了三家公司的聯(lián)創(chuàng)/CEO，創(chuàng)建立了一個(gè)以「APAC」為品牌的生態(tài)體系。

其覆蓋了AI深科技、媒體、食品科技等多個(gè)領(lǐng)域。

22歲小哥，開(kāi)源了Anthropic神級(jí)模型

這件事最讓人震撼的，不是架構(gòu)本身有多厲害。

是一個(gè)22歲的創(chuàng)業(yè)者，只用公開(kāi)論文和第一性原理，就把Anthropic藏了一年的黑箱直接復(fù)現(xiàn)了出來(lái)。

還全開(kāi)源了，而且只要幾行代碼就能跑。

這意味著什么？

閉源實(shí)驗(yàn)室的架構(gòu)優(yōu)勢(shì)，正在以肉眼可見(jiàn)的速度消失。

FT最新報(bào)道中，Dario Amodei重磅預(yù)測(cè)，中國(guó)將在12個(gè)月內(nèi)，完全復(fù)刻出具備Claude Mythos級(jí)別能力的大模型。

針對(duì)外界對(duì)LLM性能是否觸及天花板的質(zhì)疑，Amode用一句富有詩(shī)意的話給出了回應(yīng)——

彩虹沒(méi)有盡頭，只有彩虹本身。

他強(qiáng)調(diào)，目前完全看不到技術(shù)放緩的跡象。

當(dāng)一個(gè)人用公開(kāi)信息就能重建最核心的技術(shù)，護(hù)城河就不再是架構(gòu)了。

參考資料：

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.