337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Mythos核心架構(gòu)開(kāi)源!22歲天才一人破解,融合DeepSeek思路

0
分享至


新智元報(bào)道

編輯:桃子

【新智元導(dǎo)讀】Claude Mythos核心架構(gòu),竟被一個(gè)22歲天才扒了個(gè)精光!OpenMythos現(xiàn)已全開(kāi)源,不靠堆參數(shù),原地「循環(huán)思考」16次就能推理。閉源實(shí)驗(yàn)室的護(hù)城河,真的還在嗎?

簡(jiǎn)直太瘋狂了!

Anthropic捂得最嚴(yán)實(shí)的Claude Mythos,竟被一個(gè)22歲的年輕人扒開(kāi)了。


不是泄露,不是內(nèi)部員工跳槽帶出來(lái)的。

是一個(gè)叫Kye Gomez的初創(chuàng)CEO,以第一性原理,硬生生把Claude Mythos的核心架構(gòu)從頭推導(dǎo)了出來(lái)。

更炸裂的是,他把這一項(xiàng)目——OpenMythos全開(kāi)源了



復(fù)現(xiàn)帖引近100萬(wàn)人圍觀

一時(shí)間,全網(wǎng)都坐不住了,網(wǎng)友們紛紛驚嘆Mythos背景精妙的設(shè)計(jì)。




不堆參數(shù),原地「循環(huán)思考」16次

先說(shuō)結(jié)論,Kye Gomez認(rèn)為——

Claude Mythos的核心不是一個(gè)更大的Transformer,而是一種叫做「循環(huán)深度Transformer」(Recurrent-Depth Transformer, RDT)的架構(gòu)

說(shuō)白了就是,同一套權(quán)重,在一次前向傳播里循環(huán)跑最多16次。


傳統(tǒng)大模型像蓋高樓,一層一層往上堆參數(shù)。100層不夠就200層,200層不夠就500層。

參數(shù)越多,模型越大,顯存吃得越猛,訓(xùn)練成本越恐怖。

但RDT完全換了一個(gè)思路:不蓋高樓,原地跑圈。

模型只有一個(gè)核心計(jì)算塊,但這個(gè)塊會(huì)被反復(fù)執(zhí)行。每循環(huán)一次,隱藏狀態(tài)就更新一次,就相當(dāng)于「多想了一步」。

而且所有的思考都在連續(xù)潛空間里默默進(jìn)行——不用像思維鏈(CoT)那樣,每一步都吐出可見(jiàn)的token。

這不是重復(fù)計(jì)算,是迭代推理。


架構(gòu)全拆解:三段式設(shè)計(jì)

整個(gè)OpenMythos的架構(gòu)分三段:

Prelude(序曲)→ Recurrent Block(循環(huán)核心)→ Coda(終章)

Prelude和Coda是標(biāo)準(zhǔn)的Transformer層,各跑一次。

真正的計(jì)算核心是中間的「循環(huán)塊」,它最多循環(huán)16次,每次循環(huán)的更新規(guī)則是:

h_{t+1} = A·h_t + B·e + Transformer(h_t, e)

其中e是Prelude編碼后的原始輸入,每一步都會(huì)被重新注入,防止模型在循環(huán)中「跑偏」。


MoE給廣度,循環(huán)給深度

光靠循環(huán)能解釋Mythos推理的「深度」,但解釋不了廣度。

OpenMythos在循環(huán)核心的每個(gè)FFN層,都替換成了MoE層,設(shè)計(jì)參考了DeepSeek-MoE:

  • 大量細(xì)粒度的路由專家;

  • 每個(gè)token只激活其中一小部分;

  • 少量「共享專家」始終激活,負(fù)責(zé)吸收跨領(lǐng)域的通用知識(shí)。

最精妙的一點(diǎn),隨著隱藏狀態(tài)h_t在循環(huán)中不斷演化,路由器在每一層循環(huán)深度會(huì)選擇不同的專家子集。

也就是說(shuō),雖然權(quán)重共享,但每次循環(huán)的計(jì)算路徑完全不同:

MoE提供廣度,循環(huán)提供深度。


項(xiàng)目地址:https://github.com/kyegomez/OpenMythos

注意力機(jī)制默認(rèn)使用「多潛變量注意力」(Multi-Latent Attention),來(lái)自DeepSeek-V2,把KV緩存壓縮成低秩潛變量,在生產(chǎn)規(guī)模下能實(shí)現(xiàn)10-20倍的KV顯存節(jié)省。

三個(gè)額外機(jī)制保證循環(huán)穩(wěn)定性:LTI約束注入(譜半徑強(qiáng)制小于1)、自適應(yīng)計(jì)算時(shí)間(ACT)逐位置停機(jī)、以及深度級(jí)LoRA適配器讓每次迭代都有獨(dú)立的行為調(diào)整能力。

細(xì)思極恐,這套設(shè)計(jì)精密得像一臺(tái)瑞士鐘表。

770M打平1.3B,參數(shù)效率直接翻倍

這不是嘴上說(shuō)說(shuō)。

此前,來(lái)自Parcae團(tuán)隊(duì)的實(shí)驗(yàn)數(shù)據(jù):一個(gè)770M參數(shù)的循環(huán)模型,在同等訓(xùn)練數(shù)據(jù)下,能達(dá)到1.3B標(biāo)準(zhǔn)Transformer的下游任務(wù)質(zhì)量。

換句話說(shuō)——用一半的參數(shù),干了同樣的活。


這對(duì)整個(gè)行業(yè)意味著什么?

對(duì)消費(fèi)級(jí)硬件來(lái)說(shuō),這是天大的利好。以前跑個(gè)像樣的模型,沒(méi)有A100你連門都進(jìn)不了。

現(xiàn)在呢?推理深度是時(shí)間換空間——你不需要更多的顯存,只需要多跑幾圈。

更重磅的是,這徹底改寫了AI的Scaling法則。以前拼的是誰(shuí)的參數(shù)多、誰(shuí)的GPU多、誰(shuí)的電費(fèi)賬單厚。

現(xiàn)在的規(guī)則變了:未來(lái)最強(qiáng)的模型,不是參數(shù)最多的,而是想得最多次的。

不過(guò),作者也表示,這目前只是理論上的說(shuō)法,還需要保留一些意見(jiàn)。


高中畢業(yè),就當(dāng)上了CEO

這位扒開(kāi)22歲Claude Mythos黑箱的大男孩Kye Gomez,是Swarms的創(chuàng)始人,之前還領(lǐng)導(dǎo)過(guò)Agora Labs。

他的研究重點(diǎn)是——大規(guī)模多智能體系統(tǒng)、替代模型架構(gòu)和多模態(tài)模型。


個(gè)人主頁(yè)顯示,Kye Gomez高中畢業(yè)之后,就開(kāi)始投身于創(chuàng)業(yè)。


在2021年-2024年間,他同時(shí)擔(dān)任了三家公司的聯(lián)創(chuàng)/CEO,創(chuàng)建立了一個(gè)以「APAC」為品牌的生態(tài)體系。

其覆蓋了AI深科技、媒體、食品科技等多個(gè)領(lǐng)域。


22歲小哥,開(kāi)源了Anthropic神級(jí)模型

這件事最讓人震撼的,不是架構(gòu)本身有多厲害。

是一個(gè)22歲的創(chuàng)業(yè)者,只用公開(kāi)論文和第一性原理,就把Anthropic藏了一年的黑箱直接復(fù)現(xiàn)了出來(lái)。

還全開(kāi)源了,而且只要幾行代碼就能跑。

這意味著什么?

閉源實(shí)驗(yàn)室的架構(gòu)優(yōu)勢(shì),正在以肉眼可見(jiàn)的速度消失。

FT最新報(bào)道中,Dario Amodei重磅預(yù)測(cè),中國(guó)將在12個(gè)月內(nèi),完全復(fù)刻出具備Claude Mythos級(jí)別能力的大模型。


針對(duì)外界對(duì)LLM性能是否觸及天花板的質(zhì)疑,Amode用一句富有詩(shī)意的話給出了回應(yīng)——

彩虹沒(méi)有盡頭,只有彩虹本身。

他強(qiáng)調(diào),目前完全看不到技術(shù)放緩的跡象。

當(dāng)一個(gè)人用公開(kāi)信息就能重建最核心的技術(shù),護(hù)城河就不再是架構(gòu)了。

參考資料:

https://x.com/KyeGomezB/status/2045659150340723107?s=20

https://github.com/kyegomez/OpenMythos

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
光通信黃金十年開(kāi)啟!磷化銦、鈮酸鋰、光芯片怎么選?

光通信黃金十年開(kāi)啟!磷化銦、鈮酸鋰、光芯片怎么選?

林子說(shuō)事
2026-04-20 18:10:31
如果一個(gè)家庭長(zhǎng)期沒(méi)酒局、沒(méi)社交,也少走親戚,只能說(shuō)明一個(gè)問(wèn)題

如果一個(gè)家庭長(zhǎng)期沒(méi)酒局、沒(méi)社交,也少走親戚,只能說(shuō)明一個(gè)問(wèn)題

大熊歡樂(lè)坊
2026-04-19 12:07:22
路透社披露伊朗核心機(jī)密:哈梅內(nèi)伊毀容嚴(yán)重,雙腿重創(chuàng)無(wú)法行走

路透社披露伊朗核心機(jī)密:哈梅內(nèi)伊毀容嚴(yán)重,雙腿重創(chuàng)無(wú)法行走

人生錄
2026-04-19 18:57:56
中國(guó)絕不談判!光刻機(jī)封鎖,全球供應(yīng)鏈陷入“地震”,誰(shuí)最著急?

中國(guó)絕不談判!光刻機(jī)封鎖,全球供應(yīng)鏈陷入“地震”,誰(shuí)最著急?

觸摸史跡
2026-04-20 10:52:09
善惡終有報(bào)!不顧央視警告,與劉濤傳出緋聞的楊爍,終究難逃惡果

善惡終有報(bào)!不顧央視警告,與劉濤傳出緋聞的楊爍,終究難逃惡果

無(wú)處不風(fēng)景l(fā)ove
2026-03-22 18:01:05
中國(guó)航司大面積取消日本航班,武漢已無(wú)直飛日本航班

中國(guó)航司大面積取消日本航班,武漢已無(wú)直飛日本航班

極目新聞
2026-04-19 19:55:25
金卡戴珊與F1七冠王正式官宣!當(dāng)年侃爺?shù)暮眯值埽缃駬А吧┳印比蛐愣鲪?ài)?

金卡戴珊與F1七冠王正式官宣!當(dāng)年侃爺?shù)暮眯值埽缃駬А吧┳印比蛐愣鲪?ài)?

英國(guó)報(bào)姐
2026-04-20 21:11:24
不可錯(cuò)過(guò)!4月20日晚上19:35比賽!中央5套CCTV5、CCTV5+直播表

不可錯(cuò)過(guò)!4月20日晚上19:35比賽!中央5套CCTV5、CCTV5+直播表

動(dòng)物奇奇怪怪
2026-04-20 19:34:43
女演員千萬(wàn)別整容!看“金像獎(jiǎng)紅毯”章子怡,舒淇同框,就懂了

女演員千萬(wàn)別整容!看“金像獎(jiǎng)紅毯”章子怡,舒淇同框,就懂了

童叔不飆車
2026-04-20 09:49:21
無(wú)緣對(duì)陣湖人?杜蘭特傷情曝光,令人沮喪,原因找到了,火箭表態(tài)

無(wú)緣對(duì)陣湖人?杜蘭特傷情曝光,令人沮喪,原因找到了,火箭表態(tài)

萌蘭聊個(gè)球
2026-04-20 08:46:07
巴鐵1.3萬(wàn)中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

巴鐵1.3萬(wàn)中械師進(jìn)沙特,阿聯(lián)酋提1500億進(jìn)京,中東變天了

戰(zhàn)爭(zhēng)史
2026-04-20 11:04:19
軍事 | 與自衛(wèi)隊(duì)有關(guān)的一系列事情,他們不是普通地刷存在感!

軍事 | 與自衛(wèi)隊(duì)有關(guān)的一系列事情,他們不是普通地刷存在感!

新民周刊
2026-04-20 09:08:09
江西省委組織部:陳克龍、方向軍,擬任市委書記

江西省委組織部:陳克龍、方向軍,擬任市委書記

上觀新聞
2026-04-20 17:48:10
更新大潮來(lái)了?中央發(fā)文定調(diào):2026年起20年房齡老房子或又吃香了

更新大潮來(lái)了?中央發(fā)文定調(diào):2026年起20年房齡老房子或又吃香了

專業(yè)聊房君
2026-04-18 16:45:50
臺(tái)灣問(wèn)題即將突破臨界點(diǎn)??jī)纱筵E象表明,大陸可能要準(zhǔn)備出手了

臺(tái)灣問(wèn)題即將突破臨界點(diǎn)??jī)纱筵E象表明,大陸可能要準(zhǔn)備出手了

人生就是要簡(jiǎn)單
2026-04-19 14:12:33
宿茂臻:于指導(dǎo)把天津隊(duì)帶得不錯(cuò);王大雷比目魚肌有些拉傷

宿茂臻:于指導(dǎo)把天津隊(duì)帶得不錯(cuò);王大雷比目魚肌有些拉傷

懂球帝
2026-04-20 18:27:08
大S到死都沒(méi)料到!她走后,真心疼玥兒箖箖竟是被她拉黑的前婆婆

大S到死都沒(méi)料到!她走后,真心疼玥兒箖箖竟是被她拉黑的前婆婆

情感大頭說(shuō)說(shuō)
2026-04-20 15:16:32
中方愿于2027年4月在上海承辦亞太經(jīng)社會(huì)第83屆年會(huì)

中方愿于2027年4月在上海承辦亞太經(jīng)社會(huì)第83屆年會(huì)

新京報(bào)
2026-04-20 21:26:04
金·卡戴珊與漢密爾頓同框約會(huì)氛圍感拉滿

金·卡戴珊與漢密爾頓同框約會(huì)氛圍感拉滿

述家?jiàn)视?/span>
2026-04-20 11:52:25
71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

71.5%!歷史性暴跌,以貸養(yǎng)貸的泡沫崩了

月滿大江流
2026-04-16 13:54:38
2026-04-20 22:07:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
15021文章數(shù) 66790關(guān)注度
往期回顧 全部

科技要聞

HUAWEI Pura X Max發(fā)布 售價(jià)10999元起

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購(gòu)

頭條要聞

保價(jià)2000元機(jī)蓋運(yùn)輸中損壞 德邦僅愿以1300元回購(gòu)

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂(lè)要聞

《八千里路云和月》田家泰暗殺

財(cái)經(jīng)要聞

利潤(rùn)暴跌7成,字節(jié)到底在做什么

汽車要聞

把天門山搬進(jìn)廠?開(kāi)仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

教育
家居
數(shù)碼
公開(kāi)課
軍事航空

教育要聞

關(guān)注!海淀這所學(xué)校不再具備辦學(xué)資格

家居要聞

自然慢調(diào) 慢享時(shí)光

數(shù)碼要聞

惠普推出2026款HyperX暗影精靈MAX游戲本

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:美艦向伊朗貨船開(kāi)火炸出個(gè)洞

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版