網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Meta億元天團(tuán)首個(gè)大模型交卷！耗時(shí)九個(gè)月，一雪Llama前恥

2026-04-09 09:48:05　來(lái)源: 量子位

北京舉報(bào)

分享至

再見(jiàn)了，所有的羊駝。

亞歷山大王帶隊(duì)9個(gè)月從零重構(gòu)Meta所有AI技術(shù)棧，在不斷的質(zhì)疑中交出超級(jí)智能實(shí)驗(yàn)室第一個(gè)模型：

主打原生多模態(tài)的Muse Spark。

模型發(fā)布后，Meta股價(jià)火速拉升約7%，中間一度漲超近10%，當(dāng)日整體上漲6%左右。

市場(chǎng)的反應(yīng)可謂相當(dāng)熱烈。

隨手一扒你就會(huì)發(fā)現(xiàn)，這款模型背后藏著不少我們熟悉的高手：思維鏈作者Jason Wei、o1核心貢獻(xiàn)者Hyung Won Chung、被小扎天價(jià)挖來(lái)的余家輝、擴(kuò)散模型核心人物宋飏……

嗯？當(dāng)這群人湊在一起，很明顯你就會(huì)找到一個(gè)關(guān)鍵詞：推理。

沒(méi)錯(cuò)，據(jù)Jason Wei爆料，9個(gè)月前他們坐在一起討論時(shí)，首先寫下的就是一款用于推理的llama模型腳本，而現(xiàn)在，完全體終于誕生。

而頂尖高手+耗時(shí)9個(gè)月打磨，Muse Spark也總算讓Meta在第三方測(cè)評(píng)中趕上第一梯隊(duì)，一雪llama 4帶來(lái)的前恥。

而且很有意思的一點(diǎn)是，Meta這次一反常態(tài)，沒(méi)有反復(fù)強(qiáng)調(diào)自己拿了多少SOTA，而是稍顯克制地表示：

Muse Spark在多模態(tài)感知、推理、健康和自主任務(wù)方面表現(xiàn)不錯(cuò)，但在編程和長(zhǎng)時(shí)間自主運(yùn)行方面仍與對(duì)家的頂尖模型存在差距。

咳咳，看來(lái)之前l(fā)lama 4確實(shí)給Meta留下了心理陰影（doge）。

另外，Muse Spark的出生也終于讓長(zhǎng)期以來(lái)有關(guān)“Meta開閉源”的討論蓋棺定論：

這次是真閉源了。

目前這款模型已上線Meta網(wǎng)站和APP，API僅向部分合作伙伴開放。

（不過(guò)亞歷山大王還是留了個(gè)口子，表示“計(jì)劃未來(lái)開源后續(xù)版本”）

“Meta回來(lái)了”

老規(guī)矩，先看一波測(cè)評(píng)成績(jī)。

作為Meta迄今最強(qiáng)大的模型，Muse Spark這次主要在三個(gè)方面表現(xiàn)突出：

一是多模態(tài)理解能力。

不管是看論文圖表還是屏幕，各項(xiàng)得分要么第一、要么和Gemini 3.1 Pro、GPT 5.4等不相上下。

從網(wǎng)友們的測(cè)試來(lái)看，它好像尤為擅長(zhǎng)圖片轉(zhuǎn)代碼。

當(dāng)然文本能力也不差（doge），在網(wǎng)友的激情測(cè)試中，它就火速通過(guò)了新版弱智吧風(fēng)格的洗車測(cè)試。

100米外有個(gè)洗車店，我該開車去還是走路去。
Muse Spark：洗車當(dāng)然要把車開過(guò)去，但沒(méi)必要搞得跟上下班通勤似的。

（當(dāng)然也不排除是數(shù)據(jù)污染的問(wèn)題，畢竟問(wèn)題出來(lái)也挺久了…）

再一個(gè)就是工具調(diào)用能力，測(cè)評(píng)情況也和多模態(tài)理解能力類似。

以及這次Muse Spark著重強(qiáng)調(diào)的醫(yī)學(xué)能力。

由于和1000+醫(yī)生展開了合作，它不僅在開放式健康問(wèn)答HealthBench Hard上拿到42.8的最高分，而且在多模態(tài)醫(yī)學(xué)問(wèn)答MedXpertQA MM中位居前列。

不過(guò)短板我們開頭也說(shuō)了，Muse Spark仍在編程和Agent類任務(wù)上與其他頂尖選手存在差距。

可能也是為了盡量彌補(bǔ)這一點(diǎn)，他們這次還專門推出了Contemplating沉思模式。

主要是讓多個(gè)Agent同時(shí)思考同一個(gè)問(wèn)題，然后匯總結(jié)果找出最好的。

在這套打法下，Muse Spark就能和Gemini Deep Think、 GPT Pro這類極限推理模式展開正面PK了。

比如在“人類最后的考試”中，Muse Spark明顯壓過(guò)一頭（不過(guò)在物理奧賽理論題中還是略遜一籌）。

（目前沉思模式正在Meta網(wǎng)站灰度測(cè)試）

另外值得一提的是，Meta這次無(wú)預(yù)告直接上線了“購(gòu)物模式”。

亞歷山大王表示，模型會(huì)結(jié)合用戶在ins、Facebook、Threads上關(guān)注的創(chuàng)作者和品牌偏好，做個(gè)性化的購(gòu)物推薦。

好好好，這次也不給你討論的機(jī)會(huì)了，之前OpenAI可沒(méi)少因?yàn)閺V告挨罵。

目前，隨著Muse Spark測(cè)評(píng)一同出爐的，還有第三方機(jī)構(gòu)的測(cè)評(píng)。

他們拿到Muse Spark的早期訪問(wèn)權(quán)測(cè)了一波，然后給出了一個(gè)結(jié)論：Meta回來(lái)了！

在關(guān)鍵指標(biāo)人工智能分析指數(shù)上，其得分僅次于Gemini 3.1 Pro、GPT-5.4和Claude Opus 4.6。

這也和Muse Spark自己給出的測(cè)評(píng)成績(jī)差不多。

對(duì)外界而言，初步來(lái)看，Muse Spark確實(shí)把Meta重新帶回了人工智能第一梯隊(duì)。

背后訓(xùn)練細(xì)節(jié)

至于Muse Spark是如何做到這一點(diǎn)的，Meta也公布了背后的訓(xùn)練細(xì)節(jié)。

核心其實(shí)就是亞歷山大王提到的：9個(gè)月重構(gòu)一切。

新的基礎(chǔ)設(shè)施、新的架構(gòu)、新的數(shù)據(jù)管道。

具體可以看網(wǎng)友給大家劃的重點(diǎn)：

在預(yù)訓(xùn)練階段，能夠以比Llama 4 少10倍以上的計(jì)算量達(dá)到相同的性能水平。
強(qiáng)化學(xué)習(xí)訓(xùn)練展現(xiàn)出平滑且可預(yù)測(cè)的改進(jìn)，具有良好的泛化能力和可擴(kuò)展性。
Test-time階段，在加入長(zhǎng)度懲罰機(jī)制后，“思維壓縮”開始生效，模型學(xué)會(huì)了用更少的token解決問(wèn)題。

Meta在博客中介紹，過(guò)去9個(gè)月，他們對(duì)Muse Spark的預(yù)訓(xùn)練技術(shù)棧進(jìn)行了全面升級(jí)。

所有改進(jìn)的目標(biāo)，都是為了讓每一分算力都能產(chǎn)生更大的價(jià)值。

為了驗(yàn)證效果，他們做了一個(gè)對(duì)比實(shí)驗(yàn)：先用一系列小模型擬合出一條“算力-能力”的Scaling曲線，然后計(jì)算要達(dá)到某個(gè)性能水平具體需要多少算力。

結(jié)果發(fā)現(xiàn)，相比Llama 4，Muse Spark達(dá)到同樣水平所需要的計(jì)算量低了一個(gè)數(shù)量級(jí)以上（10.3倍）。

預(yù)訓(xùn)練完成后，他們進(jìn)一步用強(qiáng)化學(xué)習(xí)來(lái)提升模型能力。

雖然大規(guī)模RL訓(xùn)練通常很不穩(wěn)定，但他們聲稱自己的新架構(gòu)做到了“穩(wěn)中有進(jìn)”。

如下圖所示，隨著RL訓(xùn)練步數(shù)增加，模型在訓(xùn)練數(shù)據(jù)上的成功率（無(wú)論是單次嘗試還是16次中至少成功一次）呈現(xiàn)對(duì)數(shù)線性增長(zhǎng)。

這說(shuō)明，RL在提升可靠性的同時(shí)，沒(méi)有破壞推理的多樣性。

而且在模型從未見(jiàn)過(guò)的任務(wù)上，準(zhǔn)確率同樣在穩(wěn)步提升——這說(shuō)明RL帶來(lái)的能力提升是可預(yù)測(cè)、可泛化的，不是死記硬背。

以及為了讓模型在回答復(fù)雜問(wèn)題之前先“想一想”，團(tuán)隊(duì)仍用強(qiáng)化學(xué)習(xí)訓(xùn)練它具備這種“測(cè)試時(shí)推理”能力。

不過(guò)需要注意，實(shí)踐證明Test-time階段的推理尤為耗費(fèi)token，所以如何精打細(xì)算也是這一階段的重點(diǎn)。

對(duì)此，他們用了兩個(gè)關(guān)鍵手段來(lái)平衡效果與效率：

一是思考時(shí)間懲罰。鼓勵(lì)模型用更短的推理路徑得出正確答案，倒逼它學(xué)會(huì)“思維壓縮”。

二是多智能體協(xié)作。讓多個(gè)模型或模塊協(xié)同工作，在保證響應(yīng)速度不降的前提下提升整體表現(xiàn)。

然后在AIME這類高難度評(píng)測(cè)集上，他們觀察到了一個(gè)有趣的“三階段變化”：

模型一開始會(huì)不自覺(jué)延長(zhǎng)思考，希望通過(guò)拉長(zhǎng)推理過(guò)程來(lái)提高正確率。

但這會(huì)馬上觸發(fā)“思考時(shí)間懲罰”，于是模型被迫精簡(jiǎn)推理，學(xué)會(huì)用更少的token解決問(wèn)題。

而在精簡(jiǎn)之后，模型還表現(xiàn)出了擴(kuò)展性能——在高效的基礎(chǔ)上繼續(xù)優(yōu)化解法，最終實(shí)現(xiàn)用更少的資源獲得更強(qiáng)的性能表現(xiàn)。

也不乏翻車的

不過(guò)前面也說(shuō)了，Muse Spark雖然將Meta帶回了第一梯隊(duì)，但在編程、Agent類任務(wù)上仍有不足。

這不，模型剛發(fā)布，翻車集錦也來(lái)了……

有人想用它生成網(wǎng)站，結(jié)果3個(gè)請(qǐng)求一個(gè)都沒(méi)實(shí)現(xiàn)，而且連最基本的前端都無(wú)。

不過(guò)后來(lái)貼主發(fā)現(xiàn)可能是偶然錯(cuò)誤，模型正常情況下做出來(lái)的前端是這樣的。

一個(gè)簡(jiǎn)單的編程任務(wù)，Muse Spark雖生成了一大堆東西，但根本跑不通。

在一個(gè)Python文件里實(shí)現(xiàn)自動(dòng)微分（autograd）和神經(jīng)網(wǎng)絡(luò)。

網(wǎng)友甚至調(diào)侃，模型根本沒(méi)在學(xué)，訓(xùn)練了1800個(gè)epoch，損失函數(shù)卻一直卡在同一個(gè)值上沒(méi)動(dòng)過(guò)。

白白浪費(fèi)算力了……

（正常情況下，隨著訓(xùn)練進(jìn)行損失應(yīng)該逐步下降，表明模型在“學(xué)習(xí)”）

所以問(wèn)題來(lái)了，有試過(guò)的朋友覺(jué)得亞歷山大王的首個(gè)模型如何？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

Meta重組AI團(tuán)隊(duì)后首個(gè)模型來(lái)了：不是最強(qiáng)、不再開源、可能夠用

DeepTech深科技 2026-04-09 10:19:10
0 跟貼 0
突然襲擊！剛剛，Meta超級(jí)智能團(tuán)隊(duì)首個(gè)大模型來(lái)了

機(jī)器之心Pro 2026-04-09 09:23:53
0 跟貼 0

Sakana AI造了個(gè)數(shù)字生命「培養(yǎng)皿」，AI學(xué)會(huì)打架、結(jié)盟、搶地盤

機(jī)器之心Pro 2025-11-05 13:58:14
0 跟貼 0

重構(gòu)跨域RL框架！理論驅(qū)動(dòng)「雙重對(duì)齊」讓跨域遷移「質(zhì)變」

機(jī)器之心Pro 2026-04-02 14:58:04
0 跟貼 0
不止動(dòng)起來(lái)：SentiAvatar重新定義3D數(shù)字人動(dòng)作生成范式

機(jī)器之心Pro 2026-04-08 11:23:10
0 跟貼 0

CVPR 2026｜1分鐘單圖變4D視頻！AI看圖直接腦補(bǔ)物理規(guī)律

機(jī)器之心Pro 2026-04-08 12:04:29
0 跟貼 0

AI數(shù)據(jù)獨(dú)角獸遭黑客攻擊，一周內(nèi)吃了5場(chǎng)官司，Meta緊急暫停合作

智東西 2026-04-09 10:18:49
0 跟貼 0
支持遠(yuǎn)程操控和通用GUI操作3

機(jī)器之心Pro 2026-03-02 13:36:13
0 跟貼 0

爆火GitHub！《生化危機(jī)》女主打造免費(fèi)“AI記憶系統(tǒng)”

量子位 2026-04-09 13:09:00
2 跟貼 2
讓機(jī)器人學(xué)會(huì)手往哪兒伸、怎么操作，東大團(tuán)隊(duì)給了新解法

機(jī)器之心Pro 2026-04-09 12:14:48
0 跟貼 0
205億沒(méi)談攏，黃仁勛的“盟友”出手了

智東西 2026-04-09 14:09:35
0 跟貼 0
幫普通人「馴服」Agent，這支硅谷初創(chuàng)團(tuán)隊(duì)沖上了X全球熱搜

機(jī)器之心Pro 2026-04-09 14:13:36
0 跟貼 0
妹妹生孩子當(dāng)天，妹夫撿回一個(gè)男嬰，兩個(gè)孩子就成了雙胞胎兄弟

懂八煉金室 2026-04-07 13:08:15
0 跟貼 0
退休金1萬(wàn)2吃榴蓮被女兒質(zhì)問(wèn)，你配嗎？給她斷供后他們一家傻眼了

雪姐故事多 2026-04-08 09:08:16
0 跟貼 0
能力太強(qiáng)，Mythos被Anthropic“凍結(jié)”

虎嗅APP 2026-04-09 03:25:07
2 跟貼 2
霍爾木茲海峽已再次關(guān)閉

央視新聞客戶端 2026-04-09 05:32:07
24275 跟貼 24275
生成式推理再排序，可能會(huì)是LLM4RecSys的新突破口嗎？

機(jī)器之心Pro 2026-04-08 11:52:53
0 跟貼 0
蘇州CNC數(shù)控培訓(xùn)新方法：RPEC實(shí)戰(zhàn)論助力畢業(yè)生即刻上崗！

隨性汽車 2026-04-09 01:00:35
0 跟貼 0
阿杜家事變回應(yīng)：真相大揭秘

城市植愈所 2026-04-07 06:01:33
8 跟貼 8
美軍拯救2名F15飛行員全過(guò)程曝光！這次特朗普沒(méi)有吹牛

知識(shí)圈 2026-04-07 14:35:09
12989 跟貼 12989
FysicsWorld：填補(bǔ)全模態(tài)交互與物理感知評(píng)測(cè)的空白

機(jī)器之心Pro 2025-12-29 14:38:56
0 跟貼 0
動(dòng)畫詳解：瘋狂的 F-15 救援任務(wù)

不一定有用的頻道 2026-04-08 07:57:38
6012 跟貼 6012
鄭麗文在洋山港區(qū)被記者包圍近1米8的身高"鶴立雞群"

全球速覽 2026-04-09 10:46:54
31 跟貼 31
僅憑一個(gè)細(xì)節(jié)就能破案，這推理能力太絕了，真相背后大有文章

尚悅電影 2026-04-09 11:00:40
1 跟貼 1
全程燒腦！這部高分推理韓綜值得一看！

韓影推薦MC 2026-04-08 12:55:13
1 跟貼 1
黑熊在道路上翻滾疑受傷？林草局：從山上滾落下來(lái)的，沒(méi)有受傷

星辰視頻 2026-04-06 15:41:39
3310 跟貼 3310
鄭麗文一行到上海美團(tuán)參觀

頭條爆料007 2026-04-08 18:20:18
125 跟貼 125
騎車大叔不斷調(diào)整依然無(wú)法通過(guò) 把將隨意停放擋路的電瓶車推倒

橙薪視頻 2026-04-06 17:07:58
0 跟貼 0
爬山遇到拾荒美女，簡(jiǎn)直就是最美的巡山“清道夫”

美女歡樂(lè)多 2026-04-07 18:01:00
0 跟貼 0
中俄投下反對(duì)票！傅聰：不給使用武力開通行證

看看新聞Knews 2026-04-08 16:59:04
18805 跟貼 18805
上海消保委測(cè)評(píng)“二次元衣櫥”：四成消費(fèi)者認(rèn)為市場(chǎng)上盜版太多

澎湃新聞 2026-04-09 14:18:26
0 跟貼 0
鄭麗文聽到臺(tái)灣小伙娶了上海姑娘，笑得合不攏嘴

喜文多見(jiàn)01 2026-04-09 11:18:23
48 跟貼 48
女子回應(yīng)“漢堡自助吃太多被拒絕接待”：不接受道歉，更不要賠償涉事店鋪去年被列為經(jīng)營(yíng)異常

紅星新聞 2026-04-08 19:52:16
4094 跟貼 4094
2000?問(wèn)卷＋30款測(cè)評(píng)：揭開二次元衣櫥的秘密｜申評(píng)測(cè)

申消費(fèi) 2026-04-09 10:58:45
0 跟貼 0
鄭麗文前往浙江參訪男保鏢抿嘴警惕女保鏢緊盯接待方

全球速覽 2026-04-09 10:02:03
29 跟貼 29
鄭麗文一行參觀上海洋山港接待人員神情輕松聊天

全球速覽 2026-04-09 10:12:35
3 跟貼 3
伊朗無(wú)人機(jī)航拍美軍被炸運(yùn)輸機(jī)殘骸燒得一片漆黑

軍情透視 2026-04-05 18:30:31
472 跟貼 472
特朗普披露營(yíng)救F-15飛行員內(nèi)幕：帶傷攀爬峭壁、大量流血自行包扎

知識(shí)圈 2026-04-07 14:51:37
2405 跟貼 2405
英國(guó)74歲奶奶獨(dú)自游中國(guó)，各地網(wǎng)友接力搶著當(dāng)導(dǎo)游，吉首大學(xué)學(xué)生：她在享受生活

瀟湘晨報(bào) 2026-04-08 18:04:41
1109 跟貼 1109
這取款機(jī)是純?nèi)斯ぶ悄馨?/a>

長(zhǎng)歌追劇 2026-04-08 08:20:53
1 跟貼 1

縣長(zhǎng)提拔干部讓人看不懂，組織部長(zhǎng)質(zhì)疑，出事后才知真相

量子位

追蹤人工智能動(dòng)態(tài)

12447文章數(shù) 176447關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術(shù)

親子

本地

時(shí)尚

軍事航空

手機(jī) / 數(shù)碼

房產(chǎn) / 家居

Meta億元天團(tuán)首個(gè)大模型交卷！耗時(shí)九個(gè)月，一雪Llama前恥

Meta凌晨首發(fā)閉源大模型 扎克伯格又行了？

陳麗華告別儀式舉辦 馬德華：遲重瑞心里很難過(guò)

陳麗華告別儀式舉辦 馬德華：遲重瑞心里很難過(guò)

8萬(wàn)人面前心臟驟停 現(xiàn)在他還站在球場(chǎng)上

金莎官宣結(jié)婚 與老公孫丞瀟相差18歲

談判基礎(chǔ)已被破壞！霍爾木茲海峽關(guān)閉

8155芯片+L2智駕 瑞虎5運(yùn)動(dòng)版上市 置換補(bǔ)貼價(jià)6.79萬(wàn)元起

態(tài)度原創(chuàng)

龐茂琨 2026油畫寫生新作

以人類目前的意志力還不足以抵抗這種萌物

建水Color Walk | 古城慢調(diào)，掉進(jìn)春天的調(diào)色盤里

ED網(wǎng)紅病，正在掏空年輕女性

黎真主黨發(fā)射火箭彈 回應(yīng)以違反停火協(xié)議

Meta凌晨首發(fā)閉源大模型扎克伯格又行了？

陳麗華告別儀式舉辦馬德華：遲重瑞心里很難過(guò)

陳麗華告別儀式舉辦馬德華：遲重瑞心里很難過(guò)

8萬(wàn)人面前心臟驟停現(xiàn)在他還站在球場(chǎng)上

金莎官宣結(jié)婚與老公孫丞瀟相差18歲

8155芯片+L2智駕瑞虎5運(yùn)動(dòng)版上市置換補(bǔ)貼價(jià)6.79萬(wàn)元起

黎真主黨發(fā)射火箭彈回應(yīng)以違反停火協(xié)議