![]()
智東西
作者 陳駿達
編輯 云鵬
Meta的“牛油果”模型,終于熟了!
智東西4月9日報道,今天,在成立9個月后,Meta超級智能實驗室(MSL)發布了其首款模型Muse Spark(內部代號牛油果)。這是一個原生的多模態推理模型,支持工具使用、視覺思維鏈和多智能體編排。
在大模型測評平臺Artificial Analysis上,Muse Spark的智能指數直接從Llama 4 Maverick的18分,跳到了52分,介于Claude Sonnet 4.6和Claude Opus 4.6之間,算是進入第一梯隊了。
![]()
我們第一時間對模型做了體驗,上傳了一張豆包App的截圖,要求Muse Spark復刻。可以看到Muse Spark的回復風格比較口語化,甚至有一股“豆包味兒”,這可能是因為這一模型主要面向C端用戶。
![]()
Muse Spark的生成速度很快,效果也不錯,基本1:1復刻了豆包的頁面,連圖像都還原了。
![]()
Muse Spark還通過了小球彈跳測試。有網友感嘆道,時隔1年多,Meta終于發了一款能通過六邊形小球彈跳測試的大模型,這一歷史性時刻值得記錄。
![]()
Muse Spark是ScaleAI創始人、Meta首席AI官汪滔(Alexandr Wang)加入Meta 10個月后,交出的首份答卷。
![]()
這一結果來的并不容易,此前,在Llama 4遭遇史詩級滑鐵盧后,Meta大刀闊斧地重組了AI團隊,唱衰大語言模型的楊立昆也最終離開。
汪滔稱,Meta在過去9個月從零開始打造AI技術棧,基礎設施、架構、數據管線都是全新的,Muse Spark正是這些努力的成果。
加入Meta的不少華人AI大牛紛紛轉發了這一成果,包括趙晟佳、畢樹超、余家輝、Jason Wei等等。值得一提的是,MSL團隊的華人濃度很高,在轉發新模型的Meta研究員中,從領導到基層員工,許多都是華人。
![]()
另據Top華人科創社的報道,Meta還迎來了一位新的華人大牛,前螞蟻集團RL實驗室首席科學家吳翼加盟了Meta MSL,直接向Meta副總裁和MSL聯合負責人Nat Friedman匯報。
![]()
Muse Spark是MSL Muse系列模型中的首款,未來還會有更多該系列模型發布。目前Muse Spark已開始逐步推送至Meta旗下的應用和Meta.ai網頁端,不過仍有用戶反映自己使用的模型仍是Llama 3。
![]()
同時,“開源”兩個字在相關博客中,一次也未被提及。
體驗鏈接:meta.ai
一、多模態、醫療健康表現突出,智能體和編程仍是短板
從基準測試結果來看,Muse Spark在多模態感知、推理、醫療健康和智能體等領域的表現處于行業第一梯隊。不過,MSL承認這一模型在長程智能體系統和編程工作流方面性能尚有差距。
以下是Muse Spark完整的基準測試成績。需要注意的是,Meta在這里采用了一些有“圖表詐騙”嫌疑的數據呈現方式。乍一看,Muse Spark的所有成績都被標藍,似乎全面領先,但實際上這一模型在圖中的20項基準測試中,拿到的SOTA數量為4個。
![]()
在多模態能力維度,Muse Spark的表現較有競爭力,在美國大模型圈沒有被拉開明顯代差,基本和GPT-5.4處在同一水平線上。Muse Spark的表現也符合其原生多模態大模型的定位。
作為一款將部署于Meta旗下眾多社交媒體、面向廣大個人用戶的模型,Muse Spark在用戶高頻關注的醫療健康領域同樣沒有掉隊。在HealthBench Hard與MedXpertQA(多模態)兩項評測中均斬獲SOTA,顯然對此進行了重點優化。
Muse Spark本次還發布了“沉思模式(Contemplating mode)”,該模式可協調多個智能體并行推理。這使得Muse Spark能夠與Gemini Deep Think和GPT Pro等前沿模型的極限推理模式相媲美。
開啟“沉思模式”后,Muse Spark在復雜任務中的能力得以提升,比如它在HLE“人類最后的考試”基準測試中,取得了58%的正確率,在“前沿科學研究”基準測試中取得了38%的正確率。
![]()
二、所需算力資源比Llama 4少一個量級,采用新型強化學習技術棧
跑分之外,這一模型的新定位和背后技術,也值得關注。
Meta稱,Muse Spark是邁向個人超級智能的第一步,它能夠理解用戶所處的世界,多模態能力和醫療健康就是當前的兩個重點。
Muse Spark從底層架構層面,整合了跨領域和工具的視覺信息,在識別、定位方面的能力不錯。這些功能結合起來,可以實現各種交互式體驗。
例如,用戶可以上傳一張游戲畫面截圖,然后讓Muse Spark把它變成一個能真正互動的游戲。
![]()
或是告知Muse Spark自己有高膽固醇的問題,并讓Muse Spark基于多模態能力和醫療知識,做一個動態的食物推薦頁面。
![]()
Meta在博客中分享的demo也僅僅涉及多模態和醫療健康領域,這或許意味著Muse系列模型最終的用途,仍然是服務于扎克伯格的個人超級智能愿景,而不是單純地追求智能上限。
在技術方面,MSL大幅度提升了算力利用率,與之前的模型Llama 4 Maverick相比,Muse Spark用少一個數量級以上的計算資源就能達到相同的性能。
![]()
同時,MSL還在強化學習階段采用了新技術棧,在大規模強化學習中帶來平穩、可預測的性能提升。
![]()
三、一手實測:精準識別食物熱量,還給Meta AI眼鏡造了個新品
Muse Spark發布后,我們進行了更多實測。
Muse Spark的多模態能力確實不錯,我們上傳了一個啤酒瓶的照片,讓它分析熱量。Muse Spark一眼就看出了啤酒的品牌、大小,甚至連原圖中肉眼都難以分辨的酒精度都準確識別出來了。
![]()
它對于熱量的分析則來自搜索,還把熱量轉換成了我們日常吃的食物,并給出要消耗這些熱量對應的運動量,是比較實用的。
![]()
我們緊接著讓Muse Spark給Meta的AI眼鏡做一個宣傳網頁,沒給任何參考。可以看到,在思考過程中Muse Spark主動調用AI生圖模型打造了對應的產品圖片,然后編寫完整頁面代碼,整個過程耗時2分鐘左右,效果如下:
![]()
這一網頁的完成度不錯,直接給Meta設計出了一款搭載Muse Spark的新品AI眼鏡。模型還自夸道,這是一個旗艦級的官網,不是普通的落地頁,是按Apple Vision Pro發布會標準做的。
Muse Spark還可用于購物推薦。我們試著讓它搜索一款汽車雨刮器,幾秒鐘就拿到了好幾個選項,并且有對每款產品優勢劣勢的分析和最終購買建議。
![]()
結語:牛油果熟了,但Meta的“個人超級智能”仍需耐心
作為Meta超級智能實驗室的首秀,Muse Spark已經展現出躋身第一梯隊的水準,足夠讓人期待未來的Muse系列后續產品。
不過,扎克伯格想要的“個人超級智能”,目前還停留在醫療健康問答、網頁復刻、購物推薦這些相對可控的場景里。距離真正改變數億用戶的交互方式,還有很長的路要走。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.