337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

自變量聯合中山大學、MUZUAI發布發布 ManipArena,為具身模型統一真機 benchmark

0
分享至


作者 | 楊過

過去一年,具身智能行業演示視頻幾乎以月為單位刷新認知:機械臂流暢倒水、雙臂整理桌面、復雜物體分類。從 VLA 到 World Model,技術路線百花齊放,似乎通用機器人走進家庭與工廠指日可待。

然而,如果剝離掉精心調度的演示環境,將當前最強的具身模型置于同一臺機器人、同一套任務、同一套評分規則下,結果可能遠沒有視頻里那么樂觀。

在自變量機器人聯合中山大學、MBZUAI 發布的真實機器人評測基準 ManipArena 中,研究團隊對 VLA 路線和 World Model 路線的代表模型進行了統一測評。

結果顯示,目前榜單中總體表現最好的模型 π0.5-OneModel,在 15 個桌面任務中的總得分為 640.5/1500,折算下來僅為 42.7%。它在簡單語義任務中已經可以達到 70%—80% 的成功率,但一旦進入復雜物理交互,能力邊界就迅速顯現。

另一條被寄予厚望的 World Model 路線呈現出不同的能力輪廓。DreamZero 在粗粒度操作任務中表現突出,例如在抓物入籃任務中得分達到 97.8/100,并展現出較強的空間泛化能力:即使目標位置發生偏移,其性能下降也明顯小于多數 VLA 模型。在部分分布外測試中,它對物體外觀變化的魯棒性甚至優于當前主流 VLA 系統。

但這種優勢很快在精細操作中失效。在倒水、插線、排列杯子等高精度任務中,DreamZero 與多數 VLA 模型一樣幾乎全部失分。分段評分顯示,它通??梢酝瓿勺ト∨c接近目標,卻在最后的對齊、插入或持續接觸階段失敗。更關鍵的是,DreamZero 當前單步推理耗時達到 7 至 8 秒,遠慢于主流 VLA 模型的亞秒級響應,這使它很難在真實接觸過程中完成足夠快的閉環調整。

從任務分布看,失分最明顯、也最能暴露當前模型短板的,主要集中在兩類任務上:一類是對力量變化高度敏感的精細操作,另一類是具有明確程序約束的邏輯推理任務。倒水、插線、排列杯子、文具入盒這四項任務,在所有測試模型——包括 VLA 模型和 World Model 模型——中的得分均低于 30/100。

它們的共同特征在于:任務并不只是要求“看見目標”,而是要求模型在接觸發生之后繼續穩定地調整動作。當前多數模型仍主要依賴視覺輸入,對電機電流、關節速度等能夠反映接觸狀態與力學變化的信號利用不足,因此一旦進入精細作業階段,性能就會明顯下滑。

這意味著,即便是今天最先進的一批具身模型,一旦進入真實接觸環境,仍然會迅速暴露出控制層短板。視覺理解已經足以支撐模型完成“看到目標、靠近目標”的前半程,但從接觸開始,動作穩定性、力反饋處理和連續決策能力仍然明顯不足。

這也解釋了為什么過去一年里,大多數公司公開展示的 demo 更偏向抓取放置、分類和簡單排列,而較少主動展示液體操作、柔性物體處理以及更長鏈條的連續任務。因為正是這些任務,最容易暴露模型在控制和執行層面的真實問題,而這一層能力,至少目前看來,并不能僅靠擴大視覺數據規模來解決。

今天,許多公司已經開始宣稱自己的模型具備進入柔性生產環境的能力。但這種判斷究竟能否成立,本質上并不取決于一段視頻,而取決于真實場景的表現。同時,行業也需要公允的 benchmark 來衡量模型能力。

也正因此,中山大學攜手自變量機器人、MBZUAI 等機構,在 CVPR 2026 的 Embodied AI Workshop 上正式推出了官方競賽:ManipArena。ManipArena希望建立一個類似于 GLUE 之于自然語言處理的具身智能評測基準。它試圖通過統一的“度量衡”,為具身模型提供標準化的真實機器人評估環境,從而更準確地診斷模型能力邊界,并推動通用機器人操作能力的真實進展。

現在,ManipArena 向世界上的不同具身模型團隊,發起了 Challenge 邀約。

1 具身模型需要“統一尺度”

自然語言處理領域中,GLUE 讓算法能力有了統一判斷依據,但具身智能至今仍缺少這樣的公共尺度。

一是因為,過去幾年,機器人算法的大量訓練與驗證工作依賴模擬器展開,RLBench、LIBERO 等仿真平臺構成了學術界的主流評估環境。但模擬器始終無法完整復刻真實世界中的噪聲、接觸動力學、硬件延遲和機械誤差。

這意味著,一個在模擬器中成功率很高的模型,進入真實機器人之后往往會迅速失效。尤其是在插入、傾倒、接觸保持等任務中,仿真與現實之間的誤差會被持續放大。

ManipArena 的核心出發點之一,就是通過統一的真實機器人環境,為模型提供比模擬器更接近部署條件的性能反饋。

同時,ManipArena 通過統一硬件平臺(即基于自變量自研的雙臂系統和量子 1 號本體)以及標準化的綠幕實驗環境,將攝像頭位置、照明條件、任務布局和執行流程全部固定下來,使同一模型在不同時間和不同團隊之間可以獲得可重復結果。

在看現在的具身模型 benchmark 時,你還會發現大家對“能力”的定義仍然過于粗糙。

在很多傳統任務中,模型只要記住一條動作軌跡,就有可能完成看似復雜的操作。這使得 benchmark 更像是在測試“軌跡復現”能力,而不是真正的推理和執行能力。

ManipArena 刻意強化了推理導向。它要求模型面對復雜空間約束、多階段雙臂協作以及顯式語義規則,不再只是完成“拾取—放置”,而是需要在執行過程中持續判斷。例如,在倒水任務中,模型必須根據液體狀態和動作反饋控制傾斜角度與力度;在按視覺指令卡順序按按鈕的任務中,模型需要先理解語義邏輯,再決定動作順序。換句話說,這些任務不再允許模型單純依賴軌跡記憶,而要求它在感知、理解與執行之間形成更完整的閉環。

2 ManipArena 如何設計一套有效的真機 benchmark

推理導向的任務設計、多元數據與泛化測試

與大量以“拾取—放置”為核心的傳統 benchmark 不同,ManipArena 更強調模型在執行過程中的推理能力,而不僅僅是動作軌跡復現。

任務設計中引入了復雜空間約束、多階段雙臂協作以及語義理解要求。例如,在倒水任務中,模型需要根據液體狀態持續調整動作幅度與力度;在按視覺指令卡順序按按鈕的任務中,模型必須先解析視覺指令中的語義規則,再決定動作順序。

這類任務的意義在于,它能夠更清晰地區分模型失敗的來源:究竟是語義理解不足,還是動作控制不足。

為了避免模型僅在有限任務配置中形成局部適配,ManipArena 在訓練數據構建階段同時引入了三個層級的多樣性設計:物理屬性層面的外觀變化、空間配置層面的布局變化,以及任務層面的語義組合變化,從而盡可能擴大訓練分布。

在此基礎上,ManipArena 進一步采用分層分布外(OOD)評估機制,對模型的泛化能力進行系統測試。

每項任務設置 10 次難度遞增的測試:T1 至 T4 為域內測試,T5 至 T8 引入視覺偏移,例如物體外觀變化;T9 至 T10 則進入語義 OOD,即模型需要面對未在訓練中出現過的物體組合或任務配置。

相比只報告單一成功率,這種設計更接近真實部署條件下的問題:模型不僅要完成任務,還必須在不斷偏離訓練經驗的環境中保持穩定表現。

基于子任務的分段評分機制

傳統機器人評測通常采用成功或失敗的二元結果,但這種方式無法解釋模型具體在哪一階段出現問題。

ManipArena 將每個任務拆解為抓取、對齊、插入、傾倒、放回等有序子階段,并根據完成進度進行分段評分,每次嘗試按 0 至 10 分記錄。

這種評分機制的價值在于,它使 benchmark 從“結果判斷”轉向“過程診斷”。研究者可以更明確地看到:一個模型是在目標識別階段偏差較大,還是已經完成前半程,卻在精細接觸階段失分。

多模態信號引入

當前多數具身模型仍主要依賴視覺輸入,但在真實接觸任務中,僅靠視覺往往不足以完成穩定控制。

為支持對力覺相關策略的研究,ManipArena 在標準關節狀態之外,額外提供低級電機電流和關節速度數據,其中電機電流可以作為關節力矩的代理信號。

對于倒水、插線等任務而言,這類信號能夠幫助模型判斷液體重量變化或接觸是否發生,從而提高對真實接觸階段的控制能力。

虛實同步與服務器端推理架構

除真實執行外,ManipArena 還利用 3D 高斯點染構建了與現實環境視覺和幾何高度一致的數字孿生環境。通過將真實執行軌跡在模擬環境中回放,研究者可以獲得配對的虛實觀測序列,用于分析現實誤差來自視覺偏差、動力學差異還是控制延遲。

在評測機制上,ManipArena 采用服務器端推理架構。參與團隊無需購買硬件,只需提供一個接收觀測數據并返回動作指令的 HTTP 接口,由平臺統一完成機器人控制和數據采集。

這種方式既降低了真實機器人 benchmark 的參與門檻,也避免模型權重和代碼的直接暴露。同時,平臺要求參賽者提交單一模型處理全部任務,以防止針對單一任務進行過度優化。

3 Call for Challenge:加入真實世界的檢驗

過去一年,具身智能行業最容易制造樂觀情緒的,正是那些被剪輯得極其流暢的演示視頻。但對一個真正面向現實部署的系統來說,最重要的從來不是某一次最佳表現,而是在一組標準化任務中能否穩定地完成大多數操作。

ManipArena 提醒行業的是,視覺理解的確已經取得了明顯進步,但真實接觸、力控反饋和連續推理,仍然是通用機器人能力中最薄弱、也最難被視頻充分呈現的一層。具身智能的下一階段競爭,可能不會再停留在論文里的仿真分數和 demo 里的高光時刻,而會越來越多地轉向真實場景中的任務完成率、泛化穩定性,以及失敗時是否具備可診斷性。

從這個意義上說,ManipArena 的價值不只是推出一個榜單,而是在嘗試為開發者提供一套診斷工具,為應用方提供一把更可靠的選型尺子。對整個具身智能行業而言,真正的競爭,或許才剛剛從 demo 進入真實世界。

目前,ManipArena 的評測體系也開始向外部研究團隊開放。

目前競賽已進入報名與數據開放階段,參賽者可通過官方平臺 https://maniparena.x2robot.com (或者點擊“閱讀原文”)注冊并獲取訓練數據,訓練統一模型后提交評測接口參與比賽。

在ManipArena這座具身模型的斗獸場里,所有模型將在同一套真實環境與規則之下接受檢驗,能力的長板與短板都將得到直接現象。

感興趣的團隊,歡迎進入這一 Arena,在統一尺度下驗證自己的系統表現。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
80年陳云建議陳錫聯辭職,陳錫聯猛拍桌:讓我干啥,我絕無二話!

80年陳云建議陳錫聯辭職,陳錫聯猛拍桌:讓我干啥,我絕無二話!

抽象派大師
2026-03-25 12:04:28
回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

素衣讀史
2026-03-25 21:05:22
真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的???

真不能怪祖院長,就曾醫生這顏值、這才華和魅力,誰遭的?。?/a>

吃瓜局
2025-11-11 16:23:49
場上效果很不理想,湖人鋒線大閘到了季后賽估計還是很難出場?

場上效果很不理想,湖人鋒線大閘到了季后賽估計還是很難出場?

稻谷與小麥
2026-03-27 01:18:15
“14天12板”!000908,復牌后上演“地天板”

“14天12板”!000908,復牌后上演“地天板”

大眾證券報
2026-03-26 17:58:54
馬筱梅曬汪寶滿月宴,六菜一湯很低調,張蘭未參加,小心思太明顯

馬筱梅曬汪寶滿月宴,六菜一湯很低調,張蘭未參加,小心思太明顯

阿庫財經
2026-03-27 00:01:45
15戰14勝,加時掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

15戰14勝,加時掀翻東部第一!新鷹王27+8+12證明賤賣特雷楊有理

鍋子籃球
2026-03-26 11:25:55
巴薩舊將:當時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

巴薩舊將:當時赫萊布知道自己要離隊,他往功能飲料里兌酒喝

懂球帝
2026-03-26 06:43:09
外媒:40%的消費者希望中國品牌汽車進入美國市場

外媒:40%的消費者希望中國品牌汽車進入美國市場

環球網資訊
2026-03-24 13:45:12
伊朗再獲重大勝利!美國,又被打慘了!

伊朗再獲重大勝利!美國,又被打慘了!

大嘴說天下
2026-03-26 19:32:16
15名津巴布韋人被俄羅斯騙去烏克蘭當炮灰戰死,當局怒揭殘酷真相

15名津巴布韋人被俄羅斯騙去烏克蘭當炮灰戰死,當局怒揭殘酷真相

老馬拉車莫少裝
2026-03-27 00:00:37
伊朗抓捕14名叛國分子

伊朗抓捕14名叛國分子

財聯社
2026-03-26 20:04:13
路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

路透社:歐盟警告越南,敢用中國5G,就讓外資撤光!

泠泠說史
2026-03-26 18:06:17
白宮堅稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長:美國談論“談判”無異于承認“失敗”,伊朗放聲開新戰線

白宮堅稱美伊仍在談判,威脅伊朗“切勿誤判”;伊朗外長:美國談論“談判”無異于承認“失敗”,伊朗放聲開新戰線

每日經濟新聞
2026-03-26 17:08:49
菲總統候選人莫雷諾:如果當選,我會讓菲律賓成為下一個新加坡!

菲總統候選人莫雷諾:如果當選,我會讓菲律賓成為下一個新加坡!

小丸說故事
2026-03-17 14:23:29
柯文哲被判重刑,黃國昌蔣萬安回應,賴清德又盯上鄭麗文?

柯文哲被判重刑,黃國昌蔣萬安回應,賴清德又盯上鄭麗文?

DS北風
2026-03-26 17:58:06
電影《挽救計劃》高口碑熱映 以跨文明協作詮釋守望相助溫暖內核

電影《挽救計劃》高口碑熱映 以跨文明協作詮釋守望相助溫暖內核

封面新聞
2026-03-26 18:56:02
智能麻將桌殺到:傳統麻將館真的要被“取代”了?

智能麻將桌殺到:傳統麻將館真的要被“取代”了?

生活新鮮市
2026-03-20 06:28:56
原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

原油飆漲!黃金、白銀下跌,美股突變!特朗普威脅!霍爾木茲海峽,最新消息!

證券時報e公司
2026-03-26 22:23:23
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
2026-03-27 02:16:49
InfoQ incentive-icons
InfoQ
有內容的技術社區媒體
12207文章數 51820關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

頭條要聞

特朗普:伊朗允許10艘油輪通行霍爾木茲海峽

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

教育
數碼
房產
公開課
軍事航空

教育要聞

精準研判,提質增效丨我校召開2026屆畢業生就業工作研判會

數碼要聞

英特爾發Q1.26版Arc Pro專業顯卡驅動,支持B70 / B65顯卡

房產要聞

突發,三亞又有大批征遷補償方案出爐!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

擔心特朗普突然停戰 以總理下令48小時盡力摧毀伊設施

無障礙瀏覽 進入關懷版