RoboBrain 2.5解決機器人總在“最后一厘米”失敗的問題

2026-02-11 21:18:34　來源: wisemodel開源社區(qū)

北京舉報

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)，始終堅持“中立、開放、共建、共創(chuàng)、合作”五項基本原則，歡迎加入共同成長。

過去一年，具身智能的“視覺理解 + 語言推理”進步明顯，但從實驗室演示走向真實部署，經(jīng)常遇到“看得見”但“做不對”的問題。這源于兩個長期被低估的關鍵短板：空間維度的度量盲區(qū)，以及時間維度的過程建模不足。

在空間不準上，模型雖能理解2D圖像中的目標與關系，卻缺乏將其轉化為真實尺度下可執(zhí)行3D軌跡的能力，導致抓取、裝配等操作因深度、距離等物理度量不準而失敗；在過程不穩(wěn)上，多數(shù)模型仍將動作生成簡化為靜態(tài)序列預測，依賴稀疏的成功標簽，無法對操作過程中出現(xiàn)的打滑、偏移等動態(tài)變化做出實時評估與調(diào)整，致使長任務難以穩(wěn)定完成。這就要求新一代具身模型，需要把空間能力從“2D 指點”升級為“精確 3D 規(guī)劃”，滿足物理世界的度量約束與可執(zhí)行性要求。

智源研究院正式發(fā)布新一代具身智能大腦基礎模型RoboBrain 2.5。作為 RoboBrain 系列的最新版本，RoboBrain 2.5 在延續(xù)通用感知、空間推理與時序建模能力底座的基礎上，通過更大規(guī)模的高質(zhì)量時空監(jiān)督訓練，完成了兩項面向真實物理世界的關鍵升級：Precise 3D Spatial Reasoning（精確 3D 空間推理）與Dense Temporal Value Estimation（稠密時序價值預測），讓機器人不僅能理解任務，更能在物理約束與過程反饋中把任務做對，推動具身智能從“能看懂、能說清”，邁向“能落手、做得準、做得穩(wěn)”。RoboBrain2.5已上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗。

模型地址

https://www.wisemodel.cn/models/BAAI/RoboBrain2.5-8B-NV

01.

RoboBrain2.5:

空間能力與時間能力的協(xié)同升級

RoboBrain2.5在具身智能的兩項關鍵能力維度上實現(xiàn)系統(tǒng)性升級：Spatial（空間）與Temporal（時間）。空間側強調(diào)Depth in Sight—— 從 2D grounding 走向具備真實尺度約束的 3D 規(guī)劃與軌跡生成；時間側強調(diào)Time in Mind—— 從結果監(jiān)督走向可泛化、可閉環(huán)的稠密進度與價值評估。

二者形成有機協(xié)同：前者保障動作在幾何意義上可執(zhí)行，后者保障執(zhí)行過程中可感知、可糾錯、可恢復，共同將具身系統(tǒng)從 demo 級成功，推進到更接近真實部署需求的穩(wěn)定可靠。

Depth in Sight：精確3D空間理解

傳統(tǒng)具身模型多將空間輸出限制在“單點 / 單目標”層面，即預測一個目標位置作為動作觸發(fā)條件。RoboBrain 2.5 將空間輸出接口擴展為完整操作過程的軌跡級表達：模型不再只給出一個落點，而是輸出有序的關鍵點序列，用于描述從起始狀態(tài)到目標狀態(tài)的完整操作流程，從而在表示層面同時編碼空間規(guī)劃與步驟結構。

這一能力被拆解為三類互補的空間技能：

3D Spatial Referring：定位目標
在圖像中完成目標對象與關鍵部位的 3D 定位，為后續(xù)動作提供“落點依據(jù)”。
3D Spatial Measuring：理解真實尺度
估計真實世界的絕對度量量（如距離、間隙、懸停高度等），滿足裝配、貼合、避障等任務對“厘米/毫米級”約束的要求。
3D Spatial Trace Generation：生成可執(zhí)行軌跡
輸出“符合碰撞約束的可執(zhí)行關鍵點軌跡”，讓機器人具備更強的幾何可行性與動作連貫性。

RoboBrain 2.5 采用可解耦的 (u, v, d) 表示：每個點由圖像平面坐標 (u, v) 與絕對深度 d構成，并可通過相機內(nèi)參直接投影到 3D 坐標系，從而避免讓大模型“暗自學習相機幾何”，讓訓練更直接、輸出更可控、系統(tǒng)對接更工程化。更重要的是，這一表示還可向下兼容：去掉深度就是 2D 軌跡，只保留起終點可變成 3D/2D referring 數(shù)據(jù)，使得多任務協(xié)同訓練更自然，進一步夯實通用具身能力底座。

Time in Mind：稠密時序價值預測與閉環(huán)可靠性

真實物理世界中的長時任務，并不缺少動作序列，而是缺乏過程級監(jiān)督：當前執(zhí)行到了哪一步？是在有效推進、停滯、偏離，還是已經(jīng)發(fā)生失敗？為此，RoboBrain 2.5 引入 Dense Temporal Value Estimation（稠密時序價值預測），基于視覺觀測對任務進度進行步級別、連續(xù)評估，為下游控制與策略學習提供可隨時調(diào)用的價值信號。

長時程操作需要的不只是最終成功信號，而是連續(xù)、細粒度的反饋來引導復雜中間狀態(tài)。RoboBrain 2.5 通過稠密價值估計補上了這塊短板，為閉環(huán)控制與高效強化學習提供基礎，實現(xiàn)了從“稀疏成功標簽”到“稠密進度反饋”的躍進。

為降低長軌跡執(zhí)行中的誤差累積、提升多視角魯棒性，RoboBrain 2.5 從三個互補視角生成并融合進度估計信號：

增量式（Incremental）：精細捕捉局部動態(tài)，但易累積漂移。
前向錨定（Forward-anchored）：以初始狀態(tài)為全局參照，更穩(wěn)定。
后向錨定（Backward-anchored）：以目標狀態(tài)為參照，對接近完成階段更敏感。

三者融合后，得到更具抗漂移能力的價值信號，用于支持長時閉環(huán)執(zhí)行。

在 Online RL 場景，策略會探索訓練數(shù)據(jù)沒覆蓋到的狀態(tài)，價值模型可能輸出“虛高信號”，引發(fā) reward hacking 風險。RoboBrain 2.5 引入雙向一致性校驗（Bi-directional consistency checking），以不同時間錨定視角間的一致性作為可靠性代理，有效降低 OOD 狀態(tài)下價值幻覺對學習過程的誤導。

02.

漸進式雙階段訓練路線

實現(xiàn)“先通用、再精確”

RoboBrain 2.5 延續(xù)并強化漸進式雙階段訓練路線，以先構建強泛化通用能力，再引入嚴格物理約束的方式，系統(tǒng)性提升具身智能在真實直接的可執(zhí)行性與可靠性。

階段1（Foundational Spatiotemporal Learning，通用時空基礎）

RoboBrain 2.5 先通過大規(guī)模通用時空學習搭建“Generalist Brain”，把具身智能在真實環(huán)境中最通用、最底層的能力先打牢——既能穩(wěn)定理解視覺語義與語言指令，又能完成 2D grounding 并形成對三維空間的定性認知，同時具備基礎的任務規(guī)劃與時間邏輯理解（包括基于對比學習的時間價值判斷）。這一階段的作用是提供一個強魯棒、強泛化的初始化，讓模型先“看得懂、想得通”，為后續(xù)引入更嚴格的物理約束與精確監(jiān)督打下可遷移的通用底座。

階段2（Specific Spatiotemporal Enhancement,特定時空增強）

在通用能力穩(wěn)定之后，RoboBrain 2.5 將訓練重心進一步壓向“物理可執(zhí)行性”與“閉環(huán)可控性”，通過兩條強化路徑把語義推理落到真實動作層面：一方面引入面向度量的 3D 軌跡學習（Metric-Aware 3D Tracing），讓模型從定性空間關系邁向定量幾何約束，能夠學習絕對 3D 坐標、深度軌跡以及可度量距離，從而輸出在真實尺度下可執(zhí)行的操作關鍵點與軌跡；另一方面升級時序建模為稠密價值估計（Dense Value Estimation），把原先的兩兩比較式時間價值學習推進為顯式的 Hop/進度預測，使模型具備可直接用作價值函數(shù)（critic）的在線反饋能力，進而支持策略排序、過程監(jiān)控與錯誤恢復等閉環(huán)需求。與此同時，通過在這一階段引入數(shù)據(jù) replay，將第一階段的部分數(shù)據(jù)混入訓練，抑制“學精確能力時遺忘通用能力”的風險，實現(xiàn)“通用不掉線、精確再躍遷”的協(xié)同增益。

RoboBrain 2.5 的訓練數(shù)據(jù)分布。左側餅圖展示了數(shù)據(jù)集的層級構成，按領域劃分為時序（紅色）、通用（青綠色）和空間（藍色）。右側柱狀圖以對數(shù)坐標展示各具體能力維度/任務的訓練樣本數(shù)量。

在多項空間推理與時序價值估計基準任務上，RoboBrain 2.5 取得了新的SOTA表現(xiàn)。這并非單點能力的提升，而是空間（可執(zhí)行）與時間（可閉環(huán)）兩條能力鏈路的同步補齊，使模型整體更接近真實機器人系統(tǒng)對“可控性與可靠性”的核心需求。

在空間推理與時序價值估計等關鍵基準上，RoboBrain 2.5 的優(yōu)勢更體現(xiàn)為“整體補齊”。對通用基線而言，2D 空間推理平均分75.82高于Gemini-3-Pro-Preview（66.14）、Qwen3-VL-8B-Inst.（64.18）、GPT-5.2（49.33）；對具身基線而言，2D 平均分從RoboBrain-2.0（54.96）、Mimo-Embodied（58.97）提升至75.82，并在跨視圖對應能力CrossPoint榜單上呈現(xiàn)更為明顯的領先。進一步在更強調(diào)可執(zhí)行性的3D任務上，RoboBrain 2.5 在TraceSpatial 取得3D Start/End/Success = 83/63/44，顯著高于Gemini-3-Pro-Preview（30/25/7）、Qwen3-VL-8B-Inst.（30/18/6）與 GPT-5.2（23/19/0），凸顯其在真實尺度幾何約束與可執(zhí)行軌跡生成上的優(yōu)勢；此外在時序價值估計中，RoboBrain 2.5 在多個數(shù)據(jù)源上保持更強的正負一致性（如DROID 90.82/90.07、LIBERO 98.97/98.94），相比通用模型常見的“VOC+ 較高但 VOC? 偏弱”（如GPT-5.2：91.45/15.29），更有利于閉環(huán)學習與在線糾錯。

真實世界評測驗證了 RoboBrain 2.5 在接觸豐富任務（contact-rich tasks）中展現(xiàn)出更強的 zero-shot魯棒性，能更有效地將 demo 級成功轉化為部署級可靠性。這對產(chǎn)業(yè)落地尤為關鍵：很多失敗并不是“看不懂指令”，而是“過程不穩(wěn)、空間不準”，RoboBrain 2.5 正面命中這兩類核心問題。

在工程可擴展性方面，智源研究院基于其眾智FlagOS多芯片統(tǒng)一AI系統(tǒng)軟件棧，推出了面向具身智能的訓推一體化多芯片框架 FlagOS-Robo。基于此框架，本次 RoboBrain2.5 項目在包括摩爾線程（Moore-Threads）在內(nèi)的多種AI芯片集群上，完成了完整的端到端訓練與對齊驗證。實驗結果表明，其訓練損失值（loss）對齊，訓練趨勢一致，最終loss差異僅為 0.62%。在下游任務的多個評測集上，模型效果也實現(xiàn)了對齊。這為項目更大規(guī)模的持續(xù)迭代與產(chǎn)業(yè)部署奠定了堅實的工程基礎。同時，借助 FlagOS-Robo，用戶可以將基于各類AI芯片平臺（如摩爾線程、華為昇騰等）的訓練成果，無縫遷移至多種端側AI芯片平臺（如天數(shù)智芯、英偉達等）進行推理驗證，從而實現(xiàn) “訓練-推理跨芯片” 的靈活交叉使用。這充分證明了該框架在利用多元異構芯片進行大模型訓練時的可用性與易用性。

03.

具身智能的下一步，

是“物理可驗證性+過程可度量性”

RoboBrain 2.5 傳遞出一個更明確的方向：具身智能邁向通用與規(guī)模化，關鍵不只在更會推理，更在于與物理世界對齊、并具備可持續(xù)的閉環(huán)優(yōu)化能力。面向下一階段，團隊將繼續(xù)圍繞世界模型式的預測與規(guī)劃、更豐富本體與真實場景的驗證迭代、適配不同部署需求的模型形態(tài)演進，以及數(shù)據(jù)—模型協(xié)同的自增強機制等方向推進，讓具身智能從能力領先走向工程可用與規(guī)模化落地。

RoboBrain2.5的技術突破，根植于智源在具身智能領域的長期深耕與系統(tǒng)專研。為賦能具身智能技術研發(fā)，智源已經(jīng)構建出以具身大腦為核心，自底向上全棧具身智能技術體系，包括能夠跨異構本體數(shù)據(jù)采集以及標準化一站式平臺，具身大小腦以及VLA等具身基座模型，還有具身智能評測等，為具身技術生態(tài)提供了一套可復現(xiàn)、可對齊的公共基礎設施，持續(xù)降低從研究到產(chǎn)業(yè)化落地的門檻，加速實現(xiàn)具身智能的產(chǎn)業(yè)與社會價值。

編輯：成蘊年

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續(xù)關注和支持

開源社區(qū)建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區(qū)的志愿者計劃和開源共創(chuàng)計劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領域相關的優(yōu)秀研究成果，鼓勵高校實驗室、大企業(yè)研究團隊、個人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個人開發(fā)者，以及政府部門、學會協(xié)會、聯(lián)盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.