密歇根、斯坦福、Figure AI 牽頭！機(jī)器人記憶基準(zhǔn) RoboMME 發(fā)布

2026-03-15 21:11:55　來源: 機(jī)器人大講堂

安徽舉報(bào)

分享至

讓機(jī)器人把指定顏色的立方體放進(jìn)箱子并準(zhǔn)確計(jì)數(shù)，在物體被遮擋后仍能追蹤其位置，重復(fù)之前演示過的動(dòng)作軌跡，這些看似簡單的操作，背后都離不開"記憶"的支撐。長期以來，機(jī)器人在復(fù)雜場景下的歷史依賴型任務(wù)表現(xiàn)不佳，核心原因之一就是缺乏標(biāo)準(zhǔn)化的記憶能力評估體系。

密歇根大學(xué)、斯坦福大學(xué)、Figure AI等機(jī)構(gòu)聯(lián)合推出的RoboMME benchmark，首次將機(jī)器人記憶劃分為 temporal（時(shí)間）、spatial（空間）、object（物體）、procedural（程序）四大維度，通過16個(gè)細(xì)分任務(wù)和770k高質(zhì)量訓(xùn)練時(shí)序，為記憶增強(qiáng)型機(jī)器人策略提供了統(tǒng)一的評估標(biāo)準(zhǔn)。這一突破不僅解決了此前評估碎片化的問題，更通過14種記憶增強(qiáng)型VLA模型的對比實(shí)驗(yàn)，揭示了不同記憶表征的適用場景。

01.

為什么機(jī)器人"記性差"？傳統(tǒng)評估的三大痛點(diǎn)

在RoboMME出現(xiàn)之前，機(jī)器人記憶相關(guān)的評估一直存在明顯短板。現(xiàn)有基準(zhǔn)要么只聚焦單一記憶類型，比如MemoryBench僅關(guān)注空間記憶，要么任務(wù) horizon 過短，無法真正考驗(yàn)長期記憶能力。更關(guān)鍵的是，大多數(shù)基準(zhǔn)允許機(jī)器人僅通過即時(shí)感知就能完成任務(wù)，難以觸發(fā)真正的歷史依賴推理。

實(shí)際應(yīng)用中，機(jī)器人需要處理的場景遠(yuǎn)比想象中復(fù)雜。比如家庭服務(wù)機(jī)器人擦拭桌子時(shí)，需要記住已經(jīng)清潔過的區(qū)域；工業(yè)機(jī)器人裝配零件時(shí)，要回憶上一步的操作位置；甚至簡單的"重復(fù)三次動(dòng)作"指令，都需要時(shí)間記憶來計(jì)數(shù)。這些任務(wù)的共同特點(diǎn)是，相同的當(dāng)前觀測可能對應(yīng)不同的歷史背景，必須依賴記憶才能做出正確決策。

RoboMME的核心創(chuàng)新在于，所有任務(wù)都被設(shè)計(jì)為非馬爾可夫過程，強(qiáng)制機(jī)器人調(diào)用歷史信息。例如在StopCube任務(wù)中，機(jī)器人需要監(jiān)測不斷擺動(dòng)的立方體，在它第N次經(jīng)過目標(biāo)時(shí)精準(zhǔn)按下停止按鈕，既需要記住次數(shù)（時(shí)間記憶），又要追蹤位置（空間記憶），任何單一感知都無法完成。

02.

四大記憶維度+16項(xiàng)任務(wù)，全面覆蓋機(jī)器人記憶場景

RoboMME的任務(wù)設(shè)計(jì)靈感源自人類記憶的認(rèn)知理論，將機(jī)器人記憶需求拆解為四個(gè)核心維度，每個(gè)維度對應(yīng)四個(gè)細(xì)分任務(wù)，形成完整的評估體系。

時(shí)間記憶（temporal memory）聚焦事件計(jì)數(shù)與序列排序，典型任務(wù)包括BinFill和StopCube。在BinFill中，機(jī)器人需要將指定數(shù)量的不同顏色立方體放入不透明箱子，由于無法直接觀察箱內(nèi)情況，必須通過記憶追蹤已放置的數(shù)量；而StopCube則要求在立方體第2-5次經(jīng)過目標(biāo)時(shí)按下按鈕，考驗(yàn)精準(zhǔn)的時(shí)序計(jì)數(shù)能力。

空間記憶（spatial memory）側(cè)重遮擋與場景變化下的位置追蹤，VideoUnmaskSwap任務(wù)最具代表性。機(jī)器人先觀看容器遮擋立方體并交換位置的視頻，隨后需要準(zhǔn)確找出隱藏目標(biāo)立方體的容器，整個(gè)過程中無法依賴實(shí)時(shí)視覺反饋，完全依靠對視頻中空間關(guān)系的記憶。

物體記憶（object memory）關(guān)注跨時(shí)間的物體身份識別，PickHighlight任務(wù)中，機(jī)器人按下按鈕后會(huì)看到特定立方體被短暫高亮，之后需要在無高亮提示的情況下，準(zhǔn)確拾取之前記住的目標(biāo)物體。而VideoRepick任務(wù)則要求機(jī)器人從視頻中學(xué)習(xí)特定立方體的特征，即使該立方體被移動(dòng)或與其他相似物體混合，仍能重復(fù)拾取動(dòng)作。

程序記憶（procedural memory）負(fù)責(zé)存儲和復(fù)現(xiàn)動(dòng)作模式，PatternLock任務(wù)中，機(jī)器人需要觀看演示視頻中末端執(zhí)行器在網(wǎng)格上的移動(dòng)軌跡，之后精準(zhǔn)復(fù)現(xiàn)相同的路徑順序，誤差超過閾值即判定失敗。InsertPeg任務(wù)則要求記住拾取釘子的特定端部和插入方向，考驗(yàn)精細(xì)動(dòng)作的記憶能力。

這些任務(wù)的難度分為簡單、中等、困難三個(gè)等級，通過場景雜亂度、任務(wù)時(shí)長和環(huán)境動(dòng)態(tài)性調(diào)節(jié)。數(shù)據(jù)集中包含1600個(gè)演示樣本，單個(gè)任務(wù)的執(zhí)行步數(shù)從幾百到一千多不等，充分模擬真實(shí)場景中的長 horizon 需求。

03.

14種模型實(shí)測：沒有"萬能記憶"，只有"精準(zhǔn)匹配"

基于RoboMME基準(zhǔn)，研究團(tuán)隊(duì)構(gòu)建了14種記憶增強(qiáng)型VLA模型，均基于π?.?骨干網(wǎng)絡(luò)，分別采用symbolic（符號）、perceptual（感知）、recurrent（循環(huán)）三種記憶表征，搭配三種不同的整合機(jī)制，形成完整的對比體系。

符號記憶通過語言子目標(biāo)總結(jié)歷史信息，比如將"已放置2個(gè)綠色立方體"編碼為文本指令，再與任務(wù)描述拼接輸入模型。實(shí)驗(yàn)中，采用QwenVL生成的grounded subgoals（帶坐標(biāo)標(biāo)注的子目標(biāo)）在BinFill等計(jì)數(shù)任務(wù)中表現(xiàn)突出，成功率達(dá)到72.08%，但在StopCube等時(shí)間敏感型任務(wù)中幾乎失效，成功率接近0。這是因?yàn)檎Z言符號難以捕捉精細(xì)的時(shí)序動(dòng)態(tài)信息。

感知記憶直接保留歷史視覺特征，通過幀采樣（FrameSamp）或令牌丟棄（TokenDrop）篩選關(guān)鍵視覺信息。其中FrameSamp+Modul組合表現(xiàn)最佳，整體成功率達(dá)到44.51%，在PatternLock等動(dòng)作復(fù)現(xiàn)任務(wù)中優(yōu)勢明顯，成功率高達(dá)53.56%。值得注意的是，TokenDrop由于過度裁剪空間上下文，在需要全局視野的任務(wù)中表現(xiàn)不如FrameSamp，印證了視覺完整性對空間記憶的重要性。

循環(huán)記憶通過TTT（測試時(shí)訓(xùn)練）或RMT（循環(huán)記憶Transformer）壓縮歷史信息，但其表現(xiàn)出人意料地最差，整體成功率僅在18%-22%之間。研究人員分析，這可能是因?yàn)棣?.?的淺層循環(huán)結(jié)構(gòu)導(dǎo)致訓(xùn)練不穩(wěn)定，有效的循環(huán)記憶需要更深層次的架構(gòu)整合。

三種整合機(jī)制中，memory-as-modulator（記憶作為調(diào)制器）表現(xiàn)最為均衡，通過自適應(yīng)LayerNorm調(diào)節(jié)動(dòng)作專家的中間激活，既保留了原始模型的預(yù)訓(xùn)練特征，又能有效融入記憶信息。而memory-as-expert雖然增加了專門的記憶處理模塊，但由于參數(shù)規(guī)模擴(kuò)大和訓(xùn)練難度增加，并未帶來顯著性能提升。

04.

效率與性能的平衡：感知記憶成最優(yōu)解

在機(jī)器人實(shí)際部署中，計(jì)算效率與性能同樣重要。RoboMME的實(shí)驗(yàn)顯示，不同記憶表征的計(jì)算成本差異顯著：依賴外部VLM生成子目標(biāo)的符號記憶模型，計(jì)算量是基礎(chǔ)π?.?的3倍；MemER模型由于結(jié)合了關(guān)鍵幀存儲和符號子目標(biāo)，計(jì)算量更是達(dá)到5倍。

相比之下，感知記憶模型展現(xiàn)出更優(yōu)的效率-性能平衡。FrameSamp+Modul在記憶預(yù)算從64增加到512 tokens的過程中，成功率穩(wěn)步提升，而計(jì)算量僅適度增加。這是因?yàn)槠溆?jì)算主要集中在視覺令牌處理，記憶整合本身僅引入輕微開銷。研究人員發(fā)現(xiàn)，通過緩存重復(fù)的視覺令牌或減少VLM推理頻率，還能進(jìn)一步降低計(jì)算成本。

更重要的是，這些趨勢在真實(shí)世界實(shí)驗(yàn)中得到了驗(yàn)證。在對應(yīng)BinFill的PutFruits任務(wù)中，符號記憶模型成功率達(dá)到90%，擅長計(jì)數(shù)；而在模仿軌跡的DrawPattern任務(wù)中，感知記憶模型成功率80%，遠(yuǎn)超前兩者。這表明RoboMME在仿真環(huán)境中得出的結(jié)論具有很強(qiáng)的遷移價(jià)值。

05.

人類vs機(jī)器：90.5% vs 44.51%，差距在哪里？

為了建立性能上限，研究團(tuán)隊(duì)還進(jìn)行了人類對比實(shí)驗(yàn)。18名參與者通過VideoQA方式選擇高level動(dòng)作，由oracle planner負(fù)責(zé)低level執(zhí)行，最終達(dá)到90.5%的整體成功率。但人類并非完美，在長horizon的PatternLock任務(wù)和時(shí)間敏感的StopCube任務(wù)中，仍會(huì)出現(xiàn)忘記軌跡細(xì)節(jié)或計(jì)數(shù)錯(cuò)誤的情況。

人類與最優(yōu)模型（FrameSamp+Modul）的差距主要體現(xiàn)在三個(gè)方面：一是對模糊信息的處理能力，人類能快速識別關(guān)鍵歷史信息，而機(jī)器容易被冗余數(shù)據(jù)干擾；二是記憶的泛化性，人類能將一種場景的記憶經(jīng)驗(yàn)遷移到相似任務(wù)，機(jī)器則依賴大量標(biāo)注數(shù)據(jù)；三是錯(cuò)誤恢復(fù)能力，人類發(fā)現(xiàn)記憶偏差后能快速調(diào)整，機(jī)器往往會(huì)持續(xù)犯錯(cuò)。

這些差距也指明了未來的研究方向。研究團(tuán)隊(duì)表示，RoboMME目前聚焦桌面操作場景，未來將擴(kuò)展到移動(dòng)操作任務(wù)，并引入更多VLA骨干網(wǎng)絡(luò)。而結(jié)合符號記憶的高-level推理優(yōu)勢和感知記憶的低-level精準(zhǔn)性，可能是實(shí)現(xiàn)更強(qiáng)大記憶增強(qiáng)型機(jī)器人的關(guān)鍵路徑。

從技術(shù)落地來看，RoboMME的價(jià)值不僅在于評估，更在于為實(shí)際開發(fā)提供指導(dǎo)。比如工業(yè)機(jī)器人可優(yōu)先采用感知記憶提升裝配精度，服務(wù)機(jī)器人可結(jié)合符號記憶優(yōu)化任務(wù)規(guī)劃，這些基于實(shí)驗(yàn)數(shù)據(jù)的選型建議，將加速記憶增強(qiáng)型機(jī)器人的產(chǎn)業(yè)化進(jìn)程。隨著基準(zhǔn)的完善和模型的迭代，未來機(jī)器人有望真正擺脫"健忘"的標(biāo)簽，在復(fù)雜場景中展現(xiàn)出類人的記憶與推理能力。

論文地址：https://arxiv.org/abs/2603.04639

項(xiàng)目地址：https://robomme.github.io/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.