讓機(jī)器人把指定顏色的立方體放進(jìn)箱子并準(zhǔn)確計(jì)數(shù),在物體被遮擋后仍能追蹤其位置,重復(fù)之前演示過的動(dòng)作軌跡,這些看似簡單的操作,背后都離不開"記憶"的支撐。長期以來,機(jī)器人在復(fù)雜場景下的歷史依賴型任務(wù)表現(xiàn)不佳,核心原因之一就是缺乏標(biāo)準(zhǔn)化的記憶能力評估體系。
![]()
密歇根大學(xué)、斯坦福大學(xué)、Figure AI等機(jī)構(gòu)聯(lián)合推出的RoboMME benchmark,首次將機(jī)器人記憶劃分為 temporal(時(shí)間)、spatial(空間)、object(物體)、procedural(程序)四大維度,通過16個(gè)細(xì)分任務(wù)和770k高質(zhì)量訓(xùn)練時(shí)序,為記憶增強(qiáng)型機(jī)器人策略提供了統(tǒng)一的評估標(biāo)準(zhǔn)。這一突破不僅解決了此前評估碎片化的問題,更通過14種記憶增強(qiáng)型VLA模型的對比實(shí)驗(yàn),揭示了不同記憶表征的適用場景。
01.
為什么機(jī)器人"記性差"?傳統(tǒng)評估的三大痛點(diǎn)
在RoboMME出現(xiàn)之前,機(jī)器人記憶相關(guān)的評估一直存在明顯短板。現(xiàn)有基準(zhǔn)要么只聚焦單一記憶類型,比如MemoryBench僅關(guān)注空間記憶,要么任務(wù) horizon 過短,無法真正考驗(yàn)長期記憶能力。更關(guān)鍵的是,大多數(shù)基準(zhǔn)允許機(jī)器人僅通過即時(shí)感知就能完成任務(wù),難以觸發(fā)真正的歷史依賴推理。
實(shí)際應(yīng)用中,機(jī)器人需要處理的場景遠(yuǎn)比想象中復(fù)雜。比如家庭服務(wù)機(jī)器人擦拭桌子時(shí),需要記住已經(jīng)清潔過的區(qū)域;工業(yè)機(jī)器人裝配零件時(shí),要回憶上一步的操作位置;甚至簡單的"重復(fù)三次動(dòng)作"指令,都需要時(shí)間記憶來計(jì)數(shù)。這些任務(wù)的共同特點(diǎn)是,相同的當(dāng)前觀測可能對應(yīng)不同的歷史背景,必須依賴記憶才能做出正確決策。
RoboMME的核心創(chuàng)新在于,所有任務(wù)都被設(shè)計(jì)為非馬爾可夫過程,強(qiáng)制機(jī)器人調(diào)用歷史信息。例如在StopCube任務(wù)中,機(jī)器人需要監(jiān)測不斷擺動(dòng)的立方體,在它第N次經(jīng)過目標(biāo)時(shí)精準(zhǔn)按下停止按鈕,既需要記住次數(shù)(時(shí)間記憶),又要追蹤位置(空間記憶),任何單一感知都無法完成。
02.
四大記憶維度+16項(xiàng)任務(wù),全面覆蓋機(jī)器人記憶場景
RoboMME的任務(wù)設(shè)計(jì)靈感源自人類記憶的認(rèn)知理論,將機(jī)器人記憶需求拆解為四個(gè)核心維度,每個(gè)維度對應(yīng)四個(gè)細(xì)分任務(wù),形成完整的評估體系。
![]()
時(shí)間記憶(temporal memory)聚焦事件計(jì)數(shù)與序列排序,典型任務(wù)包括BinFill和StopCube。在BinFill中,機(jī)器人需要將指定數(shù)量的不同顏色立方體放入不透明箱子,由于無法直接觀察箱內(nèi)情況,必須通過記憶追蹤已放置的數(shù)量;而StopCube則要求在立方體第2-5次經(jīng)過目標(biāo)時(shí)按下按鈕,考驗(yàn)精準(zhǔn)的時(shí)序計(jì)數(shù)能力。
空間記憶(spatial memory)側(cè)重遮擋與場景變化下的位置追蹤,VideoUnmaskSwap任務(wù)最具代表性。機(jī)器人先觀看容器遮擋立方體并交換位置的視頻,隨后需要準(zhǔn)確找出隱藏目標(biāo)立方體的容器,整個(gè)過程中無法依賴實(shí)時(shí)視覺反饋,完全依靠對視頻中空間關(guān)系的記憶。
物體記憶(object memory)關(guān)注跨時(shí)間的物體身份識別,PickHighlight任務(wù)中,機(jī)器人按下按鈕后會(huì)看到特定立方體被短暫高亮,之后需要在無高亮提示的情況下,準(zhǔn)確拾取之前記住的目標(biāo)物體。而VideoRepick任務(wù)則要求機(jī)器人從視頻中學(xué)習(xí)特定立方體的特征,即使該立方體被移動(dòng)或與其他相似物體混合,仍能重復(fù)拾取動(dòng)作。
程序記憶(procedural memory)負(fù)責(zé)存儲和復(fù)現(xiàn)動(dòng)作模式,PatternLock任務(wù)中,機(jī)器人需要觀看演示視頻中末端執(zhí)行器在網(wǎng)格上的移動(dòng)軌跡,之后精準(zhǔn)復(fù)現(xiàn)相同的路徑順序,誤差超過閾值即判定失敗。InsertPeg任務(wù)則要求記住拾取釘子的特定端部和插入方向,考驗(yàn)精細(xì)動(dòng)作的記憶能力。
![]()
這些任務(wù)的難度分為簡單、中等、困難三個(gè)等級,通過場景雜亂度、任務(wù)時(shí)長和環(huán)境動(dòng)態(tài)性調(diào)節(jié)。數(shù)據(jù)集中包含1600個(gè)演示樣本,單個(gè)任務(wù)的執(zhí)行步數(shù)從幾百到一千多不等,充分模擬真實(shí)場景中的長 horizon 需求。
![]()
03.
14種模型實(shí)測:沒有"萬能記憶",只有"精準(zhǔn)匹配"
基于RoboMME基準(zhǔn),研究團(tuán)隊(duì)構(gòu)建了14種記憶增強(qiáng)型VLA模型,均基于π?.?骨干網(wǎng)絡(luò),分別采用symbolic(符號)、perceptual(感知)、recurrent(循環(huán))三種記憶表征,搭配三種不同的整合機(jī)制,形成完整的對比體系。
![]()
符號記憶通過語言子目標(biāo)總結(jié)歷史信息,比如將"已放置2個(gè)綠色立方體"編碼為文本指令,再與任務(wù)描述拼接輸入模型。實(shí)驗(yàn)中,采用QwenVL生成的grounded subgoals(帶坐標(biāo)標(biāo)注的子目標(biāo))在BinFill等計(jì)數(shù)任務(wù)中表現(xiàn)突出,成功率達(dá)到72.08%,但在StopCube等時(shí)間敏感型任務(wù)中幾乎失效,成功率接近0。這是因?yàn)檎Z言符號難以捕捉精細(xì)的時(shí)序動(dòng)態(tài)信息。
![]()
感知記憶直接保留歷史視覺特征,通過幀采樣(FrameSamp)或令牌丟棄(TokenDrop)篩選關(guān)鍵視覺信息。其中FrameSamp+Modul組合表現(xiàn)最佳,整體成功率達(dá)到44.51%,在PatternLock等動(dòng)作復(fù)現(xiàn)任務(wù)中優(yōu)勢明顯,成功率高達(dá)53.56%。值得注意的是,TokenDrop由于過度裁剪空間上下文,在需要全局視野的任務(wù)中表現(xiàn)不如FrameSamp,印證了視覺完整性對空間記憶的重要性。
循環(huán)記憶通過TTT(測試時(shí)訓(xùn)練)或RMT(循環(huán)記憶Transformer)壓縮歷史信息,但其表現(xiàn)出人意料地最差,整體成功率僅在18%-22%之間。研究人員分析,這可能是因?yàn)棣?.?的淺層循環(huán)結(jié)構(gòu)導(dǎo)致訓(xùn)練不穩(wěn)定,有效的循環(huán)記憶需要更深層次的架構(gòu)整合。
三種整合機(jī)制中,memory-as-modulator(記憶作為調(diào)制器)表現(xiàn)最為均衡,通過自適應(yīng)LayerNorm調(diào)節(jié)動(dòng)作專家的中間激活,既保留了原始模型的預(yù)訓(xùn)練特征,又能有效融入記憶信息。而memory-as-expert雖然增加了專門的記憶處理模塊,但由于參數(shù)規(guī)模擴(kuò)大和訓(xùn)練難度增加,并未帶來顯著性能提升。
04.
效率與性能的平衡:感知記憶成最優(yōu)解
在機(jī)器人實(shí)際部署中,計(jì)算效率與性能同樣重要。RoboMME的實(shí)驗(yàn)顯示,不同記憶表征的計(jì)算成本差異顯著:依賴外部VLM生成子目標(biāo)的符號記憶模型,計(jì)算量是基礎(chǔ)π?.?的3倍;MemER模型由于結(jié)合了關(guān)鍵幀存儲和符號子目標(biāo),計(jì)算量更是達(dá)到5倍。
相比之下,感知記憶模型展現(xiàn)出更優(yōu)的效率-性能平衡。FrameSamp+Modul在記憶預(yù)算從64增加到512 tokens的過程中,成功率穩(wěn)步提升,而計(jì)算量僅適度增加。這是因?yàn)槠溆?jì)算主要集中在視覺令牌處理,記憶整合本身僅引入輕微開銷。研究人員發(fā)現(xiàn),通過緩存重復(fù)的視覺令牌或減少VLM推理頻率,還能進(jìn)一步降低計(jì)算成本。
![]()
更重要的是,這些趨勢在真實(shí)世界實(shí)驗(yàn)中得到了驗(yàn)證。在對應(yīng)BinFill的PutFruits任務(wù)中,符號記憶模型成功率達(dá)到90%,擅長計(jì)數(shù);而在模仿軌跡的DrawPattern任務(wù)中,感知記憶模型成功率80%,遠(yuǎn)超前兩者。這表明RoboMME在仿真環(huán)境中得出的結(jié)論具有很強(qiáng)的遷移價(jià)值。
05.
人類vs機(jī)器:90.5% vs 44.51%,差距在哪里?
為了建立性能上限,研究團(tuán)隊(duì)還進(jìn)行了人類對比實(shí)驗(yàn)。18名參與者通過VideoQA方式選擇高level動(dòng)作,由oracle planner負(fù)責(zé)低level執(zhí)行,最終達(dá)到90.5%的整體成功率。但人類并非完美,在長horizon的PatternLock任務(wù)和時(shí)間敏感的StopCube任務(wù)中,仍會(huì)出現(xiàn)忘記軌跡細(xì)節(jié)或計(jì)數(shù)錯(cuò)誤的情況。
![]()
人類與最優(yōu)模型(FrameSamp+Modul)的差距主要體現(xiàn)在三個(gè)方面:一是對模糊信息的處理能力,人類能快速識別關(guān)鍵歷史信息,而機(jī)器容易被冗余數(shù)據(jù)干擾;二是記憶的泛化性,人類能將一種場景的記憶經(jīng)驗(yàn)遷移到相似任務(wù),機(jī)器則依賴大量標(biāo)注數(shù)據(jù);三是錯(cuò)誤恢復(fù)能力,人類發(fā)現(xiàn)記憶偏差后能快速調(diào)整,機(jī)器往往會(huì)持續(xù)犯錯(cuò)。
這些差距也指明了未來的研究方向。研究團(tuán)隊(duì)表示,RoboMME目前聚焦桌面操作場景,未來將擴(kuò)展到移動(dòng)操作任務(wù),并引入更多VLA骨干網(wǎng)絡(luò)。而結(jié)合符號記憶的高-level推理優(yōu)勢和感知記憶的低-level精準(zhǔn)性,可能是實(shí)現(xiàn)更強(qiáng)大記憶增強(qiáng)型機(jī)器人的關(guān)鍵路徑。
從技術(shù)落地來看,RoboMME的價(jià)值不僅在于評估,更在于為實(shí)際開發(fā)提供指導(dǎo)。比如工業(yè)機(jī)器人可優(yōu)先采用感知記憶提升裝配精度,服務(wù)機(jī)器人可結(jié)合符號記憶優(yōu)化任務(wù)規(guī)劃,這些基于實(shí)驗(yàn)數(shù)據(jù)的選型建議,將加速記憶增強(qiáng)型機(jī)器人的產(chǎn)業(yè)化進(jìn)程。隨著基準(zhǔn)的完善和模型的迭代,未來機(jī)器人有望真正擺脫"健忘"的標(biāo)簽,在復(fù)雜場景中展現(xiàn)出類人的記憶與推理能力。
論文地址:https://arxiv.org/abs/2603.04639
項(xiàng)目地址:https://robomme.github.io/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.