![]()
案例基于EgoScale:用不同的以自我為中心的人類數據來衡量靈巧手的操作。
挑戰
像擰開蓋子、使用工具和精細的手指控制等靈巧的機器人操作訓練成本很高。目前的方法依賴于大量的遙操作機器人演示,這種演示速度慢,而且規模昂貴。與此同時,人類每天都會產生大量靈巧的操作數據,但將這些知識轉移到機器人身上仍然具有挑戰性。
解決方案
EgoScale將大規模以人為中心的視頻作為主要訓練資料來源,并通過以下方式將其與精確的MANUS數據手套運動校準相結合并應用于三級流水線中。
![]()
NVIDIA推出的EgoScale是一個三階段的培訓管道,用于擴展機器人遙操作靈活性。
步驟1-人工預訓練
視覺-語言-動作(VLA)模型在總時長長達20,854小時動作標記的以自我為中心的人類視頻上進行預訓練。使用21個關鍵點提取人手運動,并將其重定向到22-DoF機器手關節空間,手腕運動表示為相對3D平移和旋轉。
研究小組揭示了一個對數線性標度定律:隨著人類數據的增加,驗證損失可預見地減少,并開始與真實機器人的性能相關起來。這表明大規模人類視頻是靈巧機器人學習的可擴展和監督來源。
![]()
從以動作為標簽的以自我為中心的人類視頻中提取了21個關鍵點的人類動作。
步驟2–人-機器人校準
階段1:從無約束的人類數據中學習一般的操作,但不與機器人的傳感和控制設置匹配。
階段2:彌補了真正開始機器人時的差距。
在人類和遙操作機器人使用相同的攝像機設置執行相同的344個桌面任務的情況下,研究人員收集了小數量、仔細對齊的數據集。在此過程中,操作人員穿著MANUS手套捕捉每只手的25個關節變換高保真手指數據,Vive追蹤器被用于記錄手腕運動。相同的運動捕捉設置用于機器人遠程操作,確保人和機器人的動作信號是直接可比較的。
利用大約50小時的對齊人類數據和4小時的機器人數據,該模型將人類操縱知識錨定到機器人控制中。
![]()
使用MANUS手套、Vive追蹤器和以自我為中心的攝像機來捕捉手部動作和與機器人傳感配置一致的視覺輸入,從而調整人-機器人數據收集設置。
步驟3 -任務調整
在這個階段,模型已經具有來自階段1的一般操作和來自階段2的機器人對齊。第三階段針對特定任務對其進行微調。
在標準設置中,大約有100個遙控機器人演示用于使模型適應目標任務。因為基礎很強,這個相對較小的數據集足以在復雜靈巧的任務上獲得更好表現。
在一次性設置中,該模型只需要一個機器人演示,輔以一致的人類演示,就可以有效地進行歸納。這突出了早期階段所實現的強大的快速記錄能力。
![]()
基于流的VLA策略架構,具有VLM主干和DiT動作專家,使用腕級動作表示和輕量級體現適配器來統一人類和機器人數據。
測量結果
大規模人工預訓練和人工校準的結合帶來了明顯的性能提升。
在五個復雜的操作訓練任務中,完整的預訓練和中間訓練模型比沒有預訓練的基線提高了54%的平均成功率。在所有單項任務中,預訓練和中間訓練模式也明顯優于從頭開始的訓練。在單鏡頭設置中,單個機器人演示能夠實現高達88%的襯衫折疊成功率,展示了強大的少鏡頭泛化能力。
重要的是,學習到的操作在機器人之間轉移。在高自由度靈巧手數據上預處理的策略可以適用于具有7自由度三指手的Unitree G1,在成功率上實現了超過30%的絕對提高,并證明了高自由度人類操作可以推廣到低自由度機器人手上。
![]()
使用22自由度靈巧手的人類預訓練策略同樣也適用于具有7自由度三指手的Unitree G1機器人,展示了跨不同機器人機器人的通用性。
結果
EgoScale為機器人靈巧手學習建立了一個可擴展的范例,一是通過于模擬訓練的方式實現MANUS手套提供人體運動空間和機器人關節空間之間的關鍵對齊層。其二通過充當人類運動和機器人關節空間之間的精確動作轉換層,MANUS手套降低了機器人數據成本,同時加快了通用靈巧系統的部署。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.