解鎖“托馬斯全旋”，春晚之后機器人再進化

2026-03-10 18:34:41　來源: 創(chuàng)業(yè)中關(guān)村

北京舉報

分享至

近日，北京通用人工智能研究院聯(lián)合宇樹科技等機構(gòu)發(fā)布OmniXtreme框架，成功讓機器人學(xué)會執(zhí)行包括后空翻托馬斯全旋、武術(shù)踢擊在內(nèi)的數(shù)十種高動態(tài)“極限運動”，并在宇樹機器人上實現(xiàn)了真實世界的高成功率部署。該框架是首個可以執(zhí)行各種極限動作的通用策略，為人形機器人學(xué)習(xí)復(fù)雜運動方式帶來明顯提效，解決了動作保真度與可擴展性兼顧的難題。

長期以來，讓機器人像人類一樣靈活運動，是機器人學(xué)領(lǐng)域的核心追求。然而，讓機器人模仿單個高難度動作如一個后空翻，已能做到非常精準，但一旦試圖讓機器人學(xué)會幾十個風(fēng)格迥異、動態(tài)復(fù)雜的動作，其學(xué)習(xí)效果就會大打折扣——控制器變得保守、平庸，在最具挑戰(zhàn)性的動作上頻頻失敗。

OmniXtreme框架的實現(xiàn)過程首先是預(yù)訓(xùn)練一個基于流的生成控制策略，然后針對復(fù)雜物理動力學(xué)進行“驅(qū)動感知殘差強化學(xué)習(xí)”的后訓(xùn)練。其中，后訓(xùn)練這一步對于成功實現(xiàn)真實世界的遷移至關(guān)重要。在人形機器人的運動控制領(lǐng)域，研究人員長期面臨一個被稱為“泛化壁壘”的困境。當動作庫的規(guī)模和多樣性增加時，傳統(tǒng)的統(tǒng)一強化學(xué)習(xí)策略往往會遭遇性能崩潰，這在高動態(tài)動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸：仿真環(huán)境中的學(xué)習(xí)瓶頸（多動作優(yōu)化的梯度干擾）以及物理執(zhí)行瓶頸（真實世界復(fù)雜的驅(qū)動約束）。

為了從根本上解決這一問題，研究團隊提出了OmniXtreme框架。該框架將動作技能的學(xué)習(xí)與物理驅(qū)動的微調(diào)進行了巧妙的解耦，分為“基于流的可擴展預(yù)訓(xùn)練”與“驅(qū)動感知的殘差后訓(xùn)練”兩個核心階段。

為了驗證系統(tǒng)是否打破了泛化壁壘，團隊設(shè)計了漸進式的壓力測試。他們將訓(xùn)練動作集從10個逐步擴展到20個，最終擴展到50個，并使用固定的前10個動作進行統(tǒng)一評估。實驗結(jié)果揭示了顯著的差異。隨著動作多樣性的增加，傳統(tǒng)從頭訓(xùn)練的強化學(xué)習(xí)基線模型出現(xiàn)了嚴重的性能衰退，其成功率從100%暴跌至83.3%，最終滑落至73.9%。相比之下，OmniXtreme展現(xiàn)出了驚人的韌性，在50個動作的龐大訓(xùn)練集下，其對核心動作的跟蹤成功率依然堅挺在93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.