![]()
近日,北京通用人工智能研究院聯(lián)合宇樹科技等機構(gòu)發(fā)布OmniXtreme框架,成功讓機器人學(xué)會執(zhí)行包括后空翻托馬斯全旋、武術(shù)踢擊在內(nèi)的數(shù)十種高動態(tài)“極限運動”,并在宇樹機器人上實現(xiàn)了真實世界的高成功率部署。該框架是首個可以執(zhí)行各種極限動作的通用策略,為人形機器人學(xué)習(xí)復(fù)雜運動方式帶來明顯提效,解決了動作保真度與可擴展性兼顧的難題。
長期以來,讓機器人像人類一樣靈活運動,是機器人學(xué)領(lǐng)域的核心追求。然而,讓機器人模仿單個高難度動作如一個后空翻,已能做到非常精準,但一旦試圖讓機器人學(xué)會幾十個風(fēng)格迥異、動態(tài)復(fù)雜的動作,其學(xué)習(xí)效果就會大打折扣——控制器變得保守、平庸,在最具挑戰(zhàn)性的動作上頻頻失敗。
OmniXtreme框架的實現(xiàn)過程首先是預(yù)訓(xùn)練一個基于流的生成控制策略,然后針對復(fù)雜物理動力學(xué)進行“驅(qū)動感知殘差強化學(xué)習(xí)”的后訓(xùn)練。其中,后訓(xùn)練這一步對于成功實現(xiàn)真實世界的遷移至關(guān)重要。在人形機器人的運動控制領(lǐng)域,研究人員長期面臨一個被稱為“泛化壁壘”的困境。當動作庫的規(guī)模和多樣性增加時,傳統(tǒng)的統(tǒng)一強化學(xué)習(xí)策略往往會遭遇性能崩潰,這在高動態(tài)動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸:仿真環(huán)境中的學(xué)習(xí)瓶頸(多動作優(yōu)化的梯度干擾)以及物理執(zhí)行瓶頸(真實世界復(fù)雜的驅(qū)動約束)。
為了從根本上解決這一問題,研究團隊提出了OmniXtreme框架。該框架將動作技能的學(xué)習(xí)與物理驅(qū)動的微調(diào)進行了巧妙的解耦,分為“基于流的可擴展預(yù)訓(xùn)練”與“驅(qū)動感知的殘差后訓(xùn)練”兩個核心階段。
為了驗證系統(tǒng)是否打破了泛化壁壘,團隊設(shè)計了漸進式的壓力測試。他們將訓(xùn)練動作集從10個逐步擴展到20個,最終擴展到50個,并使用固定的前10個動作進行統(tǒng)一評估。實驗結(jié)果揭示了顯著的差異。隨著動作多樣性的增加,傳統(tǒng)從頭訓(xùn)練的強化學(xué)習(xí)基線模型出現(xiàn)了嚴重的性能衰退,其成功率從100%暴跌至83.3%,最終滑落至73.9%。相比之下,OmniXtreme展現(xiàn)出了驚人的韌性,在50個動作的龐大訓(xùn)練集下,其對核心動作的跟蹤成功率依然堅挺在93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.