網易首頁 > 網易號 > 正文申請入駐

王興興發論文了！宇樹、通研院聯手，教機器人“托馬斯全旋”

2026-03-03 19:48:33　來源: 機器人前瞻

北京舉報

分享至

機器人學習復雜運動，找到一條可擴展道路。

作者 |陳駿達

編輯 |李水青

機器人前瞻3月3日報道，今天，北京通用人工智能研究院（BIGAI）、宇樹、上海交通大學和中國科技大學等機構聯合發布一項最新開源研究成果，該成果有望給人形機器人學習復雜運動的方式帶來明顯提效，且不必在動作保真度與可擴展性之間做艱難權衡。

該研究提出了一種名為OMNIXTREME的新框架，成功讓一個機器人學會執行包括后空翻、托馬斯全旋、武術踢擊在內的數十種高動態“極限運動”，并在宇樹G1機器人上實現了真實世界的高成功率部署。

值得一提的是，同型號的宇樹機器人剛剛憑借在2026年春晚舞臺上絲滑的后空翻、側踢、跳馬、耍雙節棍乃至打醉拳等一系列武術動作而爆火出圈，不知道背后有沒有OMNIXTREME框架的功勞。

▲真機部署視頻（圖源：項目官網）

長期以來，讓機器人像人類一樣靈活運動，是機器人學領域的核心追求。然而，一個根深蒂固的難題始終困擾著研究者：“保真度-可擴展性權衡”。簡單來說，讓機器人模仿單個高難度動作（如一個后空翻）已能做到非常精準；但一旦試圖讓一個機器人學會幾十個風格迥異、動態復雜的動作，其學習效果就會大打折扣——控制器變得保守、平庸，在最具挑戰性的動作上頻頻失敗。

其實，在更早之前，宇樹就已經關注到這一問題。其創始人兼CEO王興興曾在2025年世界機器人大會上談道：目前機器人跳跳舞、打格斗效果已經不錯，但面臨一個關鍵問題——“機器人強化學習的Scaling Law做得非常不好”。比如訓練機器人做新動作、跳新舞蹈，每次都要從頭開始。理論上，每次RL訓練的速度應當越來越快，學習新技能的效果也應當越來越好，但行業內目前還沒人能真正實現這一點。

針對上述挑戰，OMNIXTREME研究團隊提出了兩階段訓練框架。實驗結果表明，OMNIXTREME在包含LAFAN1和自建XtremeMotion極限運動庫的綜合測試中，追蹤保真度遠超現有基線方法。

▲OMNIXTREME部署成功率

在真實的宇樹G1機器人上，OMNIXTREME讓機器人在單一策略完成了24種高動態運動，157次試驗的整體成功率高達91.08%，其中后空翻等動作成功率超過96%。

王興興是這篇論文的署名作者之一，位列倒數第三位，按照學術圈慣例，這或許意味著他在這項研究中扮演了指導者角色。該論文的共同通訊作者、北京通用人工智能研究院具身機器人中心主任黃思遠（SiyuanHuang）在社交媒體上透露，這是他們首次與王興興合作發表論文，這是一次頗有啟發性的經歷。

▲北京通用人工智能研究院具身機器人中心主任黃思遠發布推文宣傳該研究

目前這篇論文所涉及的模型檢查點和代碼已經開源發布，研究團隊還在項目官網提供了真機演示的視頻。流匹配基礎策略訓練與推理代碼、剩余后訓練和推理代碼以及C++真實部署代碼未來也可能會開源。

論文地址：

https://arxiv.org/abs/2602.23843

項目地址：

https://extreme-humanoid.github.io

項目代碼：

https://github.com/Perkins729/OmniXtreme

01.

機器人可擴展運動能力兩大挑戰

仿真學習瓶頸與物理可執行性瓶頸

OMNIXTREME研究團隊認為，讓機器人具備可擴展的、人類水平的全身運動技能，是通用人形機器人的終極目標。

研究這一能力的一個核心途徑是高保真運動追蹤：控制器需在接觸和干擾下保持動態穩定，同時精確復現參考動作。這不僅是美學追求，更是實現移動操作、表達性交互等復雜人形機器人能力的基礎。

近年來，基于學習的運動追蹤取得長足進展，借助強化學習，單一控制器已能高精度完成舞蹈、空翻等高動態動作。然而，隨著運動庫向更大規模、更多風格和復雜接觸模式擴展，一個難題持續浮現：追蹤質量顯著下降。

這一困境源于當前訓練流程中兩個相互疊加的障礙。首先是仿真中的學習瓶頸：現有方法多采用簡單的策略網絡表示，面對異構動作目標時，其表達能力隨數據多樣性增加而迅速飽和；同時，用強化學習統一訓練多任務會加劇梯度干擾，導致高動態行為上的保守平均或選擇性失敗。

其次是物理可執行性瓶頸：即便仿真中表現優異，遷移到真實機器人仍面臨挑戰，因為現有建模忽略了扭矩-速度非線性、再生功率等關鍵驅動器特性，這些因素在高動態運動中會引發執行失穩。

為系統應對上述挑戰，研究團隊提出了OMNIXTREME框架。該框架通過流匹配策略進行“專家到統一”的生成式預訓練，以高容量模型擴展表達能力，同時避開多任務強化學習的干擾。

隨后引入殘差強化學習后訓練階段，結合考慮驅動特性的建模、精細化隨機化和功率安全約束，將預訓練策略精煉至可真實執行。

該設計使單一策略既能規模化學習多樣化技能，又能穩健部署于物理硬件，有效突破傳統高動態人形機器人控制中的保真度瓶頸。

02.

三階段完成策略訓練

高度對齊真實硬件特性

具體來看，OMNIXTREME的整體框架包含三個環環相扣的階段。在預訓練階段，研究者通過基于DAgger的流匹配方法訓練出一個統一的基策略，其核心目標是從多個專注于單一運動的專家策略中，聚合多樣化的運動先驗。

隨后進入后訓練階段，此時預訓練的基策略被凍結，一個輕量級的殘差策略在嚴格的電機約束、激進的領域隨機化以及功率安全正則化下進行優化，旨在彌合仿真環境與真實物理世界之間的動態差距。

最后是機載部署階段，整個推理流程經過優化，能夠實時且完全在機器人的機載計算機上執行，從而確保在復雜物理環境中的魯棒與敏捷控制。

▲OMNIXTREME框架

在可擴展的基于流的策略預訓練中，問題被形式化為一個蒸餾過程。觀測空間涵蓋了機器人的本體感覺信息、包含軀干姿態差異和參考運動目標的指令，以及過去的狀態歷史。

研究者的目標是為參考運動數據集中的每一個運動先訓練一個專家策略，然后將這些專家知識蒸餾到一個統一的、基于流的通用策略中。這個數據集本身也極具多樣性，融合了LAFAN1、AMASS、MimicKit和Reallusion等多個來源的行為模式和高動態動作，并統一重定向到宇樹G1機器人上。

專家策略的訓練采用近端策略優化算法，為每個特定運動生成一個教師策略。而將多個專家知識統一起來的關鍵在于流匹配目標函數。該函數通過學習一個速度場，將隨機噪聲逐步導向專家動作，從而掌握從任意狀態生成正確動作的泛化能力。

為了在預訓練階段就為未來的真實部署打下基礎，研究團隊在教師訓練和流匹配訓練中都采用了保真度保持的隨機化和噪聲策略。

盡管預訓練的基策略已經具備了魯棒的行為基礎，但在面對真實世界復雜的物理效應時，性能差距依然存在。為此，研究者引入了考慮驅動特性的后訓練階段，其核心是殘差策略建模。

在凍結基策略后，一個輕量級的MLP殘差策略被訓練用來產生修正動作。基策略提供主要的行為指引，而殘差策略則負責微調，共同生成最終的控制指令，并通過PPO算法以累積獎勵為監督進行優化。

為了讓殘差策略能夠應對真實世界的挑戰，后訓練環境中融入了大量考慮驅動特性的物理約束。包括激進的領域隨機化（擾動范圍和難度遠超預訓練階段）、初始姿態噪聲、隨機的地形臺階，并且特意放寬了終止閾值，允許策略在更大偏差下進行探索和糾錯。

其次是功率安全驅動正則化，通過引入對過大負向機械功率的懲罰，來抑制可能觸發真實硬件過流保護或熱應力的劇烈電機制動，尤其針對膝關節在高動態沖擊中的能量吸收過程進行約束。

最后，后訓練階段還通過精細的扭矩-速度約束來彌合驅動器建模的差距。研究者將真實的電機扭矩-速度工作包絡線直接集成到仿真中，根據關節速度和扭矩方向動態計算允許的最大扭矩，確保指令在物理上可實現。此外，還通過非線性摩擦項進一步模擬了驅動器內部的能量損耗。

這一系列結構化的措施，使得最終得到的控制器更安全、對干擾更魯棒，并與真實硬件特性高度對齊。

03.

平均成功率91.08%

端到端推理延遲僅10毫秒

為驗證OMNIXTREME在處理高動態人形機器人控制任務中的性能，研究團隊建立了一個雙層架構的運動庫，除了包含廣泛使用的LAFAN1標準基準數據集外，還特別打造了名為XtremeMotion的挑戰性數據集，其中包含翻轉、霹靂舞、雜技和武術等60種具備高動態強度和頻繁接觸切換的動作。

在與“從零開始的強化學習”以及“專家到統一MLP蒸餾”等基準方法的對比中，OMNIXTREME在各項模擬指標上均表現優異，特別是在面對高難度動作和未見過的運動序列時，其成功率和追蹤精度的領先優勢更為顯著。

▲OMNIXTREME與其他方法的對比

這證明了基于流匹配的生成式預訓練能更有效地擴展模型的表示能力，而不會像傳統方法那樣在運動類別增加時出現性能崩塌。

在實際硬件部署方面，研究者將該統一策略應用于宇樹G1人形機器人，并通過 TensorRT優化實現了約10毫秒的超低端到端推理延遲，確保機器人能以50Hz的頻率在機載端實時執行。實驗結果顯示，OMNIXTREME能夠在物理世界中穩定復現極限平衡、高速轉向和復雜的全身協調動作，平均成功率達到91.08%。

▲真機部署成功率

消融實驗進一步揭示了“動作感知后訓練”的重要性：通過引入針對電機轉矩-速度特性的物理建模、更激進的領域隨機化，以及限制過度制動負載的功耗安全正則化，系統能有效緩解模擬與現實之間的差距。

▲消融實驗結果

具體而言，對于翻轉等沖擊性動作，電機包絡約束是關鍵；而對于霹靂舞等接觸密集型技能，隨機化和功耗監管則大幅提升了機器人處理接觸干擾與硬件保護的能力，從而避免了過流或電壓不穩導致的崩潰。

總體而言，這些實驗證實了OMNIXTREME的可擴展性，也為未來人形機器人邁向人類水平的靈巧運動提供了一條可能的實踐路徑。

04.

結語：打破保真度與可擴展性權衡后

下一步將融入高保真執行器特性

OMNIXTREME既緩解了規模擴大時的學習瓶頸，也解決了仿真到現實部署時的物理可執行性瓶頸。讓單一統一策略即可可靠執行多種極限動作，打破了傳統上保真度與可擴展性之間的權衡。

研究團隊稱，他們認為聯合擴展數據多樣性與模型容量對于提升人形機器人全身運動技能的泛化能力至關重要。隨著基于學習的控制器被推向更動態、更受硬件限制的場景，考慮執行器特性的建模正成為學習流程中的關鍵組成部分。

未來，通過融入高保真執行器特性，如電流、功率、扭矩以及速度相關的約束，研究人員能夠進一步縮小仿真與現實的差距，確保學習到的行為能夠無縫遷移到物理人形機器人上。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.