![]()
來源:北京通用人工智能研究院
導 語
近日,通智大腦能力再升級
北京通用人工智能研究院(以下簡稱通研院)
聯合宇樹科技等機構發布OmniXtreme框架
成功讓機器人學會執行包括后空翻
托馬斯全旋、武術踢擊在內的
數十種高動態“極限運動”
并在宇樹機器人上實現了
真實世界的高成功率部署
該框架是首個可以執行各種
極限動作的通用策略
人形機器人學習復雜運動方式帶來明顯提效
解決了動作保真度與可擴展性兼顧的難題
OmniXtreme 框架下機器人執行托馬斯全旋、后空翻、霹靂舞、武術等動作
2026年馬年春晚上武術表演《武 BOT》中
絲滑的后空翻、側踢、跳馬、耍雙節棍
等一系列武術動作爆火出圈
![]()
而OmniXtreme框架則在此基礎上更推進了一步
是首個可以執行各種極限動作的通用策略
包括連續翻轉、極限平衡
甚至可以通過快速接觸切換進行霹靂舞
![]()
2024年,通研院聯合宇樹科技共建具身智能與人形機器人聯合實驗室。2025年4月中關村論壇上,通研院正式推出“通智大腦”,并與宇樹科技、樂聚機器人等頭部機器人企業組成“通智大腦聯盟”。目前,“通智大腦”在人形機器人通用運動控制泛化上得到了進一步提升。
本研究團隊作者包括:通研院通計劃聯培博士生王云申、朱紹航、李宇翰、李佳鑫,通研院工程師智佩淵,以及上海交通大學李永露,宇樹科技肖宇晨、王興興,通訊作者為通研院研究員賈寶雄、黃思遠。
![]()
論文地址:https://arxiv.org/abs/2602.23843
項目地址:https://extreme-humanoid.github.io
代碼地址:
https://github.com/Perkins729/OmniXtreme
長期以來,讓機器人像人類一樣靈活運動,是機器人學領域的核心追求。然而,讓機器人模仿單個高難度動作(如一個后空翻)已能做到非常精準;但一旦試圖讓一個機器人學會幾十個風格迥異、動態復雜的動作,其學習效果就會大打折扣——控制器變得保守、平庸,在最具挑戰性的動作上頻頻失敗。
OmniXtreme框架的實現過程首先是預訓練一個基于流的生成控制策略(flow-based generative control policy),然后針對復雜物理動力學進行「驅動感知殘差強化學習」(actuation-aware residual RL)的后訓練。其中后訓練這一步對于成功實現真實世界的遷移至關重要。
方法:打破高動態控制的泛化壁壘
在人形機器人的運動控制領域,研究人員長期面臨一個被稱為「泛化壁壘(generality barrier)」的困境。
當動作庫的規模和多樣性增加時,傳統的統一強化學習策略往往會遭遇性能崩潰,這在高動態動作的物理部署中尤為明顯。這種崩潰源于兩個相互疊加的瓶頸:仿真環境中的學習瓶頸(多動作優化的梯度干擾)以及物理執行瓶頸(真實世界復雜的驅動約束)。
為了從根本上解決這一問題,研究團隊提出了 OmniXtreme 框架。該框架將動作技能的學習與物理驅動的微調進行了巧妙的解耦,分為「基于流的可擴展預訓練」與「驅動感知的殘差后訓練」兩個核心階段。
![]()
階段一:基于流的可擴展預訓練
在第一階段,研究團隊的目標是賦予模型極高的表示容量,使其能夠掌握大量異構的極限動作,同時避免傳統多動作強化學習中常見的保守化平均傾向。
研究人員首先整合了 LAFAN1、AMASS、MimicKit 等多個高質量動作數據集,并將其重定向至宇樹 G1 人形機器人上。
針對這些參考動作,團隊利用 PPO 算法訓練了一系列專家策略。隨后,OmniXtreme 采用了基于數據集聚合 (DAgger) 的知識蒸餾技術,將這些專家策略的行為統一融合到一個基于流匹配的生成式策略中。
![]()
在數學表達上,基于流的模型通過優化以下目標函數來學習從純噪聲中恢復專家動作的過程 :
在上述公式中,a_t 表示在流時間步 t 下,專家動作 a_{expert} 與隨機噪聲 ε 之間的插值動作。該目標函數使得模型能夠學習到一個速度場 v_θ,從而在推理時通過正向歐拉積分生成高精度的連續控制動作。為了保證物理穩定性,團隊在這一階段僅引入了適度的噪聲和域隨機化,確保策略能夠準確捕捉底層的物理動力學特征。
階段二:驅動感知的后訓練
預訓練得到的流匹配策略雖然在仿真中表現出了驚人的跟蹤精度,但現實世界中的電機非線性特性往往會導致這種高動態表現大打折扣。
為了實現平滑的「仿真到現實」遷移,團隊凍結了預訓練的基礎策略,并在其之上訓練了一個輕量級的 MLP 殘差策略。該殘差策略無需重新學習動作跟蹤,主要負責輸出修正動作以對抗真實的硬件約束。
為了讓殘差策略真正理解物理世界的殘酷,團隊在訓練環境中引入了三個層面的深度建模:
1. 激進的域隨機化
研究人員將初始姿態噪聲、外力干擾幅度、角速度等常見域隨機化參數的范圍大幅提升了最高 50%。更為關鍵的是,他們將終止閾值放寬了 1.5 倍(例如將軀干方向誤差容忍度從 0.8 弧度放寬至 1.2 弧度)。這種設計給予了殘差策略充足的探索空間,使其能夠學會在大偏差狀態下進行極限挽救,極大地增強了系統的魯棒性。
2. 功率安全驅動正則化
執行后空翻等高動態動作時,機器人會產生巨大的瞬態制動負載。常規的強化學習管線通常缺乏對此類負載的約束,從而極易在真實硬件上觸發過流保護或熱應力宕機。OmniXtreme 創新性地引入了針對機械功率的懲罰機制,其核心在于計算關節扭矩與角速度的乘積,即瞬時機械功率 P=τ?ω。
對于超出安全死區的高額負功率(再生制動),團隊應用了嚴格的二次懲罰函數 :
![]()
在實際應用中,該懲罰項被重點施加于膝關節,因為膝關節在沖擊與恢復階段最容易承受破壞性的制動負載。
3. 驅動感知的扭矩與速度約束
單純的扭矩截斷往往會忽略由反電動勢引起的與速度相關的物理限制。團隊將真實的電機運行包絡線直接集成到了仿真器中,定義了隨關節速度幅值單調遞減的容許扭矩函數。此外,系統還通過非線性摩擦項對執行器級別的內部損耗進行了建模 :
![]()
該公式精確捕捉了從靜摩擦到動摩擦的平滑過渡,并計算了與速度相關的耗散阻尼。
純機載的實時部署
在硬件部署方面,OmniXtreme 展現出了極高的工程完成度。
整個推理管線(包括基于正向運動學的狀態估計、流匹配基礎策略以及殘差策略)均使用 TensorRT 進行了深度優化。在宇樹 G1 人形機器人的機載 NVIDIA Jetson Orin NX 平臺上,系統實現了約 10 ms 的端到端推理延遲,完美支持 50 Hz 的高頻閉環控制。
實驗表現:全方位挑戰極限測試
為了全面評估 OmniXtreme 的可擴展性與魯棒性,研究團隊不僅使用了標準的 LAFAN1 動作庫,還精心挑選了約 60 個極具挑戰性的動作,構建了 XtremeMotion 評估集。這些動作包含了極高的角速度、頻繁的接觸切換以及嚴苛的時序約束。
可擴展的高保真跟蹤能力
在仿真環境中,OmniXtreme 與傳統的「從頭訓練多動作強化學習」基線模型以及「專家到統一 MLP 蒸餾」基線模型進行了直接對比。數據表明,OmniXtreme 在所有指標上均實現了碾壓。面對難度激增的 XtremeMotion 數據集,傳統方法的跟蹤誤差顯著增加,而 OmniXtreme 依舊維持了極低的運動學誤差和極高的成功率。
![]()
在現實世界的宇樹 G1 機器人上,團隊選取了 XtremeMotion 中的 24 個不同高動態動作進行了 157 次物理測試。測試涵蓋了后空翻、雜技、霹靂舞、武術等多個動作類別。
最終,OmniXtreme 斬獲了 91.08% 的整體平均成功率。其中,后空翻類動作的成功率高達 96.36%,武術類動作達到 93.33%,霹靂舞類動作也保持在 86.36% 的高水平。這證明了仿真中的高保真度成功跨越了現實鴻溝。
打破保真度與可擴展性的權衡
為了驗證系統是否打破了泛化壁壘,團隊設計了漸進式的壓力測試。他們將訓練動作集從 10 個逐步擴展到 20 個,最終擴展到 50 個,并使用固定的前 10 個動作進行統一評估。
實驗結果揭示了顯著的差異。隨著動作多樣性的增加,傳統從頭訓練的強化學習基線模型出現了嚴重的性能衰退,其成功率從 100% 暴跌至 83.3%,最終滑落至 73.9%。
![]()
相比之下,OmniXtreme 展現出了驚人的韌性,在 50 個動作的龐大訓練集下,其對核心動作的跟蹤成功率依然堅挺在 93.3%。這徹底推翻了高保真度必定隨著多樣性增加而崩潰的固有認知。
模型規模的 Scaling Law
在人工智能的發展歷程中,增加模型參數量往往能帶來性能的飛躍,但這一規律在傳統的運動控制領域似乎失效了。團隊對比了不同參數規模(20M、50M、70M)的模型表現。
![]()
圖表數據清晰地顯示,傳統的 MLP 策略在擴大參數量后很快就陷入了性能飽和,跟蹤精度提升極其有限。
與之形成鮮明對比的是,基于流匹配的生成式策略完美契合了 Scaling Law。隨著參數量向 70M 邁進,OmniXtreme 的跟蹤精度與魯棒性呈現出顯著且穩定的線性增長。這說明生成式預訓練為人形機器人控制系統提供了一條切實可行的能力進化路徑。
現實世界執行力的深度消融
究竟是哪些機制賦予了機器人如此強大的物理穩健性?團隊通過消融實驗給出了答案。
![]()
對于具有強爆發力的翻騰動作(如后空翻),僅僅引入電機約束就足以保障穩定執行,因為這避免了底層硬件極限的瞬間崩潰。然而,對于包含高頻接觸轉換的霹靂舞動作,系統必須同時依賴電機約束與激進的域隨機化,才能在接觸擾動中維持時序敏感的平衡。
最嚴苛的挑戰來自于包含高速沖擊緩沖的雜技落地動作。團隊發現,如果沒有功率安全正則化機制,即使模型在姿態上維持了平衡,也會因為電機瞬態制動導致過流或電池欠壓而宣告失敗。
![]()
這充分說明,真實世界的極度敏捷必須建立在聲、光、電、熱等多維物理約束的精確建模之上。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.