王興興署名論文!披露宇樹G1人形機(jī)器人背后的核心技術(shù)

2026-03-06 07:35:54　來源: AI先鋒官

北京舉報

分享至

2026年春晚，宇樹G1人形機(jī)器人憑借《武BOT》節(jié)目中絲滑的后空翻、武術(shù)、街舞等極限動作驚艷全網(wǎng)。

近日，這背后的核心技術(shù)論文《OmniXtreme: Breaking the Generality Barrier in High-Dynamic Humanoid Control》（arXiv:2602.23843）正式發(fā)布，宇樹科技創(chuàng)始人王興興親自署名。

論文提到，當(dāng)前人形機(jī)器人控制普遍面臨“動作越多、表現(xiàn)越差”的“泛化屏障”（Generality Barrier）。

而傳統(tǒng)多動作強(qiáng)化學(xué)習(xí)（RL）易出現(xiàn)梯度干擾，策略趨于“保守平均”，單個動作精準(zhǔn)但多動作協(xié)同精度暴跌。

同時，仿真與真機(jī)存在執(zhí)行器非線性差異（力矩-速度特性、功率限制），高動態(tài)動作下微小誤差會放大為摔倒、硬件損壞等災(zāi)難。

這導(dǎo)致機(jī)器人難以同時掌握后空翻、武術(shù)、街舞等高難度極限動作，成為通用人形機(jī)器人落地的核心障礙。

對此，論文提出OmniXtreme兩階段訓(xùn)練框架，通過“先學(xué)全、再做實(shí)”的思路，徹底打破保真度與擴(kuò)展性的 trade-off。

第一階段為，流匹配預(yù)訓(xùn)練（Flow-Matching Pretraining）。

摒棄傳統(tǒng)多動作RL，先為每個極限動作訓(xùn)練“單動作專家策略”，用流匹配生成模型將多個專家策略蒸餾為統(tǒng)一基礎(chǔ)策略，同時配合高容量架構(gòu)確保覆蓋異構(gòu)動作，避免梯度干擾，解決“學(xué)得多”的問題。

第二階段為，執(zhí)行器感知后訓(xùn)練（Actuation-Aware Post-Training）。

凍結(jié)預(yù)訓(xùn)練基礎(chǔ)策略，輔以訓(xùn)練殘差策略（Residual Policy）做微調(diào)。同時，引入真實(shí)執(zhí)行器模型、激進(jìn)域隨機(jī)化、機(jī)械功率懲罰機(jī)制（P=τ·ω），精準(zhǔn)適配真機(jī)物理約束，解決仿真到現(xiàn)實(shí)的“最后一公里”。

其中，重點(diǎn)抑制高動態(tài)落地時的瞬態(tài)大負(fù)載，避免觸發(fā)硬件保護(hù)，確保動作安全穩(wěn)定。

經(jīng)過實(shí)測，在宇樹G1人形機(jī)器人上，OmniXtreme實(shí)現(xiàn)單一策略執(zhí)行24種高動態(tài)極限動作，157次試驗(yàn)整體成功率91.08%。

其中，后空翻成功率96.36%，為全球頂尖水平。

武術(shù)動作成功率93.33%，街舞/霹靂舞為86.36%。

端到端推理延遲<10ms，控制頻率50Hz，完全滿足實(shí)時控制需求。

對比傳統(tǒng)方法，當(dāng)動作集從10個擴(kuò)展到50個時，傳統(tǒng)RL基線成功率從100%暴跌至73.9%，而OmniXtreme仍穩(wěn)定在93.3%，展現(xiàn)出極強(qiáng)的擴(kuò)展性與穩(wěn)定性。

論文成果首次實(shí)現(xiàn)單個策略穩(wěn)定執(zhí)行數(shù)十種極限動作，為人形機(jī)器人從“專用”走向“通用”奠定了核心算法基礎(chǔ)。

而兩階段框架更可大幅提升訓(xùn)練效率，無需為每個新動作從零開始訓(xùn)練，加速新技能迭代。

此外，論文將同步開源模型與代碼，這對推動整個人形機(jī)器人行業(yè)的技術(shù)進(jìn)步應(yīng)有幫助。

以下為論文全文：

《OmniXtreme：突破高動態(tài)人形機(jī)器人控制的通用性屏障》

圖1:由我們統(tǒng)一策略O(shè)mnixtreme實(shí)現(xiàn)的極端全身人形控制。(a)一項定量比較顯示，我們精心挑選的極端運(yùn)動庫所占據(jù)的挑戰(zhàn)性區(qū)域遠(yuǎn)大于標(biāo)準(zhǔn)的多運(yùn)動基準(zhǔn)(如Unitree-重定向的LAFAN1)。通過實(shí)際執(zhí)行我們的統(tǒng)一策略O(shè)MNIXTREME，展現(xiàn)出源自該運(yùn)動庫的穩(wěn)健且可在物理上實(shí)現(xiàn)的極端行為，包括(b)極端平衡行為(c)快速接觸切換與復(fù)雜的支撐轉(zhuǎn)換、(d)高速運(yùn)動伴有較大的角速度，以及(e)涵蓋質(zhì)性上截然不同的運(yùn)動風(fēng)格的多樣化全身行為。

摘要

高保真運(yùn)動追蹤是檢驗(yàn)通用化人類級運(yùn)動技能的終極試金石。

然而現(xiàn)有策略常遭遇“通用性瓶頸”：隨著動作庫多樣性擴(kuò)展，追蹤保真度不可避免地下降——尤其在真實(shí)場景中實(shí)現(xiàn)高動態(tài)動作時。

我們發(fā)現(xiàn)這一失敗源于雙重疊加因素：多動作優(yōu)化的擴(kuò)展學(xué)習(xí)瓶頸，以及現(xiàn)實(shí)驅(qū)動系統(tǒng)中物理可執(zhí)行性限制。

為突破此困境，我們提出可擴(kuò)展框架Omnixtreme，將通用運(yùn)動技能學(xué)習(xí)與仿真到物理的技能優(yōu)化解耦。

該方法采用高容量架構(gòu)的流匹配策略，在無需干擾密集型多動作強(qiáng)化學(xué)習(xí)優(yōu)化的情況下擴(kuò)展表征能力，隨后通過驅(qū)動感知優(yōu)化階段確保在物理硬件上保持穩(wěn)健性能。

大量實(shí)驗(yàn)表明，Omnixtreme能在多樣化的高難度數(shù)據(jù)集上保持高保真追蹤。在真實(shí)機(jī)器人上，統(tǒng)一策略成功執(zhí)行了多種極端運(yùn)動，有效打破了高動態(tài)人形機(jī)器人控制中長期存在的保真度與可擴(kuò)展性之間的權(quán)衡關(guān)系。

一、引言

我們最終追求的是具備可擴(kuò)展性、人類水平全身運(yùn)動技能的通用型人形機(jī)器人。研究這類能力的自然且廣泛應(yīng)用的方法是高保真運(yùn)動追蹤技術(shù)，該技術(shù)要求控制器在保持動態(tài)穩(wěn)定性的同時，能夠精準(zhǔn)復(fù)現(xiàn)參考動作并應(yīng)對接觸與干擾。高質(zhì)量追蹤技術(shù)遠(yuǎn)不止是美學(xué)追求：它能捕捉到支撐位姿操控、表情互動及諸多下游核心人形能力的全身協(xié)調(diào)性與接觸時機(jī)。

近年來，基于學(xué)習(xí)的運(yùn)動追蹤技術(shù)取得了顯著進(jìn)展：通過精心設(shè)計的目標(biāo)和強(qiáng)化學(xué)習(xí)，智能控制器能夠以高精度追蹤個體動作，包括舞蹈、翻滾和武術(shù)等高度動態(tài)的行為模式。最新研究在開發(fā)覆蓋更廣泛行為庫的多動作控制器方面邁出了重要步伐。

然而一個反復(fù)出現(xiàn)的規(guī)律依然存在：當(dāng)我們將動作庫擴(kuò)展到涵蓋多樣化風(fēng)格、接觸模式和時序方式的更大規(guī)模時，運(yùn)動追蹤質(zhì)量往往會下降?？刂破鲿兊帽Ｊ厍摇捌接埂?，在最難的動作上卡殼，或?qū)δM到真實(shí)場景轉(zhuǎn)換中不可避免的小偏差表現(xiàn)出脆弱性。這種退化在高動態(tài)動作中尤為明顯，即使微小的追蹤誤差也可能迅速演變成災(zāi)難性故障。這種長期存在的保真度與可擴(kuò)展性之間的權(quán)衡，實(shí)際上限制了人形機(jī)器人運(yùn)動控制所能實(shí)現(xiàn)的通用性水平，尤其是在高動態(tài)模式下，這表明存在一個根本性的限制，而非孤立的工程問題。

因此，一個核心問題隨之浮現(xiàn)：為何高保真運(yùn)動追蹤難以規(guī)?；绕湓谡鎸?shí)人形機(jī)器人上？我們認(rèn)為，這種困難源于當(dāng)前模擬到真實(shí)訓(xùn)練流程不同階段出現(xiàn)的兩個疊加障礙。

第一個障礙是即使在模擬環(huán)境中也會出現(xiàn)的學(xué)習(xí)瓶頸。近期多項研究開始探索多動作人形機(jī)器人追蹤技術(shù)，旨在突破單一動作模仿的局限實(shí)現(xiàn)更優(yōu)的可擴(kuò)展性。然而現(xiàn)有方法仍受制于表征與優(yōu)化兩方面的限制。

在表征層面，多數(shù)方法依賴相對簡單的策略參數(shù)化方式，例如 MLP 行為器。當(dāng)需要將觀測數(shù)據(jù)映射到由多樣化行為和接觸模式產(chǎn)生的高度異構(gòu)動作目標(biāo)時，隨著數(shù)據(jù)多樣性的增加，這類參數(shù)化方式已被發(fā)現(xiàn)存在可擴(kuò)展性不足的問題。

在優(yōu)化層面，通過強(qiáng)化學(xué)習(xí)聯(lián)合訓(xùn)練跨多個動作的統(tǒng)一策略會加劇梯度干擾，常導(dǎo)致保守的平均化處理和對高動態(tài)行為的局部失效。這些因素共同作用，使得隨著動作多樣性和難度的增加，追蹤保真度會急劇下降。

第二個障礙是部署階段出現(xiàn)的物理執(zhí)行瓶頸。即便在仿真環(huán)境中實(shí)現(xiàn)了高保真度的運(yùn)動追蹤，將這些行為轉(zhuǎn)化為物理機(jī)器人的執(zhí)行仍面臨挑戰(zhàn)。在先前的人形機(jī)器人學(xué)習(xí)流程中，訓(xùn)練階段的驅(qū)動約束主要通過關(guān)節(jié)位置限制和簡單力矩邊界進(jìn)行建模。

雖然這些簡化方法有助于學(xué)習(xí)，但在處理高動態(tài)運(yùn)動時卻力不從心——這類運(yùn)動中系統(tǒng)行為主要受未建模的執(zhí)行器非線性特性主導(dǎo)，例如扭矩-速度特性、速度相關(guān)扭矩?fù)p耗，以及再生功率現(xiàn)象等動力學(xué)效應(yīng)，導(dǎo)致執(zhí)行穩(wěn)定性快速下降。因此，仿真中看似可擴(kuò)展的保真度，最終可能無法在真實(shí)機(jī)器人上實(shí)現(xiàn)。

基于上述分析，我們提出名為“ 全極限 ”（Omnixtre- me）的可擴(kuò)展訓(xùn)練框架，該框架專門針對兩大技術(shù)瓶頸進(jìn)行優(yōu)化，旨在通過單一策略實(shí)現(xiàn)對多樣化且高動態(tài)人形機(jī)器人行為的穩(wěn)健控制。

為突破學(xué)習(xí)瓶頸，該框架采用流匹配策略，并通過行為克隆技術(shù)從動作專家?guī)熘羞M(jìn)行專家到統(tǒng)一生成的預(yù)訓(xùn)練。這種設(shè)計將表征學(xué)習(xí)與優(yōu)化過程解耦，既通過高容量生成策略提升表達(dá)能力，又避免了干擾嚴(yán)重的多動作強(qiáng)化學(xué)習(xí)。

為突破物理可執(zhí)行性瓶頸，OM極致引入了殘差強(qiáng)化學(xué)習(xí)后訓(xùn)練優(yōu)化機(jī)制，專門針對真實(shí)驅(qū)動約束下的執(zhí)行需求進(jìn)行優(yōu)化——這種約束在高動態(tài)運(yùn)動場景中尤為重要。

該階段并非重新學(xué)習(xí)運(yùn)動追蹤，而是通過驅(qū)動感知建模、優(yōu)化領(lǐng)域隨機(jī)化以及對功率相關(guān)效應(yīng)的顯式懲罰，對預(yù)訓(xùn)練策略進(jìn)行調(diào)整以適應(yīng)現(xiàn)實(shí)驅(qū)動約束。這種針對性優(yōu)化確保了經(jīng)過縮放的追蹤策略在真實(shí)硬件動態(tài)條件下仍能保持物理可執(zhí)行性。

我們通過在日益多樣化和高動態(tài)運(yùn)動庫上的廣泛模擬和真實(shí)機(jī)器人評估，驗(yàn)證了Omnixtreme的性能。超越標(biāo)準(zhǔn)多運(yùn)動在基準(zhǔn)測試中，我們精心設(shè)計了一組以高速度、頻繁接觸轉(zhuǎn)換和嚴(yán)格時間約束為特征的極端運(yùn)動場景，并對全極運(yùn)動系統(tǒng)進(jìn)行全方位評估。

如圖1所示，該系統(tǒng)在UnitreeG1人形機(jī)器人上成功實(shí)現(xiàn)了翻滾、特技動作和霹靂舞等多種極限行為，其中微小偏差都可能迅速引發(fā)連鎖故障。這些結(jié)果共同構(gòu)成了嚴(yán)格的可擴(kuò)展性壓力測試，有力挑戰(zhàn)了“運(yùn)動多樣性與難度增加必然導(dǎo)致追蹤精度下降”的普遍認(rèn)知。

總體而言，我們的貢獻(xiàn)體現(xiàn)在四個方面：

1) 我們提出Omnixtreme ，這是一個可擴(kuò)展的人形機(jī)器人高保真運(yùn)動追蹤訓(xùn)練框架，專門解決高動態(tài)人形機(jī)器人控制中的基本可擴(kuò)展性挑戰(zhàn)。

2) 我們提出一種基于流匹配的專家到統(tǒng)一生成預(yù)訓(xùn)練階段，使統(tǒng)一策略能夠跨異構(gòu)和高動態(tài)運(yùn)動進(jìn)行擴(kuò)展。

3) 我們提出一種基于運(yùn)動感知的殘差強(qiáng)化學(xué)習(xí)后訓(xùn)練階段，該階段在實(shí)際運(yùn)動約束條件下優(yōu)化預(yù)訓(xùn)練策略，確保物理可執(zhí)行性。

4) 我們通過大量模擬和真實(shí)實(shí)驗(yàn)表明，omnixtreme技術(shù)能夠使單一統(tǒng)一策略穩(wěn)健執(zhí)行多樣化和極端運(yùn)動，解決了傳統(tǒng)保真度與可擴(kuò)展性之間的權(quán)衡問題，尤其適用于高動態(tài)運(yùn)動場景。

二、相關(guān)工作

A. 人形機(jī)器人全身體控制與通用跟蹤

近期在人形機(jī)器人全身控制領(lǐng)域的研究已取得顯著進(jìn)展，涵蓋舞蹈、跌倒恢復(fù)和跑酷等多種技能。然而，如何在大規(guī)模多樣化動作庫中實(shí)現(xiàn)高保真運(yùn)動追蹤與可擴(kuò)展性仍是未解難題。

ASAP和BeyondMim- ic等框架在高質(zhì)量模仿單個動作片段方面表現(xiàn)優(yōu)異，但將這些方法擴(kuò)展到日益龐大的動作集時，優(yōu)化復(fù)雜度會顯著增加。

另一方面，OmniH2O、ExBody2和GMT等基于強(qiáng)化學(xué)習(xí)的大規(guī)模追蹤器雖展現(xiàn)出良好的可擴(kuò)展性，但在廣泛技能覆蓋下保持精準(zhǔn)動作保真度仍具挑戰(zhàn)。

這種矛盾在實(shí)踐中常表現(xiàn)為保真度與可擴(kuò)展性的權(quán)衡。為解決該問題，Omnixtreme引入了生成式動作表征與專家到統(tǒng)一優(yōu)化框架，既實(shí)現(xiàn)了可擴(kuò)展學(xué)習(xí)，又在高動態(tài)運(yùn)動數(shù)據(jù)集上保持了強(qiáng)大的追蹤精度。

B. 基于擴(kuò)散與流動的機(jī)器人規(guī)劃與控制動作建模

基于擴(kuò)散與流動的模型在機(jī)器人學(xué)習(xí)領(lǐng)域展現(xiàn)出強(qiáng)大能力，通過迭代優(yōu)化和隨機(jī)采樣技術(shù)提升機(jī)器人控制與規(guī)劃的穩(wěn)健性與多樣性。早期研究主要聚焦于高層級軌跡規(guī)劃或低頻次視覺運(yùn)動任務(wù)，而DiffuseLoco則將該方法應(yīng)用于高頻次四足機(jī)器人控制。

為增強(qiáng)表達(dá)能力與穩(wěn)健性，近期研究如Policy Decorator和ResiP在機(jī)械臂機(jī)器人上引入殘差策略學(xué)習(xí)，通過將凍結(jié)基礎(chǔ)模型與優(yōu)化層結(jié)合，有效應(yīng)對長時域裝配中的協(xié)變量偏移與精度瓶頸。

然而，鑒于類人機(jī)器人與四足機(jī)器人及機(jī)械臂在技能空間和固有不穩(wěn)定性方面的顯著差異，當(dāng)前研究如BeyondMimic仍聚焦于引導(dǎo)式控制接口，而非實(shí)現(xiàn)高動態(tài)類人機(jī)器人運(yùn)動追蹤所需的可擴(kuò)展性與高速敏捷性。

與以往研究不同，Omnixtreme提出了一套完整的訓(xùn)練流程，包含基于DAgg- er的流匹配預(yù)訓(xùn)練和殘差后訓(xùn)練，突破了低級可擴(kuò)展性和敏捷性的限制，其運(yùn)動多樣性與動態(tài)性能遠(yuǎn)超既往方法。

C. 基于動作感知的敏捷機(jī)器人控制

實(shí)現(xiàn)敏捷性仍是機(jī)器人技術(shù)領(lǐng)域的前沿課題。 ACRL通過采用執(zhí)行器約束強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)高速四足移動，而“ 縮小現(xiàn)實(shí)差距”項目則運(yùn)用電流-扭矩校準(zhǔn)與執(zhí)行器動力學(xué)建模實(shí)現(xiàn)五指靈巧操作。

盡管其他形態(tài)機(jī)器人已取得進(jìn)展，但人形機(jī)器人如何學(xué)習(xí)敏捷且具備執(zhí)行器感知能力的控制策略仍是未被充分探索的領(lǐng)域。OM極限通過整合物理信息驅(qū)動的電機(jī)建模與執(zhí)行器正則化技術(shù)，突破了現(xiàn)實(shí)硬件限制下人形機(jī)器人敏捷性能的邊界，成功填補(bǔ)了這一技術(shù)空白。

三、方法論

在本節(jié)中，我們提出名為“ 全極化” 的兩階段訓(xùn)練框架，用于實(shí)現(xiàn)可擴(kuò)展的高保真度人形機(jī)器人運(yùn)動技能學(xué)習(xí)。

第一階段基于流的可擴(kuò)展預(yù)訓(xùn)練專注于高保真度動作模仿與表征能力的獲取。具體而言，我們通過流匹配技術(shù) ，將多種動作專家策略提煉為統(tǒng)一的基礎(chǔ)策略。這一生成式預(yù)訓(xùn)練階段無需依賴易受干擾的多動作聯(lián)合強(qiáng)化學(xué)習(xí)，即可在異構(gòu)動作間建立共享的運(yùn)動追蹤先驗(yàn)。

為彌合仿真與實(shí)際執(zhí)行之間的差距，我們進(jìn)一步引入基于殘差強(qiáng)化學(xué)習(xí)的動作感知后訓(xùn)練階段。該階段不再重新學(xué)習(xí)運(yùn)動追蹤，而是通過訓(xùn)練殘差策略生成校正動作，以補(bǔ)充預(yù)訓(xùn)練的流匹配基礎(chǔ)策略。這一階段在引入更激進(jìn)的領(lǐng)域隨機(jī)化的同時，使整個系統(tǒng)與現(xiàn)實(shí)世界的執(zhí)行約束保持一致。

通過這種針對性優(yōu)化，剩余策略能夠?qū)㈩A(yù)先訓(xùn)練的跟蹤行為適應(yīng)于實(shí)際的硬件動態(tài)特性，從而提升物理執(zhí)行的可行性和部署的穩(wěn)健性。

圖.2:全極值系統(tǒng)的概述。(a) 預(yù)訓(xùn)練階段：通過基于DAgger的流匹配技術(shù)訓(xùn)練統(tǒng)一基礎(chǔ)策略，整合來自不同運(yùn)動追蹤專家的多樣化運(yùn)動先驗(yàn)。(b) 后訓(xùn)練階段：基礎(chǔ)策略保持凍結(jié)狀態(tài)，同時在嚴(yán)格運(yùn)動約束、廣泛領(lǐng)域隨機(jī)化及功率安全正則化條件下優(yōu)化殘差策略，以彌合仿真與真實(shí)環(huán)境的差距。(c) 系統(tǒng)部署：整個推理流程為實(shí)時模式，且完全在機(jī)載設(shè)備上執(zhí)行，從而便于在物理環(huán)境中實(shí)現(xiàn)穩(wěn)健且靈活的控制。

A. 可擴(kuò)展的基于流的策略預(yù)訓(xùn)練

1) 問題表述：在預(yù)訓(xùn)練階段，我們通過基于數(shù)據(jù)集聚合（DAgger）的蒸餾技術(shù)學(xué)習(xí)流匹配機(jī)器人策略。具體而言，我們考慮觀察空間o={p，c，h}，其包含：(i) 機(jī)器人本體感覺p，包括關(guān)節(jié)位置、速度、基座角速度及先前動作；(ii)命令c，由6維軀干方向差異與參考運(yùn)動的目標(biāo)關(guān)節(jié)位置及速度組成；(iii)歷史信息h，涵蓋過往本體感覺狀態(tài)。給定參考運(yùn)動數(shù)據(jù)集，我們的目標(biāo)是首先學(xué)習(xí)專家策略對于每個參考動作，然后將其提煉為基于流的通用策略πθ（a|o）。

2) 專家策略學(xué)習(xí)：在專家策略訓(xùn)練中，我們從Unitr- ee重定向的LAFAN1（LAFAN1）數(shù)據(jù)集、amass、MimicKit以及Reallusion運(yùn)動庫的組合中抽取參考運(yùn)動數(shù)據(jù)集M，涵蓋多樣化行為模式和高動態(tài)機(jī)動。所有參考運(yùn)動首先通過GMR重定向至UnitreeG1人形機(jī)器人。隨后，我們通過近端策略優(yōu)化（PPO）在特定運(yùn)動mk上訓(xùn)練每個專家策略π(k) ex pert。

3) 流匹配策略學(xué)習(xí)：我們通過DAgger學(xué)習(xí)流匹配機(jī)器人策略，首先在模擬器中部署當(dāng)前基于流的策略πθ(a|o) ，并根據(jù)參考運(yùn)動數(shù)據(jù)集M收集訪問狀態(tài)軌跡 {o1 , · · · , oN } 。對于每個訪問狀態(tài)o ，我們通過查詢對應(yīng)專家策略獲取專家動作aexpert ?；诹鞯哪Ｐ碗S后通過優(yōu)化從噪聲動作中恢復(fù)專家動作aexpert：

其中at= (1?t)aexpert+t?是根據(jù)流時間步t∈[0, 1]在專家動作aexpert與隨機(jī)噪聲?~N(0，I)之間插值得到的帶噪聲動作。該目標(biāo)函數(shù)學(xué)習(xí)速度場vθ (at，t，o)以預(yù)測目標(biāo)速度u=??aexpert，從而在每個流時間步學(xué)習(xí)去噪方向。在優(yōu)化過程中，時間步t從Beta分布t~Beta(α,β)中采樣，以將學(xué)習(xí)過程聚焦于概率路徑的特定區(qū)域，從而增強(qiáng)收斂性和軌跡細(xì)化。通過速度場vθ,我們可以通過前向歐拉規(guī)則從t=1到t=0對vθ進(jìn)行積分，從隨機(jī)噪聲a1~N(0，I)生成動作a0：

其中D是控制近似精度的積分或去噪步驟數(shù)量。通過迭代展開軌跡并使用等式（ 1）以專家動作監(jiān)督它們，我們將π θ 作為將當(dāng)前觀察映射到適當(dāng)動作的通用策略進(jìn)行學(xué)習(xí)。完整的訓(xùn)練過程如圖2(a)所示，并在算法1中詳細(xì)說明。

4) 保真隨機(jī)化與噪聲策略：為在確保物理系統(tǒng)穩(wěn)定性的前提下保持高度動態(tài)表現(xiàn)力，我們在教師訓(xùn)練階段和預(yù)訓(xùn)練階段均采用保守的隨機(jī)化與噪聲策略（詳見表I）。通過適度引入噪聲水平和領(lǐng)域隨機(jī)化，我們有效避免了過度隨機(jī)性導(dǎo)致的性能崩盤。這種策略確保智能體能精準(zhǔn)捕捉底層物理動力學(xué)特征，從而生成具備基礎(chǔ)仿真-真實(shí) 穩(wěn)健性及預(yù)測確定性的流匹配策略，為實(shí)際部署提供必要保障。

B. 動作感知后訓(xùn)練階段

1) 殘差策略建模：雖然預(yù)訓(xùn)練的流匹配基礎(chǔ)策略提供了穩(wěn)健且統(tǒng)一的行為基礎(chǔ)，但在面對真實(shí)物理環(huán)境時會遇到性能差距。為更好地彌補(bǔ)這一差距并實(shí)現(xiàn)平滑的模擬到真實(shí)遷移，我們提出了一種基于輕量級 MLP 的殘差校正學(xué)習(xí)的后訓(xùn)練優(yōu)化階段。具體而言，我們通過生成優(yōu)化動作a=aflow + ares并在附錄中詳細(xì)說明的PPO機(jī)制下，利用累積獎勵對凍結(jié)的預(yù) 訓(xùn)練策略πθ 進(jìn)行殘差校正策略π? 學(xué)習(xí)。

具體而言，殘差行為者與評價者的觀測空間整合了機(jī)器人本體感覺與運(yùn)動指令以及當(dāng)前基礎(chǔ)動作aflow 。在本體感覺狀態(tài)下，殘差策略會觀察先前優(yōu)化的動作，而流匹配基礎(chǔ)策略則保持對先前基于流的動作的條件依賴。

表I：預(yù)訓(xùn)練與后訓(xùn)練階段的噪聲、域隨機(jī)化及終止閾值配置。此處±x表示[-x x]。

2) 作用感知物理約束建模：為明確考慮現(xiàn)實(shí)世界中的作用效應(yīng)，我們采用包含真實(shí)作用感知物理約束和領(lǐng)域隨機(jī)化的環(huán)境訓(xùn)練殘差策略，如圖2(b)所示。作用感知物理建模的具體方法如下：

a) 激進(jìn)的領(lǐng)域隨機(jī)化：我們大幅擴(kuò)展了領(lǐng)域隨機(jī)化的范圍，在常見領(lǐng)域隨機(jī)化設(shè)置（包括初始姿態(tài)噪聲、力擾動幅度、角速度等）上最高可增加50% ，具體參數(shù)詳見表I 。通過添加表面噪聲和隨機(jī)放置垂直臺階來實(shí)現(xiàn)地形隨機(jī)化。關(guān)鍵在于將終止閾值放寬1.5倍（例如將方向誤差從0.8放寬至1.2弧度）。這種放寬使得殘差策略能夠探索并修正那些原本會被提前終止的、存在較大偏差但可恢復(fù)的狀態(tài)。

b) 動力安全驅(qū)動正則化：實(shí)際應(yīng)用中，高度動態(tài)的運(yùn)動可能引發(fā)標(biāo)準(zhǔn)訓(xùn)練流程中未明確調(diào)控的瞬態(tài)制動負(fù)荷。為解決該問題，我們引入對過度負(fù)關(guān)節(jié)機(jī)械功率的顯式懲罰機(jī)制，以緩解可能觸發(fā)過流保護(hù)或熱應(yīng)力的激進(jìn)電機(jī)制動行為。具體而言，我們采用由施加的關(guān)節(jié)扭矩τ和角速度ω計算得出的瞬時機(jī)械功率P=τ · ω作為執(zhí)行器安全的關(guān)鍵策略。當(dāng)負(fù)功率超過預(yù)設(shè)死區(qū)時，系統(tǒng)將施加懲罰以抑制大規(guī)模再生制動。

各關(guān)節(jié)制動事件：

其中Pj , Pdb分別表示關(guān)節(jié)j的功率和死區(qū)閾值。K為歸一化常數(shù)。實(shí)際應(yīng)用中，該參數(shù)會根據(jù)運(yùn)動場景選擇性地應(yīng)用于膝關(guān)節(jié)（例如后空翻動作），因?yàn)檫@些關(guān)節(jié)在沖擊和恢復(fù)階段特別容易承受高制動負(fù)荷。

c) 以執(zhí)行器狀態(tài)感知的扭矩-速度約束：模擬與實(shí)際運(yùn)行差異的主要根源在于執(zhí)行器建模的過度簡化，而標(biāo)準(zhǔn)扭矩限制技術(shù)則忽略了由反電動勢和物理功率限制所施加的速度相關(guān)約束。這種缺失會導(dǎo)致在高動態(tài)動作執(zhí)行時出現(xiàn)顯著的模擬與現(xiàn)實(shí)之間的差距。為彌補(bǔ)這一不足，我們將真實(shí)的扭矩-速度操作范圍直接整合至仿真系統(tǒng)中，基于扭矩與角速度的瞬時對齊動態(tài)推導(dǎo)扭矩極限：

允許扭矩隨后被定義為關(guān)節(jié)速度幅值的單調(diào)遞減函數(shù)：

在施加于關(guān)節(jié)之前，指令扭矩最終被限制在這一允許范圍內(nèi)，從而確保模擬器不會采樣到實(shí)際執(zhí)行器物理上無法實(shí)現(xiàn)的扭矩指令。

除轉(zhuǎn)矩-轉(zhuǎn)速限制外，我們還通過非線性摩擦項對執(zhí)行器級內(nèi)部損耗進(jìn)行了建模扭矩鉗制后應(yīng)用。

平滑的庫侖分量捕捉了從靜摩擦到動摩擦的轉(zhuǎn)變，而粘性項則考慮了與速度相關(guān)的耗散，并提供了額外的阻尼。參數(shù)μ s 、vact和μ d是常數(shù)。

總體而言，這一結(jié)構(gòu)化優(yōu)化階段所生成的控制器同時具備更高的安全性、更強(qiáng)的抗大擾動能力，以及更貼近真實(shí)世界執(zhí)行器動態(tài)特性的特性，從而能夠可靠地應(yīng)用于機(jī)器人系統(tǒng)。

C. 真實(shí)世界部署

圖2(c)展示了集成化的實(shí)際部署流程。在部署階段，我們以骨盆IMU 作為主要姿態(tài)參考源，通過正向運(yùn)動學(xué)（FK）計算軀干旋轉(zhuǎn)。為確保最小控制延遲，整個計算流程——包括基于FK的狀態(tài)估計、基礎(chǔ)流匹配策略和殘差策略——均通過TensorRT進(jìn)行優(yōu)化和執(zhí)行。該集成流程在Unitree G1搭載的Orin NX 上實(shí)現(xiàn)了約10毫秒的端到端推理延遲。這種優(yōu)化使機(jī)器人能夠在復(fù)雜物理環(huán)境中以穩(wěn)定的50Hz頻率執(zhí)行高質(zhì)量運(yùn)動追蹤。

四、實(shí)驗(yàn)

我們通過大量模擬實(shí)驗(yàn)和物理機(jī)器人實(shí)驗(yàn)，評估了所提出的全極系統(tǒng)（omnixtreme system）在運(yùn)動庫多樣性與難度提升時的可擴(kuò)展性。實(shí)驗(yàn)圍繞以下關(guān)鍵問題展開：

Q1：可擴(kuò)展的高保真跟蹤。與先前的多運(yùn)動基線方法相比，我們的方法能否在仿真和真實(shí)機(jī)器人場景中保持高保真跟蹤的規(guī)模化，同時避免因表示和優(yōu)化挑戰(zhàn)而崩潰？

Q2：Fidelity與可擴(kuò)展性的權(quán)衡（全極化控制器與從頭學(xué)習(xí)強(qiáng)化學(xué)習(xí)控制器對比）。隨著運(yùn)動多樣性和難度的增加，從頭學(xué)習(xí)多運(yùn)動強(qiáng)化學(xué)習(xí)控制器的跟蹤性能會如何下降？我們的方法能在多大程度上拓展可擴(kuò)展性邊界？

Q3：基于流的控制器（omnixtreme與 MLP 控制器）的容量擴(kuò)展。增加模型容量是否能提升大規(guī)模多運(yùn)動跟蹤性能？通過流匹配的生成式預(yù)訓(xùn)練是否比傳統(tǒng)MLP運(yùn)動跟蹤控制器具有更強(qiáng)、更穩(wěn)定的擴(kuò)展能力？

Q4：現(xiàn)實(shí)世界可執(zhí)行性與穩(wěn)健性。過度領(lǐng)域隨機(jī)化、動作感知建模與功耗感知安全機(jī)制如何單獨(dú)及協(xié)同影響仿真到現(xiàn)實(shí)的遷移效果與實(shí)際執(zhí)行成功率？

Q5：定性全身能力。除標(biāo)量追蹤指標(biāo)外，Omnixtreme能否在不同運(yùn)動風(fēng)格和動態(tài)接觸模式下展現(xiàn)敏捷多變的全身行為？

這些問題共同探討了omnixtreme的可擴(kuò)展性與穩(wěn)健性，通過解析生成式預(yù)訓(xùn)練在表征與容量擴(kuò)展中的作用，以及殘差后訓(xùn)練在實(shí)際可執(zhí)行性中的作用。

A. 實(shí)驗(yàn)設(shè)置

1) 運(yùn)動庫：我們采用雙層架構(gòu)設(shè)計構(gòu)建運(yùn)動庫。首先，我們使用完整的LAFAN1數(shù)據(jù)集——該數(shù)據(jù)集在多運(yùn)動追蹤領(lǐng)域已被廣泛采用，是評估風(fēng)格與時間多樣性下可擴(kuò)展性的標(biāo)準(zhǔn)基準(zhǔn)。

其次，為了評估并突破極端類人運(yùn)動的極限，我們從LAFAN1、amass、MimicKit和Reallusion中精選了約60個極具挑戰(zhàn)性的運(yùn)動。如圖1(a)所示，這些運(yùn)動展現(xiàn)出顯著更高的動態(tài)強(qiáng)度、頻繁的接觸轉(zhuǎn)換以及嚴(yán)格的時序約束。我們將這個精選集統(tǒng)稱為XtremeMotion數(shù)據(jù)集。

LAFAN1與XtremeMotion共同構(gòu)建了一個運(yùn)動庫，該庫既涵蓋標(biāo)準(zhǔn)多運(yùn)動基準(zhǔn)測試，又包含探索保真度、穩(wěn)健性及實(shí)際可執(zhí)行性極限的極端行為。

2) 基線方法：我們對比了兩類專為多運(yùn)動跟蹤設(shè)計的強(qiáng)基線方法。（a）專家到統(tǒng)一 MLP 蒸餾。這類方法首先針對每個運(yùn)動（或每個聚類）訓(xùn)練專家策略，然后將其蒸餾為單一的統(tǒng)一 MLP 跟蹤策略?；诒O(jiān)督蒸餾，它們受益于相對穩(wěn)定且直接的優(yōu)化過程，但受限于 MLP 策略的表征能力。（b）從頭開始的多運(yùn)動強(qiáng)化學(xué)習(xí)。這類方法通過跨所有運(yùn)動的強(qiáng)化學(xué)習(xí)直接從頭訓(xùn)練單一的統(tǒng)一跟蹤策略，但隨著運(yùn)動多樣性和難度的增加，它往往會受到梯度干擾和保守平均處理的影響。

B. 評估指標(biāo)

該策略通過運(yùn)動追蹤的模擬部署進(jìn)行評估，以提取性能指標(biāo)。主要指標(biāo)是成功率（Succ），若人形機(jī)器人偏離參考運(yùn)動超過預(yù)設(shè)閾值或出現(xiàn)不穩(wěn)定狀態(tài)，則判定該回合為失敗。我們還報告了根相對平均關(guān)節(jié)位置誤差（MPJ- PE）（毫米），以及關(guān)節(jié)空間速度 (?vel）和加速度 (? acc）的偏差，以此量化運(yùn)動學(xué)精度和物理保真度。

在物理機(jī)器人領(lǐng)域，我們采用部署導(dǎo)向的評估指標(biāo)來衡量性能，包括技能級成功率，以及對高動態(tài)行為運(yùn)動保真度的定性評估。

C. 可擴(kuò)展高保真跟蹤(Q1)

本節(jié)研究在運(yùn)動庫多樣化和難度提升的背景下，Omni- xtreme是否仍能保持高保真度的人形運(yùn)動追蹤能力。我們通過匹配模型容量和相同訓(xùn)練數(shù)據(jù)，將 OMNIX Treme與專家到統(tǒng)一 MLP 提煉、從頭多運(yùn)動強(qiáng)化學(xué)習(xí)等方法進(jìn)行對比。所有方法均基于同一組合運(yùn)動庫（LAFAN1+Xtre- meMotion）訓(xùn)練，并在三個測試集上進(jìn)行評估：完整運(yùn)動庫、高動態(tài)XtremeMotion子集以及從未見過的運(yùn)動集（隨機(jī)采樣自重定向amass）。

仿真結(jié)果。如表II所示，Omnixtreme在所有仿真指標(biāo)上均持續(xù)優(yōu)于兩種基線方法。當(dāng)運(yùn)動難度增加時，Xtrem- eMotion和未見運(yùn)動場景下的差距顯著擴(kuò)大，此時基線方法的成功率下降且跟蹤誤差上升。這表明omnixtreme在運(yùn)動多樣性與難度增加時仍能保持跟蹤保真度，而非因復(fù)雜度提升而降低性能。

現(xiàn)實(shí)世界應(yīng)用。我們進(jìn)一步將OmnixTreme系統(tǒng)部署在Unitree G1人形機(jī)器人上，采用XtremeMotion提供的動作數(shù)據(jù)。為便于展示，動作被歸類為具有共同動態(tài)結(jié)構(gòu)和接觸模式的代表性技能類別。若動作在無人工干預(yù)或安全觸發(fā)終止的情況下完成，則視為成功。如表III所示，在涵蓋24種高動態(tài)動作的157次真實(shí)世界測試中，OmnixTreme在翻滾、雜技、霹靂舞及武術(shù)風(fēng)格動作等多樣化技能類別中均保持穩(wěn)定高成功率。這些結(jié)果表明，仿真中觀察到的可擴(kuò)展性優(yōu)勢可轉(zhuǎn)化為真實(shí)硬件上穩(wěn)健且物理可執(zhí)行的行為。

D. Fidelity-可擴(kuò)展性權(quán)衡（Q2）

為探究多運(yùn)動追蹤中的保真度與可擴(kuò)展性權(quán)衡關(guān)系，我們通過在XtremeMotion數(shù)據(jù)集的擴(kuò)展運(yùn)動樣本上進(jìn)行訓(xùn)練，逐步擴(kuò)大運(yùn)動多樣性，并分析不同訓(xùn)練范式在相同評估協(xié)議下的響應(yīng)差異。

圖.3:精度-可擴(kuò)展性權(quán)衡。在逐步擴(kuò)展動作多樣性和難度的同時，追蹤成功率，并在固定前10個動作集上評估所有策略。

圖.4:容量擴(kuò)展。跟蹤保真度和穩(wěn)健性隨模型容量變化。Omnixtreme從擴(kuò)展中獲益更顯著，而傳統(tǒng) MLP 控制器更早達(dá)到飽和。

在這一受控的擴(kuò)展機(jī)制下，從頭開始的多運(yùn)動強(qiáng)化學(xué)習(xí)隨著規(guī)模擴(kuò)大表現(xiàn)出更早且更顯著的性能下降，而全極化方法則在更寬泛的擴(kuò)展范圍內(nèi)保持更高的跟蹤穩(wěn)健性。如圖3所示，從頭開始的多運(yùn)動強(qiáng)化學(xué)習(xí)呈現(xiàn)出隨著運(yùn)動多樣性增加的典型性能退化模式：跟蹤精度持續(xù)下降，超過臨界規(guī)模后穩(wěn)健性急劇喪失。這些結(jié)果表明，觀察到的保真度與擴(kuò)展性之間的權(quán)衡并非固有特性，而是可以通過更具擴(kuò)展性的訓(xùn)練范式得到顯著緩解。

E. 容量擴(kuò)展(Q3)

接下來我們將驗(yàn)證：增加模型容量是否能進(jìn)一步提升多運(yùn)動追蹤性能，以及我們的生成式策略是否比傳統(tǒng) MLP控制器展現(xiàn)出更強(qiáng)的擴(kuò)展性。在相同數(shù)據(jù)和訓(xùn)練方案下，我們訓(xùn)練了一系列容量遞增的模型（如寬度/深度、 Transformer隱藏層大小及層數(shù)）。圖4展示了追蹤保真度與穩(wěn)健性隨模型容量的變化趨勢。我們發(fā)現(xiàn)容量增加對流匹配策略的追蹤質(zhì)量提升更為直接，而基于MLP的策略則表現(xiàn)出較弱的增益。這些結(jié)果表明，當(dāng)與可擴(kuò)展訓(xùn)練范式結(jié)合時，表征擴(kuò)展性是提升多運(yùn)動追蹤保真度的實(shí)用手段。

F. 真實(shí)世界可執(zhí)行性與穩(wěn)健性（Q4）

我們通過逐步啟用不同的訓(xùn)練后機(jī)制并評估其在技能層面的實(shí)際執(zhí)行效果，來分析這些機(jī)制對模擬到現(xiàn)實(shí)轉(zhuǎn)換的貢獻(xiàn)。表IV匯總了相關(guān)消融結(jié)果。

表II：多樣化運(yùn)動場景下的可擴(kuò)展高保真運(yùn)動追蹤。OmnixTreme在高動態(tài)變化及未見運(yùn)動場景中，始終比基線方法表現(xiàn)出更低的運(yùn)動學(xué)誤差和更高的成功率。

表III：Unitree G1上Omnixtreme的真實(shí)世界評估。我們使用Xtrem- eMotion運(yùn)動庫中的動作數(shù)據(jù)，在物理硬件上對Omnixtreme進(jìn)行評估。

表IV：后訓(xùn)練機(jī)制的消融。不同技能在增量后訓(xùn)練機(jī)制下的真實(shí)世界可執(zhí)行性。無：僅基礎(chǔ)預(yù)訓(xùn)練策略；MC：運(yùn)動約束；ADR：激進(jìn)域隨機(jī)化；PS：功率安全正則化（過流/再生制動保護(hù) ）。

√：穩(wěn)定執(zhí)行；

△：不穩(wěn)定或不一致執(zhí)行；

×：一致故障；

?：主要與功率安全保護(hù)相關(guān)的故障，如過流或過度再生制動。

綜上所述，不同類型的高動態(tài)運(yùn)動表現(xiàn)出不同的失效模式，而每種以執(zhí)行為導(dǎo)向的機(jī)制都針對現(xiàn)實(shí)世界可執(zhí)行性中的互補(bǔ)特性進(jìn)行優(yōu)化。對于翻轉(zhuǎn)等高沖擊運(yùn)動，僅需強(qiáng)制執(zhí)行器扭矩-速度約束即可實(shí)現(xiàn)穩(wěn)定執(zhí)行，因?yàn)樽裱姍C(jī)工作范圍可避免硬件層面的即時違規(guī)。像霹靂舞和雜技動作這類接觸密集型技能，僅靠電機(jī)約束仍存在穩(wěn)定性問題，但通過激進(jìn)的領(lǐng)域隨機(jī)化技術(shù)可顯著提升對時序敏感型接觸擾動的穩(wěn)健性。涉及高速緩沖沖擊的動作（如雜技落地）即便采用激進(jìn)隨機(jī)化技術(shù)仍具挑戰(zhàn)性，此時功率安全正則化技術(shù)至關(guān)重要——它能有效緩解因瞬態(tài)制動負(fù)荷過大及高沖擊接觸時能量吸收不安全導(dǎo)致的故障。這些研究結(jié)果共同表明，可靠的現(xiàn)實(shí)世界執(zhí)行能力源于對驅(qū)動感知建模、穩(wěn)健性導(dǎo)向隨機(jī)化以及能量感知安全約束的協(xié)同作用。

G. 極端運(yùn)動的定性結(jié)果（Q5）

最后，我們提供了定性證據(jù)，表明omnixtreme能夠在不同情境下展現(xiàn)出敏捷且多樣的全身技能。

圖.5:定性實(shí)驗(yàn)結(jié)果。Omnixtreme系統(tǒng)在真實(shí)場景中生成的代表性動作演示，完整呈現(xiàn)了翻滾、雜技、霹靂舞和武術(shù)等不同風(fēng)格與接觸模式下的全身動作。實(shí)驗(yàn)結(jié)果表明，該系統(tǒng)在物理硬件上能穩(wěn)定協(xié)調(diào)地完成動作，即使在快速接觸轉(zhuǎn)換和時間敏感階段也能保持精準(zhǔn)執(zhí)行。

除了標(biāo)量追蹤指標(biāo)所能捕捉的運(yùn)動風(fēng)格和接觸模式外，我們還展示了XtremeMotion中跨越不同風(fēng)格動作的代表性演示。圖5表明，Omnixtreme能夠通過全身協(xié)調(diào)動作追蹤質(zhì)性差異顯著的運(yùn)動，補(bǔ)充Q1-Q4階段的定量指標(biāo)，并展示了可擴(kuò)展生成式預(yù)訓(xùn)練與動作感知優(yōu)化技術(shù)所能實(shí)現(xiàn)的行為多樣性。更多定性分析結(jié)果（含視頻演示）請參閱補(bǔ)充材料。

五、結(jié)論

我們推出了名為“全極限” 的兩階段框架，專為高動態(tài)場景下的可擴(kuò)展高保真人形機(jī)器人運(yùn)動追蹤設(shè)計。該框架通過將專家級預(yù)訓(xùn)練與統(tǒng)一的流式預(yù)訓(xùn)練相結(jié)合，并引入基于運(yùn)動感知的殘差強(qiáng)化學(xué)習(xí)，有效解決了大規(guī)模訓(xùn)練中的學(xué)習(xí)瓶頸和從仿真到實(shí)際部署時的物理可執(zhí)行性難題。大量仿真結(jié)果表明，相較于其他基準(zhǔn)方法，全極限在更廣泛的運(yùn)動多樣性場景中仍能保持顯著的追蹤保真度。Re- alRobot實(shí)驗(yàn)進(jìn)一步驗(yàn)證，該框架僅需單一統(tǒng)一策略即可可靠執(zhí)行多種極端行為，成功突破了傳統(tǒng)保真度與可擴(kuò)展性之間的權(quán)衡困境。

在未來的科研中，如何平衡數(shù)據(jù)多樣性和模型容量，將成為提升全身仿生人形機(jī)器人運(yùn)動技能泛化能力的關(guān)鍵。隨著基于學(xué)習(xí)的控制器向更動態(tài)、硬件受限的運(yùn)行模式發(fā)展，動作感知建模已成為學(xué)習(xí)流程中的核心環(huán)節(jié)。通過整合電流、功率、扭矩和速度等高精度的驅(qū)動特性約束，研究人員能夠進(jìn)一步彌合仿真與現(xiàn)實(shí)的差距，確保所學(xué)行為能無縫轉(zhuǎn)化為物理仿生機(jī)器人。

掃碼邀請進(jìn)群，一起玩AI。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.