網易首頁 > 網易號 > 正文申請入駐

重構跨域RL框架！理論驅動「雙重對齊」讓跨域遷移「質變」

2026-04-02 14:58:04　來源: 機器之心Pro

河北舉報

分享至

本文作者來自香港城市大學、伊利諾伊大學厄巴納 - 香檳分校、騰訊、中國電信人工智能研究院、清華大學等機構。作者包括喬鐘健、楊瑞、呂加飛、白辰甲、李秀、高思陽、邱爽。其中，第一作者為香港城市大學喬鐘健，通訊作者為香港城市大學邱爽。

論文標題：Efficient Cross-Domain Offline Reinforcement Learning with Dynamics- and Value-Aligned Data Filtering
文章鏈接：https://arxiv.org/pdf/2512.02435

在現實世界中通過強化學習訓練智能體，往往需要大量在線試錯與環境探索，這不僅成本高昂，還可能帶來顯著安全風險：機器人可能因試錯而損壞，自動駕駛的在線探索可能危及行車安全，而持續采集交互數據本身也代價巨大。因此，離線強化學習（offline RL）通過直接利用歷史靜態數據進行策略學習，規避了持續在線交互需求，為在高成本、高風險場景中應用強化學習提供了更可行的路徑，成為推動強化學習走向真實世界的關鍵方向。

然而，當目標環境數據稀缺時（例如，新部署的機器人僅擁有少量演示數據），僅憑目標域數據難以支撐高性能策略的學習。這一困境催生了跨域離線強化學習（Cross-Domain Offline RL）這一范式 —— 它致力于借助源域（如動力學存在差異但數據豐富的仿真環境）中的知識，彌補目標域數據不足，為數據匱乏的目標域注入學習動能，促進目標域完成策略學習。

雖然跨領域離線強化學習的出發點很好，但源域與目標域之間往往存在動力學偏移（Dynamics Misalignment），即狀態轉移動力學規律不一致。在這種情況下，直接合并源域和目標域數據進行訓練會引發嚴重的分布外動力學（OOD Dynamics）問題：模型學習到的轉移規律難以在目標域成立，因而性能往往會迅速退化，最終令訓練崩潰。目前解決這一問題的主流范式是動力學對齊驅動的數據過濾：首先通過對比學習或最優傳輸等方式度量源域樣本和目標域的動力學偏移程度，然后過濾掉部分動力學明顯不一致的源域數據，只保留那些動力學行為更接近目標域的樣本參與訓練。

然而，這一范式在邏輯上依賴于一個極強的隱藏假設：動力學相似性足以刻畫源域數據的可遷移性，只要源域樣本在轉移動力學上與目標域的 “足夠接近”，源域數據便一定值得保留并用于訓練。但這一假設忽略了源域數據的另一項關鍵屬性 —— 數據質量。在現實問題中，源域不僅僅與目標域存在動力學偏移，更重要的是源域數據所含學習信號也未必同等有效，進而影響其對目標域策略學習的實際貢獻。如果一組源域數據在動力學上與目標域完全一致，卻是從環境中隨機收集的低質量數據，它對學習目標域策略的貢獻真的大嗎？

研究動機：動力學對齊真的充分嗎？

為了探究上述問題，作者們設計了一個啟發性實驗：在 Hopper 機器人控制任務中，源域數據由兩種類別構成：動力學對齊，但低質量的隨機樣本；以及存在動力學偏差，但高質量的專家樣本。按照現有的 IGDF 等方法，由于專家樣本存在動力學偏差，它們會被立刻過濾掉，最終只會保留隨機樣本進行策略訓練。然而，隨機樣本對策略性能的提升是相當有限的，這導致最終策略僅僅收斂到次優性能。這表明，低質量源域數據提供的有效信息較少，進而削弱其對目標域策略學習的貢獻。

針對現有方法所存在的問題，論文首先從理論層面定位了其根源所在：現有跨域離線強化學習的主流分析框架與其真正的學習目標并不匹配。這一錯位直接導致現有方法只聚焦于動力學對齊，系統性忽視了源域數據質量。為此，論文進一步重構理論框架，通過直接推導目標域策略學習的次優性差距（sub-optimality gap）上界，從理論上明確：高效的跨域離線強化學習必須兼顧動力學偏移與價值偏差。在該理論結論驅動下，論文提出DVDF 方法：設計統一的數據過濾框架同時實現源域樣本的動力學對齊與價值對齊，選擇 “既像又值” 的源域數據用于訓練。DVDF 可作為插件（plug-in）模塊無縫集成到現有的方法中（如 IGDF、OTDF 等），并帶來穩定的性能提升。

理論重構：修正跨域離線強化學習的優化目標

動力學和價值雙對齊的數據過濾框架

基于以上分析，我們需要同時度量價值對齊和動力學對齊程度。對于動力學對齊，我們可采用現有工作中成熟的方案，如對比學習和最優傳輸等。文章需要解決的關鍵問題在于價值對齊程度的度量。為了解決這個問題，文章首先推導出了價值對齊項的上界：

值得注意的是，預訓練得到的優勢函數的近似誤差不可忽視。為了進一步降低近似誤差的影響，文章首先推導出了優勢近似誤差的具體形式：

然而，IQL 學習價值函數時，易受數據集中次優動作的影響，導致價值函數常被低估，從而導致優勢函數被高估。進一步，為了解決該問題，我們選用了 Sparse Q-learning (SQL) 算法進行預訓練。SQL 通過在價值函數訓練中顯式引入稀疏性，從而降低了次優動作對價值估計的影響，能夠估計出更準確的優勢函數。

實驗驗證

1. 動力學偏移場景下的性能對比

論文中設計了多個動力學偏移場景以驗證 DVDF 的有效性。論文通過在四種機器人控制任務中（halfcheetah, hopper, walker2d, ant）引入兩種動力學偏移：關節偏移（kinematic shifts）和形體偏移（morphology shifts）以構建源域環境，并在相應環境中收集不同質量的離線數據以構建源域數據集。同時，論文直接從標準的 D4RL 數據集中進行采樣以構建目標域數據集。下表展示了在動態偏移場景下 DVDF 和多個基線方法的標準化得分（Normalized Score）對比。可以看出，DVDF 在絕大多數數據集中的性能都優于基線方法，這是因為 DVDF 利用了源域數據集中的數據質量的信息，能夠篩選出更具有價值的高質量樣本。

具體而言，在關節偏移場景下，DVDF 與多個基線方法的標準化得分對比。DVDF 為基礎算法 IGDF 和 OTDF 帶來了顯著的性能提升：DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法，總分從 1001.6 提升至 1164.7，增幅達 16.3%；DVDF-OTDF 則在 15 個任務上超越了原 OTDF 方法，總分從 986.5 提升至 1172.3，增幅達 18.8%。在形體偏移這一設定下，DVDF 依然保持了顯著的性能優勢。DVDF-IGDF 在 20 個任務中的 16 個上超越了原 IGDF 方法，總分從 1039.0 提升至 1198.7，增幅達 15.4%；DVDF-OTDF 則在 14 個任務上超越了原 OTDF 方法，總分從 1042.1 提升至 1156.3，增幅達 11.0%。

2. 消融實驗

在消融實驗部分，論文主要分析了分別使用 SQL 和 IQL 算法進行優勢函數預訓練對策略性能和優勢估計偏差的影響。如下圖所示，相比于 IQL 算法，使用 SQL 算法進行優勢函數預訓練能夠得到更高的策略性能以及更低的優勢估計誤差。

3. 參數敏感性實驗

總結

本論文聚焦于動力學偏移下的跨域離線強化學習，通過實驗和理論層面的探究，證明了動力學和價值雙重對齊對于跨域離線強化學習至關重要。基于這一發現，論文提出全新的跨域離線強化學習框架 DVDF。通過在源域上預訓練優勢函數來度量樣本價值，并與動力學對齊相結合，DVDF 能夠識別并篩選出對策略學習有價值源域樣本。在多種場景下的實驗結果表明，DVDF 都展示了比基線算法更高的性能，充分驗證了其有效性。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.