網易首頁 > 網易號 > 正文申請入駐

渲訓推一體化？清華RLinf讓機器人“邊想邊動不卡頓”

2025-09-23 20:33:55　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。

在大模型領域，隨著 o1/R1 系列推理模型的發布，模型訓練的重心逐漸從數據驅動的預訓練 / 后訓練轉向獎勵驅動的強化學習（Reinforcement Learning, RL）。并且，能夠將大規模算力高效利用的 RL infra 的重要性也日益凸顯。當前框架對具身智能的支持仍然受限。相比推理大模型這一類純大腦模型，具身智能領域存在大腦（側重推理、長程規劃，如RoboBrain）、小腦（側重執行、短程操作，如OpenVLA）及大小腦聯合（快慢系統，如pi 0.5）等多樣模型。

具身智能除了包含Agentic AI的多步決策屬性外，他還有一個獨特屬性：渲訓推一體化。與工具調用智能體、瀏覽器智能體所交互的仿真器相比，具身仿真器通常需要高效并行物理仿真和3D圖形渲染等，因此當前主流仿真器通常采用GPU加速，耦合多步決策帶來了算力和顯存競爭的新挑戰。此背景下，清華大學、北京中關村學院和無問芯穹聯合推出了一個面向具身智能的靈活的、可擴展的大規模強化學習框架 RLinf。RLinf已上線始智AI-wisemodel開源社區，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/RLinf/RLinf-math-1.5B

https://wisemodel.cn/models/RLinf/RLinf-math-7B

01.

RLinf介紹

RLinf 的 “inf” 不僅代表著 RL “infrastructure”，也代表著 “infinite” scaling，體現了該框架極度靈活的系統設計思想。

RLinf 的系統可以抽象為用戶層（統一編程接口）、任務層（多后端集成方案）、執行層（靈活執行模式）、調度層（自動化調度）、通信層（自適應通信）和硬件層（異構硬件）6 大層級。相比其他框架的分離式執行模式，RLinf 提出的混合式執行模式，在具身智能訓練場景下實現了超 120% 的系統提速，VLA 模型漲幅 40%-60%。同時，RLinf 高度靈活、可擴展的設計使其可快速應用于其他任務，所訓練的 1.5B 和 7B 數學推理大模型在 AIME24、AIME25 和 GPQA-diamond 數據集上取得 SOTA。

設計 1：采用基于 Worker 的統一編程接口，利用微執行流實現宏工作流，實現一套代碼驅動多種執行模式

當前已有強化學習框架通常采用兩種執行模式：共享式（所有卡跑同一個組件）和分離式（不同的卡分配不同的組件）。然而，這兩種模式在具身智能 “渲訓推一體”的特點下都存在局限性。主要是：由于具身智能體多步決策的屬性，模型（Actor）要和仿真器（Simulator）頻繁交互，而當前框架一方面不支持仿真器狀態快速卸載和加載，另一方面若用共享式需要頻繁加載卸載組件，切換開銷大，嚴重降低系統效率。

因此，目前已有的框架在這個場景下僅支持分離式訓練，但分離式采用 on-policy 算法訓練時資源閑置率高，系統氣泡比較大。RLinf 針對這一問題，提出了混合式執行模式，如圖 4 所示，這種模式兼具分離式和共享式的優勢，再配合上細粒度流水設計，使得系統幾乎無氣泡，顯著提升了系統運行效率。

圖 4 : 共享式、分離式和混合式執行模式對比

然而，要想實現一套代碼驅動多種執行模式（即無需更改代碼，通過配置參數即可實現分離、共享或混合）是不容易的，一種標準的解決方案是構建計算流圖，但會導致編程靈活性降低，debug 難度直線上升，所以當前已有框架通常只支持一種模式（分離或者共享），引入新的執行模式需要大量的系統開發。

為此，RLinf 提出了創新的宏工作流到微執行流的映射機制（Macro-to-Micro Flow，M2Flow），實現從組件級而非任務級進行調度。M2Flow 允許用戶使用過程式編程方式靈活構建復雜訓練流程，解決傳統計算流圖構建編程靈活性低的問題，同時能夠將過程式的訓練流程靈活映射到底層不同的執行模式上，為不同的訓練流程（如 RLHF、RLVR 等）選擇最優執行模式（配合自動調度模塊）。

因此，該映射機制兼具過程式編程（Imperative Programming）的靈活性、易用性、易調試性和聲明式編程（Declarative Programming）的編譯優化能力。具體而言，RLinf 采用基于 Worker 的統一編程接口，允許用戶將訓練流程中的不同組件，如模擬器、訓練推理引擎，封裝成不同 Worker，然后通過過程式編程將這些 Worker 串起來形成完整的訓練流程。M2Flow 通過細粒度控制微執行流，即控制每個 Worker 的運行 GPU、執行的批大小、執行時機等，實現極度靈活的執行模式。

總結來說，RLinf 使用戶能夠以高度可適配的方式編排組件（Actor、Critic、Reward、Simulator 等），組件可以放置在任意 GPU 上，并自動配置不同的執行模式，目前支持 3 種執行模式：

共享式（Collocated Mode）：用戶可以配置組件是否同時常駐于 GPU 內存，或通過卸載 / 重新加載機制交替使用 GPU。

分離式（Disaggregated Mode）：組件既可以順序運行（可能導致 GPU 空閑），也可以以流水線方式執行，從而確保所有 GPU 都處于忙碌狀態。

混合式（Hybrid Mode）：進一步擴展了靈活性，支持自定義組合不同的放置形式。典型案例是 Generator 和 GPU-based Simulator 執行分離式細粒度流水，二者與 Inference 和 Trainer 執行共享式。

設計 2: 面向具身智能大小腦不同訓練需求，采用全新的低侵入式多后端集成方案，兼顧高效性和易用性

具身智能領域的特點是：大小腦同時存在，且該領域仍處在蓬勃發展期，技術路線尚未收斂。因此為了更好地支持具身智能不同用戶（如具身大小腦研究人員）的需求，RLinf 集成了兩套后端：

Megatron + SGLang/vLLM：針對已收斂的模型架構（如具身大腦 VLM），支持已適配模型的快速接入，是大規模集群訓練的首選模式。在這一模式下，RLinf 也采用了全新的低侵入式訓推引擎集成方式，有助于快速集成訓推引擎的更新版本（用戶可嘗試切換 SGLang 版本，方法見說明文檔 Advanced Feature 章節），進而能夠啟用 Megatron 和 SGLang/vLLM 的所有優化能力，如 5D 并行等。

FSDP + Hugging Face：針對未收斂的模型架構（如具身小腦 VLA），支持 Hugging Face 模型開箱即用無需適配，是快速小規模驗證的首選模式。這一模式對于算力受限及新手用戶比較友好，特別為具身智能從業者打造。

圖 5：RLinf 集成兩套后端

同時 RLinf 也支持多項來自一線從業者的剛需，包括 LoRA 訓練，斷點續訓，以及適應不同網速用戶的訓練可視化（Tensorboard、W&B、SwanLab）等。此外，RLinf 也正在集成 SFT 模塊，致力于提供一站式的服務，通過一套代碼滿足多樣化的訓練需求。

設計 3: 設計面向強化學習的自適應通信庫和自動化調度模塊，提升訓練穩定性和系統效率。

1、自適應通信機制：

強化學習存在多個組件，且這些組件之間存在大量的數據交互。靈活、高效的互通信是支撐強化學習框架高效運行的關鍵，也是框架可擴展性的重要保證。因此，RLinf 特別設計了一套面向強化學習的通信庫，其中主要包含四項優化技術：自適應 CUDAIPC/NCCL 通信、負載均衡傳輸隊列、多通道并發通信機制、快速通信重配置。

自適應 CUDAIPC/NCCL 通信：無需用戶配置，根據兩個互通信組件所在 GPU 自動選擇使用 CUDAIPC 通信還是使用 NCCL 通信，即兩個組件位于同一個 GPU 上時使用 CUDAIPC，位于不同 GPU 上時使用 NCCL。

負載均衡傳輸隊列：可以根據上一個組件在不同 GPU 上所產生數據量的大小，在發送給下一個組件的不同 GPU 時做數據量負載均衡，使得下一個組件不同 GPU 的計算量接近，提升系統運行效率。

圖 6：負載均衡傳輸隊列

多通道并發通信：使用多 CUDA stream 以及多網絡流并發的通信，避免隊頭阻塞（Head-of-Line Blocking），降低通信延遲。

快速通信重配置：該功能主要面向大規模集群訓練，是實現下文秒級動態擴縮的支撐技術之一，可有效解決通信容錯和通信調整的問題。

2、自動化調度模塊：

大規模強化學習框架的優化目標是盡量減少系統資源閑置。已有框架通常采用人為指定資源配置的方案，依賴于人工經驗，容易造成系統資源浪費，RLinf 設計了一套自動調度策略，可以針對用戶的訓練流以及用戶所使用的計算資源，選擇最優的執行模式。

具體而言，RLinf 會對各組件做自動化性能分析，獲得各組件對資源的使用效率和特征。然后，構建執行模式的搜索空間，該搜索空間描述了強化學習算法各組件對計算資源的分配復用關系，包括 “時分復用”、“空分復用” 以及二者結合的資源分配方案；在這樣的建模下，RLinf 的自動化調度不僅支持已有強化學習框架中 “共享式” 和 “分離式” 的典型資源分配方式，還支持二者結合的混合分配方案的建模分析。

最后，基于上述性能分析數據，在該空間中搜索出最優的執行模式。除此之外，該自動調度策略還集成 “秒級在線擴縮容（Online Scaling）” 能力，70B 模型只需 1 秒即可完成 5D 并行動態擴縮，而傳統方案需十幾秒甚至更久。該功能及相關論文將于 10 月上線開源版本。基于該技術可進一步實現運行時組件間計算資源的動態調度，配合細粒度流水設計，可以在保證算法 on-policy 屬性的前提下進一步壓縮系統氣泡率，且顯著提升訓練穩定性。

02.

RLinf 性能

與此同時，Pusa V1.0所需的參數更新數比Wan-I2V少10倍以上，這表明Pusa僅僅關注與時間相關的模塊，從而保留了基礎模型的先驗知識。與之相對的，Wan-12V則表現出對基礎模型先驗知識的破壞。

在應用上，與其他框架相比，RLinf 的特色在于 Vision-Language-Action Models (VLAs)+RL 的支持，為研究人員探索 VLAs+RL 領域提供了良好的基礎算法性能及測試平臺。RLinf 支持了主流的 CPU-based 和 GPU-based 仿真器（具體平臺見說明文檔），支持了百余類具身智能任務，集成了主流的具身大模型 OpenVLA、OpenVLA-OFT、Pi 0。

特別地，團隊率先實現了對 Pi 0 的大規模強化學習微調，相關算法及論文將在 9 月底發布。在量化指標上，以 Maniskill3（典型的 GPU-based Simulator ）為例進行測試，RLinf 采用混合式結合細粒度流水的執行模式。相比其他框架的分離式執行模式，系統效率顯著提速 120% 以上（圖 7）。

OpenVLA 及 OpenVLA-OFT 在 Maniskill3 自建 25 個任務 [1] 中采用 PPO 算法和適配具身的 GRPO 算法訓練后，成功率曲線如圖 8 所示，可以看到模型成功率可以從 SFT 后的 30%-50% 提升至 80%-90%，漲幅 40%-50% 以上。

在公開測試平臺 LIBERO 的 4 個場景中，OpenVLA-OFT 采用 RLinf 適配具身的 GRPO 算法訓練后，平均成功率達到 97.3%，相比 SFT 模型漲幅 62.4%。

團隊前序工作曾探討 RL 和 SFT 對 VLA 泛化性提升的不同之處 [1]，RLinf 將研究進一步拓展至大規模場景下，助力探索具身智能領域的 RL Scaling Law。

圖 7：RLinf 在 “渲訓推一體化” 任務訓練中顯著提速 120%+

圖 8：OpenVLA、OpenVLA-OFT 在 Maniskill3 自建 25 個任務中采用 PPO 算法及具身版 GRPO 算法的訓練曲線

表 1：OpenVLA-OFT 在 LIBERO 中采用具身版 GRPO 算法的測評結果

03.

結語

考慮到框架的易用性，RLinf 提供了全面且系統化的使用文檔。RLinf 在開發之初的目標就是開源，因此讓每一個用戶能夠理解、使用和修改是設計原則之一，也是一個優秀開源框架必備的屬性。團隊采用公司級代碼開發流程，確保文檔內容覆蓋從入門到深度開發的各層次需求。此外，RLinf 還提供完整的 API 文檔與集成 AI 問答機器人支持，以進一步提升開發體驗與支持效率。

RLinf 團隊的開發成員具有交叉研究背景，包含從系統到算法到應用的技術全棧，例如系統架構設計、分布式系統、大模型訓練推理加速、強化學習、具身智能、智能體等。正是由于這樣的交叉背景，使得團隊能夠從應用需求驅動算法設計，算法指導系統設計，高效系統加速算法迭代，體現了大模型時代下新型科研形態。未來 RLinf 團隊也將持續開發和維護，具體 Roadmap 見 Github 網站。 RLinf 項目地址 https://github.com/RLinf/RLinf

最后，誠摯地邀請大家體驗 RLinf 框架，并且與我們交流技術觀點與潛在合作機會。同時，RLinf 團隊持續招聘博士后、博士、碩士、研究員、工程師及實習生，歡迎投遞簡歷，與我們共同推進下一代強化學習基礎設施的建設與發展。

聯系方式：zoeyuchao@gmail.com, yu-wang@mail.tsinghua.edu.cn

[1] Liu, Jijia, et al. "What can rl bring to vla generalization? an empirical study." arXiv preprint arXiv:2505.19789 (2025).

[2] https://github.com/inclusionAI/AReaL

[3] https://huggingface.co/datasets/inclusionAI/AReaL-boba-Data

編輯丨趙雅鑫

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

聲明：包含AI生成內容

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.