337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

渲訓推一體化?清華RLinf讓機器人“邊想邊動不卡頓”

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。

在大模型領域,隨著 o1/R1 系列推理模型的發布,模型訓練的重心逐漸從數據驅動的預訓練 / 后訓練轉向獎勵驅動的強化學習(Reinforcement Learning, RL)。并且,能夠將大規模算力高效利用的 RL infra 的重要性也日益凸顯。當前框架對具身智能的支持仍然受限。相比推理大模型這一類純大腦模型,具身智能領域存在大腦(側重推理、長程規劃,如RoboBrain)、小腦(側重執行、短程操作,如OpenVLA)及大小腦聯合(快慢系統,如pi 0.5)等多樣模型。

具身智能除了包含Agentic AI的多步決策屬性外,他還有一個獨特屬性:渲訓推一體化。與工具調用智能體、瀏覽器智能體所交互的仿真器相比,具身仿真器通常需要高效并行物理仿真和3D圖形渲染等,因此當前主流仿真器通常采用GPU加速,耦合多步決策帶來了算力和顯存競爭的新挑戰。此背景下,清華大學、北京中關村學院和無問芯穹聯合推出了一個面向具身智能的靈活的、可擴展的大規模強化學習框架 RLinf。RLinf已上線始智AI-wisemodel開源社區,歡迎大家前去體驗。


模型地址

https://wisemodel.cn/models/RLinf/RLinf-math-1.5B

https://wisemodel.cn/models/RLinf/RLinf-math-7B

01.

RLinf介紹

RLinf 的 “inf” 不僅代表著 RL “infrastructure”,也代表著 “infinite” scaling,體現了該框架極度靈活的系統設計思想。

RLinf 的系統可以抽象為用戶層(統一編程接口)、任務層(多后端集成方案)、執行層(靈活執行模式)、調度層(自動化調度)、通信層(自適應通信)和硬件層(異構硬件)6 大層級。相比其他框架的分離式執行模式,RLinf 提出的混合式執行模式,在具身智能訓練場景下實現了超 120% 的系統提速,VLA 模型漲幅 40%-60%。同時,RLinf 高度靈活、可擴展的設計使其可快速應用于其他任務,所訓練的 1.5B 和 7B 數學推理大模型在 AIME24、AIME25 和 GPQA-diamond 數據集上取得 SOTA。



設計 1:采用基于 Worker 的統一編程接口,利用微執行流實現宏工作流,實現一套代碼驅動多種執行模式

當前已有強化學習框架通常采用兩種執行模式:共享式(所有卡跑同一個組件) 和分離式(不同的卡分配不同的組件)。然而,這兩種模式在具身智能 “渲訓推一體”的特點下都存在局限性。主要是:由于具身智能體多步決策的屬性,模型(Actor)要和仿真器(Simulator)頻繁交互,而當前框架一方面不支持仿真器狀態快速卸載和加載,另一方面若用共享式需要頻繁加載卸載組件,切換開銷大,嚴重降低系統效率。

因此,目前已有的框架在這個場景下僅支持分離式訓練,但分離式采用 on-policy 算法訓練時資源閑置率高,系統氣泡比較大。RLinf 針對這一問題,提出了混合式執行模式,如圖 4 所示,這種模式兼具分離式和共享式的優勢,再配合上細粒度流水設計,使得系統幾乎無氣泡,顯著提升了系統運行效率。


圖 4 : 共享式、分離式和混合式執行模式對比

然而,要想實現一套代碼驅動多種執行模式(即無需更改代碼,通過配置參數即可實現分離、共享或混合)是不容易的,一種標準的解決方案是構建計算流圖,但會導致編程靈活性降低,debug 難度直線上升,所以當前已有框架通常只支持一種模式(分離或者共享),引入新的執行模式需要大量的系統開發。

為此,RLinf 提出了創新的宏工作流到微執行流的映射機制(Macro-to-Micro Flow,M2Flow),實現從組件級而非任務級進行調度。M2Flow 允許用戶使用過程式編程方式靈活構建復雜訓練流程,解決傳統計算流圖構建編程靈活性低的問題,同時能夠將過程式的訓練流程靈活映射到底層不同的執行模式上,為不同的訓練流程(如 RLHF、RLVR 等)選擇最優執行模式(配合自動調度模塊)。

因此,該映射機制兼具過程式編程(Imperative Programming)的靈活性、易用性、易調試性和聲明式編程(Declarative Programming)的編譯優化能力。具體而言,RLinf 采用基于 Worker 的統一編程接口,允許用戶將訓練流程中的不同組件,如模擬器、訓練推理引擎,封裝成不同 Worker,然后通過過程式編程將這些 Worker 串起來形成完整的訓練流程。M2Flow 通過細粒度控制微執行流,即控制每個 Worker 的運行 GPU、執行的批大小、執行時機等,實現極度靈活的執行模式。

總結來說,RLinf 使用戶能夠以高度可適配的方式編排組件(Actor、Critic、Reward、Simulator 等),組件可以放置在任意 GPU 上,并自動配置不同的執行模式,目前支持 3 種執行模式:

共享式(Collocated Mode):用戶可以配置組件是否同時常駐于 GPU 內存,或通過卸載 / 重新加載機制交替使用 GPU。

分離式(Disaggregated Mode):組件既可以順序運行(可能導致 GPU 空閑),也可以以流水線方式執行,從而確保所有 GPU 都處于忙碌狀態。

混合式(Hybrid Mode):進一步擴展了靈活性,支持自定義組合不同的放置形式。典型案例是 Generator 和 GPU-based Simulator 執行分離式細粒度流水,二者與 Inference 和 Trainer 執行共享式。


設計 2: 面向具身智能大小腦不同訓練需求,采用全新的低侵入式多后端集成方案,兼顧高效性和易用性

具身智能領域的特點是:大小腦同時存在,且該領域仍處在蓬勃發展期,技術路線尚未收斂。因此為了更好地支持具身智能不同用戶(如具身大小腦研究人員)的需求,RLinf 集成了兩套后端:

Megatron + SGLang/vLLM:針對已收斂的模型架構(如具身大腦 VLM),支持已適配模型的快速接入,是大規模集群訓練的首選模式。在這一模式下,RLinf 也采用了全新的低侵入式訓推引擎集成方式,有助于快速集成訓推引擎的更新版本(用戶可嘗試切換 SGLang 版本,方法見說明文檔 Advanced Feature 章節),進而能夠啟用 Megatron 和 SGLang/vLLM 的所有優化能力,如 5D 并行等。

FSDP + Hugging Face:針對未收斂的模型架構(如具身小腦 VLA),支持 Hugging Face 模型開箱即用無需適配,是快速小規模驗證的首選模式。這一模式對于算力受限及新手用戶比較友好,特別為具身智能從業者打造。


圖 5:RLinf 集成兩套后端

同時 RLinf 也支持多項來自一線從業者的剛需,包括 LoRA 訓練,斷點續訓,以及適應不同網速用戶的訓練可視化(Tensorboard、W&B、SwanLab)等。此外,RLinf 也正在集成 SFT 模塊,致力于提供一站式的服務,通過一套代碼滿足多樣化的訓練需求。


設計 3: 設計面向強化學習的自適應通信庫和自動化調度模塊,提升訓練穩定性和系統效率。

1、自適應通信機制:

強化學習存在多個組件,且這些組件之間存在大量的數據交互。靈活、高效的互通信是支撐強化學習框架高效運行的關鍵,也是框架可擴展性的重要保證。因此,RLinf 特別設計了一套面向強化學習的通信庫,其中主要包含四項優化技術:自適應 CUDAIPC/NCCL 通信、負載均衡傳輸隊列、多通道并發通信機制、快速通信重配置。

自適應 CUDAIPC/NCCL 通信:無需用戶配置,根據兩個互通信組件所在 GPU 自動選擇使用 CUDAIPC 通信還是使用 NCCL 通信,即兩個組件位于同一個 GPU 上時使用 CUDAIPC,位于不同 GPU 上時使用 NCCL。

負載均衡傳輸隊列:可以根據上一個組件在不同 GPU 上所產生數據量的大小,在發送給下一個組件的不同 GPU 時做數據量負載均衡,使得下一個組件不同 GPU 的計算量接近,提升系統運行效率。


圖 6:負載均衡傳輸隊列

多通道并發通信:使用多 CUDA stream 以及多網絡流并發的通信,避免隊頭阻塞(Head-of-Line Blocking),降低通信延遲。

快速通信重配置:該功能主要面向大規模集群訓練,是實現下文秒級動態擴縮的支撐技術之一,可有效解決通信容錯和通信調整的問題。

2、自動化調度模塊:

大規模強化學習框架的優化目標是盡量減少系統資源閑置。已有框架通常采用人為指定資源配置的方案,依賴于人工經驗,容易造成系統資源浪費,RLinf 設計了一套自動調度策略,可以針對用戶的訓練流以及用戶所使用的計算資源,選擇最優的執行模式。

具體而言,RLinf 會對各組件做自動化性能分析,獲得各組件對資源的使用效率和特征。然后,構建執行模式的搜索空間,該搜索空間描述了強化學習算法各組件對計算資源的分配復用關系,包括 “時分復用”、“空分復用” 以及二者結合的資源分配方案;在這樣的建模下,RLinf 的自動化調度不僅支持已有強化學習框架中 “共享式” 和 “分離式” 的典型資源分配方式,還支持二者結合的混合分配方案的建模分析。

最后,基于上述性能分析數據,在該空間中搜索出最優的執行模式。除此之外,該自動調度策略還集成 “秒級在線擴縮容(Online Scaling)” 能力,70B 模型只需 1 秒即可完成 5D 并行動態擴縮,而傳統方案需十幾秒甚至更久。該功能及相關論文將于 10 月上線開源版本。基于該技術可進一步實現運行時組件間計算資源的動態調度,配合細粒度流水設計,可以在保證算法 on-policy 屬性的前提下進一步壓縮系統氣泡率,且顯著提升訓練穩定性。

02.

RLinf 性能

與此同時,Pusa V1.0所需的參數更新數比Wan-I2V少10倍以上,這表明Pusa僅僅關注與時間相關的模塊,從而保留了基礎模型的先驗知識。與之相對的,Wan-12V則表現出對基礎模型先驗知識的破壞。

在應用上,與其他框架相比,RLinf 的特色在于 Vision-Language-Action Models (VLAs)+RL 的支持,為研究人員探索 VLAs+RL 領域提供了良好的基礎算法性能及測試平臺。RLinf 支持了主流的 CPU-based 和 GPU-based 仿真器(具體平臺見說明文檔),支持了百余類具身智能任務,集成了主流的具身大模型 OpenVLA、OpenVLA-OFT、Pi 0。

特別地,團隊率先實現了對 Pi 0 的大規模強化學習微調,相關算法及論文將在 9 月底發布。在量化指標上,以 Maniskill3(典型的 GPU-based Simulator )為例進行測試,RLinf 采用混合式結合細粒度流水的執行模式。相比其他框架的分離式執行模式,系統效率顯著提速 120% 以上(圖 7)。

OpenVLA 及 OpenVLA-OFT 在 Maniskill3 自建 25 個任務 [1] 中采用 PPO 算法和適配具身的 GRPO 算法訓練后,成功率曲線如圖 8 所示,可以看到模型成功率可以從 SFT 后的 30%-50% 提升至 80%-90%,漲幅 40%-50% 以上。

在公開測試平臺 LIBERO 的 4 個場景中,OpenVLA-OFT 采用 RLinf 適配具身的 GRPO 算法訓練后,平均成功率達到 97.3%,相比 SFT 模型漲幅 62.4%。

團隊前序工作曾探討 RL 和 SFT 對 VLA 泛化性提升的不同之處 [1],RLinf 將研究進一步拓展至大規模場景下,助力探索具身智能領域的 RL Scaling Law。


圖 7:RLinf 在 “渲訓推一體化” 任務訓練中顯著提速 120%+


圖 8:OpenVLA、OpenVLA-OFT 在 Maniskill3 自建 25 個任務中采用 PPO 算法及具身版 GRPO 算法的訓練曲線


表 1:OpenVLA-OFT 在 LIBERO 中采用具身版 GRPO 算法的測評結果

03.

結語

考慮到框架的易用性,RLinf 提供了全面且系統化的使用文檔。RLinf 在開發之初的目標就是開源,因此讓每一個用戶能夠理解、使用和修改是設計原則之一,也是一個優秀開源框架必備的屬性。團隊采用公司級代碼開發流程,確保文檔內容覆蓋從入門到深度開發的各層次需求。此外,RLinf 還提供完整的 API 文檔與集成 AI 問答機器人支持,以進一步提升開發體驗與支持效率。

RLinf 團隊的開發成員具有交叉研究背景,包含從系統到算法到應用的技術全棧,例如系統架構設計、分布式系統、大模型訓練推理加速、強化學習、具身智能、智能體等。正是由于這樣的交叉背景,使得團隊能夠從應用需求驅動算法設計,算法指導系統設計,高效系統加速算法迭代,體現了大模型時代下新型科研形態。未來 RLinf 團隊也將持續開發和維護,具體 Roadmap 見 Github 網站。 RLinf 項目地址 https://github.com/RLinf/RLinf

最后,誠摯地邀請大家體驗 RLinf 框架,并且與我們交流技術觀點與潛在合作機會。同時,RLinf 團隊持續招聘博士后、博士、碩士、研究員、工程師及實習生,歡迎投遞簡歷,與我們共同推進下一代強化學習基礎設施的建設與發展。

聯系方式:zoeyuchao@gmail.com, yu-wang@mail.tsinghua.edu.cn

[1] Liu, Jijia, et al. "What can rl bring to vla generalization? an empirical study." arXiv preprint arXiv:2505.19789 (2025).

[2] https://github.com/inclusionAI/AReaL

[3] https://huggingface.co/datasets/inclusionAI/AReaL-boba-Data

編輯丨趙雅鑫

----- END -----


wisemodel相關:

系列模型:

關于wisemodel更多

1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

聲明:包含AI生成內容

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
部分娃哈哈宏勝工廠停產,有工廠已放假

部分娃哈哈宏勝工廠停產,有工廠已放假

界面新聞
2026-03-27 14:59:14
羅技:“我一降價,你還不是像狗一樣跑過來”

羅技:“我一降價,你還不是像狗一樣跑過來”

電腦吧評測室
2026-03-26 22:05:58
宋喆出獄后現狀:縣城搬菜月入三千,前妻楊慧橫店開公司年入千萬

宋喆出獄后現狀:縣城搬菜月入三千,前妻楊慧橫店開公司年入千萬

一盅情懷
2026-03-26 14:47:59
廣州市委原書記郭永航被查,曾長期在深圳工作

廣州市委原書記郭永航被查,曾長期在深圳工作

觀察者網
2026-03-27 18:27:06
隨著國足2-0庫拉索,產生3大不可思議和1個不爭事實,全場MVP誕生

隨著國足2-0庫拉索,產生3大不可思議和1個不爭事實,全場MVP誕生

侃球熊弟
2026-03-27 15:01:03
涉嫌嚴重違紀違法,張智舟被查

涉嫌嚴重違紀違法,張智舟被查

都市快報橙柿互動
2026-03-27 17:32:30
法國發布重磅提醒?美軍若強行插手臺海,法國軍事分析做出推演

法國發布重磅提醒?美軍若強行插手臺海,法國軍事分析做出推演

安安說
2026-03-27 12:18:51
張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

張雪峰追悼會定于本周六,喪事從簡不搞排場,11歲女兒成全家心病

未曾青梅
2026-03-26 22:48:49
比亞迪開天眼了?“閃充”剛登場就成為油價暴漲的贏家!

比亞迪開天眼了?“閃充”剛登場就成為油價暴漲的贏家!

大俠上車
2026-03-27 17:09:47
67歲王朔現狀:只能死在這兒了,女兒不讓死屋里,怕房子不好賣

67歲王朔現狀:只能死在這兒了,女兒不讓死屋里,怕房子不好賣

談史論天地
2026-03-27 17:05:03
2-0大冷門!真不像傳統印象的國足:時隔16年,再贏世界杯參賽隊

2-0大冷門!真不像傳統印象的國足:時隔16年,再贏世界杯參賽隊

侃球熊弟
2026-03-27 15:32:46
人民網征集給AI取中文名,評論區“硅頭”遙遙領先

人民網征集給AI取中文名,評論區“硅頭”遙遙領先

正版徐叫獸
2026-03-26 14:48:45
周口一油菜花田打卡地被推土機鏟平,當地:系拆遷征收用地,居民不能私自種植

周口一油菜花田打卡地被推土機鏟平,當地:系拆遷征收用地,居民不能私自種植

極目新聞
2026-03-27 14:54:50
史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

史上首次:特朗普簽名將印上美元紙幣,打破165年傳統

上觀新聞
2026-03-27 12:58:08
這么看,伊朗的戰果還是很驚人的!!!

這么看,伊朗的戰果還是很驚人的!!!

山河路口
2026-03-27 13:40:25
“黃金大買家”,開始拋售黃金

“黃金大買家”,開始拋售黃金

第一財經資訊
2026-03-27 13:03:09
不信川普,更別信伊朗

不信川普,更別信伊朗

新浪財經
2026-03-26 16:21:30
人民幣用不了多久就會重新回到5.0時代,甚至是4.0。

人民幣用不了多久就會重新回到5.0時代,甚至是4.0。

玉辭心
2026-03-27 13:07:40
一覺醒來,愛吃活魚的人天塌了,央視曝光的內幕真可怕!

一覺醒來,愛吃活魚的人天塌了,央視曝光的內幕真可怕!

濤哥銳評
2026-03-26 17:57:04
550名間諜落網,海軍司令遭斬首:伊朗的篩子比我們想的要深

550名間諜落網,海軍司令遭斬首:伊朗的篩子比我們想的要深

映象觀察
2026-03-27 10:01:23
2026-03-27 20:12:49
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

楊植麟張鵬夏立雪羅福莉,聊龍蝦、聊漲價

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

頭條要聞

美方稱在美軍事基地裝爆炸物的男子逃往中國 中方回應

體育要聞

邵佳一:足球就像一場馬拉松

娛樂要聞

范瑋琪加盟,官宣《浪姐7》遭全網抵制

財經要聞

我在小吃培訓機構學習“科技與狠活”

汽車要聞

與眾08,金標大眾不能輸的一戰

態度原創

數碼
健康
旅游
游戲
軍事航空

數碼要聞

解鎖“芯”潮澎湃的校園新生活 微星筆記本高校巡展燃爆漢口學院

干細胞抗衰4大誤區,90%的人都中招

旅游要聞

一朵花的N種“打開方式”:多地“賞花+”翻出新花樣

科樂美旗下電競學院新增學科 培育網絡直播人材

軍事要聞

伊朗:已組織超100萬人為地面戰斗做準備

無障礙瀏覽 進入關懷版