337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

在「想象」中練就真機能力:RISE,讓VLA強化學習告別真機試錯

0
分享至



在具身智能的發展路徑中,視覺 - 語言 - 動作(VLA)模型正逐步成為通用操作任務的核心框架。但當任務進入長程規劃、柔性物體操作、精細雙臂協同、動態交互等復雜場景時,VLA 仍然面臨兩個根本性挑戰:

1. 模仿學習在推理中的長序列誤差累積;

2. 真機強化學習成本過高,難以規模化。

香港大學李弘揚老師帶領的 OpenDriveLab 團隊近期提出的(RISE(χ0-RL))(Reinforcement learning via Imagination for SElf-improving robots),給出的核心答案是:

通過構建組合式、多視角世界模型,讓機器人在想象的虛擬空間中完成強化學習,無需大規模真機交互,卻能讓長程任務性能實現跨越式提升,部分任務成功率較 SOTA 基線漲幅超 45%。







目前,該研究的論文已正式發布,項目主頁、論文與 arXiv 鏈接均已開放,代碼也預計于三月內完成開源。



  • 項目主頁:https://opendrivelab.com/kai0-rl/
  • 論文鏈接:https://arxiv.org/pdf/2602.11075
  • arXiv 鏈接: https://arxiv.org/abs/2602.11075
  • 團隊官網:https://opendrivelab.com/

傳統 VLA 落地的三重枷鎖:

偏差難糾,試錯昂貴

VLA 模型的落地難題,本質上源于模仿學習的先天缺陷與真機強化學習的現實壁壘,而現有世界模型的技術短板,更是讓虛實結合的嘗試難以落地,三重枷鎖層層制約,讓 VLA 在長程復雜任務中難以施展。

第一,模仿學習的暴露偏差

當前主流 VLA 依賴專家演示數據訓練,只學習「成功路徑」。

問題在于:

  • 從未見過失敗狀態
  • 不會恢復
  • 長程任務中誤差逐步放大

這使得模型在真實執行中一旦偏離專家軌跡,幾乎無法自我修正。

第二,真機 RL 的三重現實難題

理論上,強化學習可以解決暴露偏差問題,但在真實世界中存在三大約束:

  • 樣本效率低:需要海量的交互數據支撐,動輒數百萬次的嘗試讓訓練周期無限拉長;
  • 安全風險高:探索性的操作極易造成機器人硬件磨損、損壞,帶來直接的經濟損失;
  • 重置成本高:現實世界缺乏模擬器的自動重置機制,一次失敗后的環境恢復需要大量人工介入,效率極低。

第三,現有世界模型的能力短板

為彌合虛實差距,學界曾嘗試用生成式世界模型模擬物理環境,但這類模型往往難以同時兼顧動作可控性和長程一致性

  • 無法精準跟隨動作指令
  • 在長序列視頻預測中出現畫面失真
  • 違背物理規律

因此,僅靠世界模型根本無法作為強化學習的有效訓練環境。



RISE 框架概覽:(a) 傳統物理世界強化學習受限于硬件和重置成本;(b) 在組合式世界模型中進行在線學習;(c) 在真機任務上的顯著提升。

RISE 破局:

組合式世界模型 + 想象空間自進化循環

RISE 的核心創新,在于將物理環境的交互完全遷移到組合式世界模型構建的想象空間中,通過虛實解耦的設計,既解決了世界模型的高保真模擬問題,又構建了高效的策略自進化閉環,讓機器人在虛擬空間中完成試錯 - 學習 - 優化的全流程。

組合式世界模型:

解耦設計,兼顧模擬精度與評估能力

與傳統單一世界模型不同,RISE 將世界模型解耦為可控動力學模型進度價值模型兩個獨立優化的模塊,各司其職,實現了高保真的物理模擬與精準的軌跡價值評估。兩個模塊均采用了成功和失敗(例如,基礎 VLA 模型在推理過程中的失敗數據)的任務數據進行訓練,防止了模型的過擬合以及高度自信。

1. 可控動力學模型(模擬器):通過Task-Centric Batching(任務中心化批處理)策略,微調時每個 batch 集中采樣少數特定任務的多種動作變體,有效過濾無關背景噪聲,專注于動作指令的跟隨。這讓虛擬模擬的動作與真實操作高度對齊,解決了「手不跟腦」的問題;

2. 進度價值模型(裁判員):融合進度估計時序差分學習(TD Learning),前者為長程任務提供密集的獎勵信號,讓模型清晰感知每一步操作的任務推進度;后者則增強了模型對細微失敗(如抓取滑落、位置偏移)的敏感性,確保在長序列操作中能精準評估「這步走得對不對」。



想象空間自進化循環:

三步實現無真機的策略迭代

在組合式世界模型構建的高保真思維沙盒中,RISE 設計了完全在想象空間運行的在線強化學習閉環,無需任何真機交互,就能實現策略的高效迭代,整個過程分為三步:

1. 第一步 Rollout 階段

VLA 策略與動力學模型交互,根據當前狀態生成未來的視頻預測序列,模擬不同動作帶來的環境反饋;

2. 第二步 評估階段

進度價值模型對所有想象出的軌跡進行評分,計算優勢函數(Advantage),區分高價值(成功)和低價值(失敗)的動作路徑;

3. 第三步 訓練階段

利用高低價值的想象數據,通過流匹配目標更新 VLA 策略,讓模型持續強化成功路徑、規避失敗路徑,實現自我進化。



RISE 架構解析:

虛實解耦,讓想象貼合真實物理規律

RISE 的架構設計,本質上是通過解耦和對齊,讓虛擬的想象空間無限貼近真實物理世界,為策略優化提供穩定、可靠的訓練環境,其核心邏輯可總結為模型解耦建沙盒,軌跡迭代優策略。

組合式世界模型的解耦設計,從根源上解決了傳統世界模型模擬與評估不可兼得的問題:可控動力學模型負責打造高保真的物理模擬沙盒,確保動作與視覺反饋的一致性、長程性;進度價值模型則充當精準的裁判,讓模型能在復雜的長程任務中清晰判斷每一步操作的價值。

而想象空間的自進化閉環,則讓強化學習的試錯完全脫離真機:同一初始狀態下,模型會生成多種不同的動作軌跡,通過自我博弈完成策略優化,這種方式既避免了真機試錯的成本與風險,又讓模型學會了從失敗中恢復的能力 —— 這正是傳統模仿學習所不具備的核心能力。

此外,RISE 的設計還充分考慮了離線數據的分布限制,通過同時利用在線動作和在線狀態,讓模型能接觸到更多未知狀態的高價值動作,為后續的真實環境泛化打下基礎。

實測見真章:性能飆升、

泛化抗擾,想象訓練練就真機硬實力

研究團隊在三大極具挑戰性的真機長程任務中對 RISE 進行了系統評估:動態積木分揀(動態物體操作)、背包裝袋(柔性物體操作)、紙盒閉合(精細雙臂協同),從性能、組件必要性、泛化抗擾能力、生成質量四個維度,驗證了方法的有效性,各項結果均展現出顯著優勢。

性能飆升:長程任務成功率大幅超越 SOTA



相較于 π?.?、RECAP、DSRL 等 SOTA 基線,RISE 在所有任務中均實現了成功率的跨越式提升,尤其在柔性物體和精細操作任務中表現亮眼:

  • 動態積木分揀:成功率從 RECAP 的 50% 提升至 85%,漲幅 35%;
  • 背包裝袋:成功率從 30% 提升至 85%,漲幅 45%,攻克了柔性物體操作的難點;
  • 紙盒閉合:成功率高達 95%,完美解決精細雙臂協同的精度問題。

組件驗證:每一環設計都是性能關鍵





消融實驗充分證明了 RISE 各模塊設計的必要性,任何一個組件的缺失,都會導致性能的顯著下降:

  • 去除Task-Centric Batching,動力學模型的動作控制能力大幅下降,任務完成率直接下跌;
  • 去除TD Learning,價值模型無法敏銳捕捉細微失敗狀態,策略優化失去方向;
  • 脫離在線動作 + 在線狀態,模型難以突破離線數據的分布限制,泛化能力大幅降低。

泛化抗擾:不再「死記硬背」

RISE 訓練出的策略不再是機械模仿專家,而是具備了「從失敗中恢復」的真實智能:

  • 抗干擾:面對人為干擾帶來的意外狀態(如物體被推離原位、抓取滑落),模型能主動調整動作,從失敗中恢復并完成任務;

  • 位置泛化:即使被操縱物體的擺放位置發生變化(如折疊衣服、書包的位置偏移),模型仍能精準完成操作,無需重新訓練。

生成質量:物理規律的高保真復刻

在模型生成質量的定量與定性評估中,RISE 的動力學模型表現遠超 Genie Envisioner、Cosmos 等基線模型:

  • 定量指標:在FVD(Fréchet 視頻距離)EPE(動作誤差)上均實現最優,視頻生成精度和動作跟隨能力更優;



  • 定性結果:能生成清晰、符合物理規律的多視角未來幀,無模糊、物體瞬移、動作不一致等問題,且在 Bridge、Galaxea、Agibot World 等大規模數據集上均保持優異表現。



所提出的 dynamics model 能夠合成連貫的多視角視頻滾動,并具有高視覺保真度,為強化學習奠定了堅實的基礎。每個視頻片段均按從上到下的順序排列



模型能夠生成清晰且符合物理規律的未來幀,而基線模型常出現模糊或物體瞬移等物理不一致現象

啟示與展望:

從物理試錯到思維進化,具身智能的范式躍遷

RISE 的價值,不止于一項技術的突破 —— 它正在重新定義智能體理解世界的方式,正在從物理世界的被動適應 轉向想象空間的主動進化。

這套框架的核心洞見,是對學習本質的一次深刻重估:面對高動態、富接觸、高精度的長程復雜任務,通過構建高保真的組合式世界模型,將昂貴、高風險的物理交互成本,轉化為可擴展的計算成本,讓機器人在思維沙盒中完成數萬次的自我博弈與迭代,遠比低效的真機訓練更高效。而這種在想象中學會從失敗中恢復的能力,正是 VLA 模型從實驗室演示走向真實世界落地的關鍵。

從隱向量世界模型到 RISE 的組合式多視角、像素級世界模型,RISE 完成了一次底層范式的躍遷:想象訓練正在成為具身智能發展的核心方向。

未來的圖景正在變得清晰:當世界模型的精度逼近物理現實的邊界,當千萬種任務的執行策略可以在想象中被反復預演、打磨至完美,機器人將真正迎來滿級出廠的時代 —— 它們不再需要在真實世界中跌跌撞撞地長大,而是先在高度逼真的思維里完成百萬次進化,帶著已經爐火純青的技能無縫落地現實。

這意味著什么?

意味著,物理世界對智能體成長的代價將被大幅降低。

而 RISE,正是通往這個未來的第一塊基石

更多方法細節與實驗分析,請見原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蘋果新品突然上架,3月27日,全面開售

蘋果新品突然上架,3月27日,全面開售

科技堡壘
2026-03-27 13:34:57
周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認前夫當干爹

周蘇紅:前夫癱瘓后,再嫁富豪仍照顧前夫,如今女兒認前夫當干爹

一窺究竟
2026-02-26 11:28:43
伊朗下追殺令,在中東搜捕美軍,又有一國下場,德黑蘭等來強援

伊朗下追殺令,在中東搜捕美軍,又有一國下場,德黑蘭等來強援

小宋努力生活
2026-03-29 11:15:36
3次了!這回終于要禁賽,東契奇沒能躲過!

3次了!這回終于要禁賽,東契奇沒能躲過!

德譯洋洋
2026-03-29 12:48:03
章澤天的面相也變了,3個娃的母親,能保持到這種身材,已經很棒

章澤天的面相也變了,3個娃的母親,能保持到這種身材,已經很棒

草莓解說體育
2026-03-29 10:09:52
4月1日起,高血壓糖尿病患者必辦三件事,藥費直接省一半

4月1日起,高血壓糖尿病患者必辦三件事,藥費直接省一半

今日養生之道
2026-03-28 07:00:22
關辛回應焦泊喬離隊之事!

關辛回應焦泊喬離隊之事!

體育哲人
2026-03-28 18:06:26
狗屎運爆棚!2026春季桃花最旺三大生肖,財運也滿載而歸!

狗屎運爆棚!2026春季桃花最旺三大生肖,財運也滿載而歸!

毅談生肖
2026-03-29 11:58:31
錢學森家族基因密碼:一項擇偶標準,可保家族后代不失天之驕子

錢學森家族基因密碼:一項擇偶標準,可保家族后代不失天之驕子

云霄紀史觀
2026-03-23 19:57:36
4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

4連勝!加蘭30+5,倫納德28+8絕殺,西部前二難辦了,快船要沖冠

巴叔GO聊體育
2026-03-28 14:30:14
烏媒:中國推出極其危險的TM-300隱身無人機,最大航程達1200公里

烏媒:中國推出極其危險的TM-300隱身無人機,最大航程達1200公里

零度Military
2026-03-27 06:37:33
細思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學都走一遍

細思極恐!張雪峰8個月前悄悄和母校告別,幼兒園到中學都走一遍

火山詩話
2026-03-28 06:05:06
李嘉誠與巴菲特兩位巨頭同時清倉,這波信號太強烈了

李嘉誠與巴菲特兩位巨頭同時清倉,這波信號太強烈了

新浪財經
2026-03-29 10:51:56
大陸發布統一后安排,蔡正元趕在坐牢前,留下5個字,措辭不尋常

大陸發布統一后安排,蔡正元趕在坐牢前,留下5個字,措辭不尋常

混沌錄
2026-03-28 20:14:14
太壕了!有人把黿頭渚包了!

太壕了!有人把黿頭渚包了!

無錫eTV全媒體
2026-03-29 11:38:43
女排名將周曉蘭:曾和郎平齊名,退役后辭官赴美,如今過得咋樣

女排名將周曉蘭:曾和郎平齊名,退役后辭官赴美,如今過得咋樣

小徐講八卦
2026-02-15 16:20:07
羅德里戈前女友官宣戀情,新男友是礦工球員考阿-埃利亞斯

羅德里戈前女友官宣戀情,新男友是礦工球員考阿-埃利亞斯

懂球帝
2026-03-29 09:18:13
上海電影院現場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

上海電影院現場被捉奸,帶情夫當老公面出軌,狗血女主角真容曝光

靜若梨花
2026-03-01 16:25:46
陳根:新冠之后,很多人的性功能在下降?

陳根:新冠之后,很多人的性功能在下降?

陳根談科技
2026-03-28 11:45:32
厲害了我的國!終于開始戰略反攻了!

厲害了我的國!終于開始戰略反攻了!

達文西看世界
2026-03-28 12:01:24
2026-03-29 13:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12620文章數 142599關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

媒體:中東戰火燒了一個月 全球最大產油國美國卻慌了

頭條要聞

媒體:中東戰火燒了一個月 全球最大產油國美國卻慌了

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

張凌赫事件持續升級!官方點名怒批

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

教育
藝術
房產
本地
公開課

教育要聞

春秋假,如何成為孩子心心念念的成長驛站?

藝術要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

房產要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

本地新聞

在濰坊待了三天,沒遇到一個“濰坊人”

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版