網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

漫畫：大模型“強(qiáng)控”具身智能機(jī)器人？

2025-03-25 22:43:26　來源: 親愛的數(shù)據(jù)

北京舉報

分享至

廢話不多說，

接通宋言博士的電話，

第一句就是：“你看清華大學(xué)那篇RDT論文了嗎？”

異口同聲地回答：“當(dāng)然看了”

連寒暄都省了，用“論文看了嘛？”，

確認(rèn)一下好友身份。

若要沒看，

那咱們就不再是朋友了。

宋言博士對這篇論文評價很高，

（說明譚老師我欣賞論文的品味也很高呢。）

一句話總結(jié)，把擴(kuò)散模型思路引入機(jī)器人。

氛圍已經(jīng)烘托到這里了，

這篇就聊這個。

宋言博士是元蘿卜機(jī)器人系統(tǒng)架構(gòu)師，

一位從清華大學(xué)力學(xué)博士轉(zhuǎn)來機(jī)器人行業(yè)的“轉(zhuǎn)行博士”。

密切關(guān)注大模型最新進(jìn)展是我倆的共同愛好。

大模型控制機(jī)器人很有意思，

畢竟，腦子是個好東西，

希望你有，我有，大家有，機(jī)器人有，

既然好好聊，我請到了，

論文RDT的第一作者清華大學(xué)劉松銘博士，

中科紫東太初大模型團(tuán)隊機(jī)器人總監(jiān)：劉榮博士，

武漢人工智能研究院研究員：易東博士，

元蘿卜機(jī)器人系統(tǒng)架構(gòu)師：宋言博士。

分析機(jī)器人能做啥：題目：“圖片中有 4 個水槽。哪個箭頭指向的是離觀察者最近的水槽？”分析機(jī)器人能做啥：Germini Robotics到底做得如何呢？（二）競爭加劇，“含量”提升

（一）強(qiáng)勢玩家出場

先說有哪些知名玩家？

再說下各家玩法。

第一個，

谷歌很堅定地摸索大模型控制機(jī)器人道路，

接連推出，

Robotic Transformer 1，

Palm-E，

Robotic Transformer 2 （2023年7月），

后面，Robotic Transformer -H（2024 年 3 月），

增加了語言模型對機(jī)器人細(xì)節(jié)動作的理解；

后來，RT1演化成模塊，

從Palm-E開始，

就調(diào)用RT1這個模塊處理動作。

RT1自有語言理解能力，

所以，這種模塊不可以說是：

相對獨立且只負(fù)責(zé)動作的模塊。

RT-2之后的模型，所有的都在一套網(wǎng)絡(luò)里完成，

但沒有用上擴(kuò)散模型。

直到Germini Robotics ER這一代，

終于用上了擴(kuò)散模型，

擴(kuò)散模型不僅是獨立子模塊，

而且跑在在機(jī)器人硬件上。

劉榮博士和易東博士共同認(rèn)為：

雖然Germini Robotics是閉源，

但是，它的視覺語言模型，

很可能是目前世界上最好的。

谷歌團(tuán)隊搞視覺語言模型由來已久，信心堅定，

Germini Robotics自然繼承了很多優(yōu)點：

（1）對空間理解能力特別強(qiáng)，

有的模型僅能把空間位置關(guān)系，

比如，前后關(guān)系說對，

這已經(jīng)很強(qiáng)了，

然而，Germini Robotics模型可以把廚房工具的把手直接框出來，

比如炒菜產(chǎn)子的手柄。

我們詳細(xì)解釋一下：

一張圖片，有的模型能說出圖片里有人，

有的模型能把模型里的人框出來，

那么，這兩種模型完全不在一個水平上，

后者強(qiáng)太多了。

機(jī)器人要理解周圍的環(huán)境，不僅僅是“看見”一個平面圖片，而是要知道物體的形狀、大小、距離和位置（3D感知）。Germini Robotics不僅對空間的理解走到三維這一步，而且能夠輸出三維理解的結(jié)果。

（2）推理能力也很強(qiáng)

怎么強(qiáng)？上考試題

（ERQA真是個好東西，前面漫畫也有）

第一題：軌跡推理（Trajectory Reasoning）

題目：“大約應(yīng)該沿著哪條彩色軌跡拉動拉鏈，以便開始拉上行李箱？”

選項：

A. 藍(lán)色（正確答案）

B.紫色

C. 綠色

D. 紅色

分析機(jī)器人能做啥：

機(jī)器人需要理解拉鏈的起點和方向，

判斷正確的運動軌跡。

這需要 3D 空間感知和運動規(guī)劃能力，

讓機(jī)器人知道如何正確拉上拉鏈，

而不是隨意亂拉。

第二題：動作推理（Action Reasoning）

題目：“應(yīng)該如何移動扳手，使其準(zhǔn)備好旋轉(zhuǎn)最靠近它的六角螺絲？”

A. 向前和向右（正確答案）

B. 向上和向左

C. 向前和向左

D. 以上都不是

機(jī)器人需要理解工具（扳手），

如何作用于目標(biāo)（螺絲），

并找到正確的操作方向。

這涉及物理交互（Physics-based Interaction），

讓機(jī)器人知道如何調(diào)整扳手的角度來正確擰螺絲。

第三題：空間推理（Spatial Reasoning）

A. 沒有箭頭指向最近的水槽（正確答案）

B. 藍(lán)色

C. 紅色

D. 青色

機(jī)器人需要理解深度和空間關(guān)系，

判斷哪個物體最近。

這涉及 3D 視覺感知（3D Perception），

讓機(jī)器人能識別前后關(guān)系，

而不是僅僅根據(jù)顏色選擇答案。

（3）Germini Robotics盡力理解物理世界

理解世界，

才能是真智能機(jī)器人。

比如物體下落，

比如，掃把靠在墻上放得不好要劃倒，

它的模型理解這點，

機(jī)器人前去扶正掃把。

機(jī)器人不僅語言，思考聰明，

還要行動聰明，

理解物理世界是機(jī)器人領(lǐng)域的遠(yuǎn)大理想，

也是機(jī)器人自如行動于物理世界的前提。

也僅在初級理解階段，機(jī)器人只是能做選擇題，

如果把考試題目換成開放性試題，

那就是另一個難度了。

綜上所述，谷歌的技術(shù)路線，

以理解物理世界為終極目標(biāo)，

（理解數(shù)字世界不在話下）。

谷歌的“故事”，總是格外容易進(jìn)入，

你被故事帶著走，

讀懂谷歌，更容易看懂其他團(tuán)隊，

很多人指責(zé)谷歌創(chuàng)新能力衰退，

而我看來，谷歌更像一個值得信任的中年人。

往往是最好的“參考標(biāo)準(zhǔn)”。

萊文教授也是我在硅谷最希望拜訪的教授之一。朱軍教授團(tuán)隊我觀察了很多年，

再把目光移到其他團(tuán)隊：

第二個Octo模型團(tuán)隊（Octo Model Team），

這個團(tuán)隊的成果其實也可被視為谷歌系列工作，

谷歌和美國三所名校都參與了（24年5月26日），

團(tuán)隊核心人物之一，

美國加州伯克利大學(xué)謝爾蓋·萊文教授

英文名是Sergey Levine，

他在一次演講中也談到：

“擴(kuò)散模塊規(guī)模小，會限制模型能力。”

第三個，清華大學(xué)朱軍教授團(tuán)隊

Robotics Diffusion Transformer (RDT)，

這個就是文章一開頭，

和宋言博士電話里聊到的論文。

業(yè)界地位不容小覷。另外，論文中是雙臂任務(wù)，雙臂比單臂更難。

有個很好的例子，人類很容易理解倒水"1/3 杯" ，

然而，指揮機(jī)器人動作的模型在訓(xùn)練的時候，

只學(xué)過 "少量""半杯" "滿杯" 三種水位。

從來沒學(xué)過 "1/3 杯"，

也就是說，

RDT模型令機(jī)器人“聽懂”以前沒學(xué)過的指令，

依然能成功完成任務(wù)，

這說明AI模型并不是死記硬背，可舉一反三。

配套雙臂數(shù)據(jù)集也格外有看點。

第四個，Pi-Zero模型屬于“物理智能”團(tuán)隊，

英文名是Physical Intelligence，雖然沒有引入擴(kuò)散模型，不過亮點是，

僅從名字上觀察，

該公司愿景想讓機(jī)器人理解世界的規(guī)則。

現(xiàn)在看來，這是種雄心壯志。

再觀察，RDT和Pi-Zero均在動作模塊中，

引入擴(kuò)散模型，

技術(shù)含量點在于，主干模型中用上了擴(kuò)散模型，

而Octo模型只是用了一小部分，

RDT和Pi-Zero模型則將擴(kuò)散模型規(guī)模擴(kuò)大了很多。

換句話說，“擴(kuò)散模型”含量在提升。

第五個，F(xiàn)igure 02，部分?jǐn)U散模型。

第六個，字節(jié)跳動的GR系列的單臂任務(wù)

2024年10月，

字節(jié)在這個方向上有著自己的理解，

他們認(rèn)為，模型對空間的理解能力強(qiáng)是核心，Diffusion Policy Learning里的Policy ，

他們將動作理解為一個序列，

模型提高對視頻的理解力，

機(jī)器人動作性能才能提高。

是時候總結(jié)這些玩家的玩法特點了。

第一點，用VLA大模型做基座，

既然可以用已有的大模型抽特征，

可以純語言模型提語言特征，

可以純視覺模型提視覺特征，

也可以用圖文模型提兩種特征，

怎么組合都行。

既然是VLA模型，

只要是給它下達(dá)任務(wù)，機(jī)器人直接做動作，

一套輸出行云流水輸出機(jī)器人動作（端到端）。

第二點，特別重要的是動作模塊，

因為機(jī)器人需要給它動作信號，才能行動。

早期動作模塊不用擴(kuò)散模型，

后來核心組件由擴(kuò)散模型構(gòu)成，

也就是說在VLA模型的基礎(chǔ)上，

擴(kuò)散模型作為一個獨立的子模塊（head）被引入，

能夠看到，“擴(kuò)散模型含量在提高，從子模塊，走向骨干，

美國眾多知名團(tuán)隊如此，

國內(nèi)一流團(tuán)隊亦如此。

結(jié)論呼之欲出，

擴(kuò)散模型正在成為機(jī)器人算法領(lǐng)域的關(guān)鍵技術(shù)之一，很有前途。

（三）底層原理

秉持我一貫的風(fēng)格，

要聊就聊透。

好好理解擴(kuò)散模型用于機(jī)器人操作底層原理。

我相信，當(dāng)你理解了擴(kuò)散模型的“隱藏實力”，

就不會問why，而是why not。

從“為什么用在機(jī)器人身上？”，

變成了“為什么不用在機(jī)器人身上？”

要我說，擴(kuò)散模型足夠強(qiáng)大，足夠基礎(chǔ)。

而武漢人工智能研究院易東博士給我的答案是：

一種廣泛適用的連續(xù)高維概率密度函數(shù)估計（和采樣）方法。

確實深刻。

不僅AI畫圖可用，機(jī)器人，自動駕駛等亦可用，

一切皆可探索。

先復(fù)習(xí)一下擴(kuò)散模型用于AI畫圖，

這是一個從“壞圖”中去掉噪聲變成“好圖”的過程。

當(dāng)你告訴AI“我想生成一幅日落的海灘和一群泳衣模特”，

（我的咒語，當(dāng)然是男模特）

它就會從一張完全隨機(jī)的“雪花屏”圖片開始，

一步步去掉噪聲，最終生成你想要的“好圖”。

去掉噪聲，這是一個思想，很早就有了，

這道題讓擴(kuò)散模型來做，它能生成。

甚至可得到一組連續(xù)動作。

機(jī)械臂當(dāng)下在什么位置？

把機(jī)器臂控制到什么位置去？

有了時間長度的位置信息，本身就是軌跡信息，

以此類推，擴(kuò)散模型一直預(yù)測動作，

機(jī)械臂一直完成任務(wù)，

任務(wù)可以是疊衣服，端茶倒水……

這時候，機(jī)器人能力瞬間爆棚。

（四）給機(jī)器人“出”策略

既然我這么看好擴(kuò)散模型和機(jī)器人操作，

那我就很想知道，這個頭是怎么開的？

我們不得不提到一篇論文，

2023年，開創(chuàng)性論文：

關(guān)于機(jī)械臂動作策略生成（Diffusion Policy Learning），

它第一次把擴(kuò)散模型用到機(jī)器人身上，

開辟了一種機(jī)器人的技術(shù)方向，跟隨者眾。

我特意讓宋言博士講解了這點，“讓我們再來談?wù)勥@件事的本質(zhì)。Diffusion采用連續(xù)的形式去建模動作分布，自回歸則用離散類別去模擬。前者昂貴而有效，后者簡單（僅需類似輪盤賭的方法）但失真。我們目前選擇了最穩(wěn)的辦法。但也不好說，也許有一天我們會猛然發(fā)現(xiàn)這個世界的本質(zhì)是離散的，只不過我們?nèi)鄙俸线m的離散化方法。”

我就很喜歡他對技術(shù)本質(zhì)那種淺顯直白的表達(dá)。

策略（Policy）這個術(shù)語，

是具身機(jī)器人專業(yè)術(shù)語，

用擴(kuò)散模型來“學(xué)習(xí)策略”。

策略是強(qiáng)化學(xué)習(xí)中的一個核心概念，

也是最初入門強(qiáng)化學(xué)習(xí)時，

最先接觸到的重要術(shù)語之一。

這樣解釋吧：

在使用強(qiáng)化學(xué)習(xí)來玩超級瑪麗游戲時，

從能找到一種算法（馬爾可夫鏈），

為我們提供一種簡單又實用的方式，

來理解和解決游戲人物面對的難題。

超級瑪麗當(dāng)前的狀態(tài)是“踩在蘑菇上”，

下一個動作是什么，

向左走，向右走？跳起？還是頂磚頭？

基于超級瑪麗當(dāng)前的狀態(tài)，要做一個動作的選擇，

這個選擇就叫策略（Policy）。

強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)出一個最優(yōu)的策略，

超級瑪麗能夠盡量多吃道具得分，

而且盡可能別掛掉。

從超級瑪麗聊回機(jī)器人，攝像頭拍到的照片（場景），

或者人類的命令都是初始狀態(tài)（State），

選擇下一步如何行動就是策略（方法論）。

傳統(tǒng)機(jī)器人預(yù)先編好的程序，

而具身機(jī)器人和環(huán)境交互出策略。

機(jī)械臂要拿葡萄，

下一步把手臂移到葡萄上方。

看來，擴(kuò)散模型輸出了正確的策略。

不過，我再引用一句清華大學(xué)劉松銘博士的原話：

在我看來，越是高手，

越喜歡思考算法背后的哲學(xué)意義。

有時候，猛一聽，

都不像在聊計算機(jī)。

（五）清華大學(xué)論文RDT

從前面的玩家玩法總結(jié)中能看到，

清華大學(xué)論文RDT是繞不過去了，

那就有請論文第一作者劉松銘博士，

我觀察到對他對具身智能的思考十分深刻。

以下由對話形式呈現(xiàn)：

第一個問題：我們怎么理解擴(kuò)散模型和自回歸模型？

他回答：自回歸有兩個關(guān)鍵問題：

1. 離散化：自回歸需要基于離散概率采樣，而具身的action天然連續(xù)。這二者之間會存在量化誤差，而具身的操作任務(wù)對誤差極其敏感。對于靈巧操作任務(wù)，可能需要亞毫米精度。

2. 自回歸需逐個生成詞元，受限于端側(cè)硬件（顯卡帶寬小），會導(dǎo)致模型推理速度較慢，而具身對控制頻率有較高要求（一般操作任務(wù)，至少需要10Hz推理頻率，而100ms對于VLM或者VLA來說，太短了）。雖然這兩點目前業(yè)界都有一些解決方案，但遠(yuǎn)遠(yuǎn)達(dá)不到完美。

本質(zhì)在于，在高維連續(xù)分布中進(jìn)行采樣并不簡單，

是一個復(fù)雜的問題（non-trivial problem），

而擴(kuò)散模型是解決這一問題的有力工具：

它本身是連續(xù)的，并且擴(kuò)散過程不依賴自回歸，

它是并行計算的，極大提升了推理速度。

經(jīng)過蒸餾，單步擴(kuò)散（one-step Diffusion），

甚至可以完成拋投等動態(tài)操作任務(wù)。

第二個問題：你們在擴(kuò)散模型上做了什么關(guān)鍵工作？

1.我們首次將擴(kuò)散模型在具身任務(wù)上擴(kuò)展到十億參數(shù)規(guī)模，我們的實驗證明的擴(kuò)散模型路線在具身領(lǐng)域是可擴(kuò)展的。計算規(guī)模的擴(kuò)大會直接帶來性能提升。為了能讓這個模型擴(kuò)展，我們在擴(kuò)散模型去噪網(wǎng)絡(luò)架構(gòu)上做了相當(dāng)多的工作：包括選擇合適的normalization方法，選擇合適的條件注入方式以及提升模型對非線性的適應(yīng)能力。這些都是具身領(lǐng)域都有的挑戰(zhàn)。這些工作盡管比較工程，但都是擴(kuò)展模型必不可缺的，我們的消融實驗表明缺少了任意一項技術(shù)，模型的擴(kuò)展性都會失敗。這些在可擴(kuò)展性上的努力是Diffusion Policy的關(guān)鍵。這也讓我們成為目前最大的擴(kuò)散結(jié)構(gòu)，Pi0的擴(kuò)散模型部分只有300M，我們認(rèn)為這會影響它的表達(dá)能力。

2.為了能支撐這么大規(guī)模模型的訓(xùn)練，我們準(zhǔn)備了相當(dāng)多的開源數(shù)據(jù)。當(dāng)然，這里面的工作并不是幾行代碼就搞定的。我們獨家的數(shù)據(jù)集配方里包含了46個不同機(jī)器人數(shù)據(jù)，為了能訓(xùn)練發(fā)揮出最大的效果，團(tuán)隊逐個數(shù)據(jù)集去清洗，清洗掉那些有錯誤或者傳感器異常的數(shù)據(jù)。實驗中的“臟活累活”實際上對模型性能提升非常重要。

“Data is almost everything.”為了不讓別人重復(fù)臟累活，我們將數(shù)據(jù)處理的代碼全部開源。此外，我們注意到，可用的雙臂數(shù)據(jù)集非常少。于是，采集了6K條雙臂數(shù)據(jù)，精心設(shè)計了多項任務(wù)，是目前雙臂數(shù)據(jù)集中多樣性最好的之一。

3.在不懈“調(diào)參”下，我們的模型取得了不錯的性能。有時候確實有點像老廚師烹飪，沒有太多規(guī)律，摸索了很多配方，把我們發(fā)現(xiàn)的最好的，開放給大家）。據(jù)開源社區(qū)反饋，即使Pi0發(fā)布之后，我們的模型依然很能打（嘿嘿）。我推測，不同的模型有各自適用的任務(wù)。不過，缺點也有，純擴(kuò)散結(jié)構(gòu)比較吃算力，但算力給夠模型的性能可以持續(xù)提升。感謝劉松銘博士，他對RDT的講解十分細(xì)致。

（六）學(xué)術(shù)爭議

我發(fā)現(xiàn)，對機(jī)器人動作軌跡生成這個件事的思考，

其中一個爭議點在于：

該用自回歸的方法做，

還是用生成式的方法做？

其實這是在討論自回歸和擴(kuò)散的關(guān)系。

而且AI畫畫和機(jī)器人動作操作也有所不同。

易東博士認(rèn)為：

“各有各的場景和優(yōu)勢，也能融合。

圖像生成方向也有結(jié)合。比如何愷明的工作MAR，先自回歸，然后擴(kuò)散，”

而元蘿卜機(jī)器人系統(tǒng)架構(gòu)師宋言博士認(rèn)為：

控制機(jī)器人的手臂去拉抽屜，

抓抽屜可以從上面抓，

也可以從下面抓，角度差了180度，

有了兩條數(shù)據(jù)（上和下），用自回歸的方法，

這兩條數(shù)據(jù)會相互干擾，

機(jī)器人動作操作忌諱相互干擾的數(shù)據(jù)。

機(jī)器人做一件事情，

可以有很多種動作去做這件事。

比如，抓取一個杯子，很多角度都能取到物品。

擴(kuò)散模型的優(yōu)勢是把所有的動作都建模出來，

自回歸的思路是無論多么復(fù)雜都回歸到一個點上，

所謂一個點就是一條確定的路徑，

而不能做多方面的探索。

我又和中科紫東太初大模型團(tuán)隊機(jī)器人總監(jiān)劉榮博士聊了聊，他認(rèn)為：

1.擴(kuò)散模型和自回歸是目前生成式方法的兩個最主要的方向；

2.一般認(rèn)為，自回歸擅長處理可變長度序列的預(yù)測問題，比如。現(xiàn)在語句生成，但是自回歸直接生成預(yù)測的詞元，被認(rèn)為是離散的，會損失物理值的大小關(guān)系，這個對行為輸出來說比較重要；

3.而擴(kuò)散模型一般處理定長序列，比如圖像生成（圖像大小是一定的），

好處是它的生成是連續(xù)的，這是因為擴(kuò)散模型屬于先預(yù)測分布再生成，連續(xù)值輸出一般認(rèn)為更適合具身機(jī)器人任務(wù)。

（七）尾聲

另一位專家劉榮博士則提出：

最近的機(jī)器人在視頻中非常歡脫，

有些難辨真假，可能產(chǎn)生一種誤解，

具身智能落地就在眼前。

其實很多機(jī)器人從業(yè)者，對目前進(jìn)展不滿意：

步子不夠大，也不夠爆發(fā)。

甚至有悲觀觀點，人形機(jī)器人至少五年，

乃至更長時間都無法落地。

不管機(jī)器人多會耍酷，本質(zhì)是多少錢能用得劃算。

有觀點認(rèn)為：現(xiàn)在的很多開源工作，

距離商業(yè)化還很遙遠(yuǎn)，

為了展示技術(shù)實力，

把數(shù)據(jù)都用起來了（數(shù)據(jù)用的多），

有學(xué)習(xí)能力（零樣本，小樣本），

把流程跑通（完成簡單的行動）。

“機(jī)器人的能力，不是停留在展示層面，

而是在性能指標(biāo)小數(shù)點后面的比拼切磋中，

真正摸清前行的方向。”

無論如何，機(jī)器人落地是加速的。

你看，擴(kuò)散模型正悄然成為智能機(jī)器人算法的關(guān)鍵技術(shù)之一。“有朝一日，擴(kuò)散模型的影響力不會亞于 Transformer。”——易東博士如此預(yù)測。

坦白講，我也是這個態(tài)度。

擴(kuò)散模型的高光時刻并不遙遠(yuǎn)。

這篇聊了很多專家，很痛快，不由感慨一句，

能和這些技術(shù)大神交朋友真爽，

用技術(shù)博客分享洞見，

只是我享受學(xué)習(xí)和友誼的副產(chǎn)品。

聲明：個人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.