網易首頁 > 網易號 > 正文申請入駐

銀河通用王鶴：VLA相當于機器人的「義務教育」

2025-06-09 21:33:20　來源: RoboX

北京舉報

分享至

在近日的北京智源大會上，北京大學助理教授、北京銀河通用機器人創始人兼CTO-王鶴，在備受關注的「具身智能與人形機器人」論壇上發表了演講，詳細介紹了VLA對于機器人智能發展的作用，以及銀河通用目前所做的工作。

RoboX對其演講內容進行了整理提煉，供大家參考。

簡述VLA

通用機器人的本質，是通過具身智能驅動高自由度的仿人本體。它不能只做某一件具體的事情，而是要服務千行百業，千家萬戶。

面對這樣的目標，王鶴認為，VLA（Vision-Language-Action Model）的應用是一個重要轉折點。

他介紹稱，VLA的輸入是人類的自然語言指令，這也是實現通用的一個關鍵點，比過去的復雜指令更加通用。

另一個重要的模態是視覺：視覺占到了人類日常信息輸入量的80%以上。所以要想實現通用機器人，先納入視覺模態是非常重要的。

模型的輸出是Action。在谷歌的RT-2框架中，模型直接生成Everyday Robot末端執行器的瞬時三維平動和三維旋轉。該動作指令可通過逆運動學（IK）求解器轉換為關節空間的目標位姿，最終由PID/PD控制器驅動執行機構完成運動控制。

王鶴表示，如果類比人體的運動控制及腦部系統，VLA用于實時生成軌跡，控制則交由機械臂，做IK后再基于positional（位置信息）執行。所以VLA不是「小腦」，更多的是「大腦」。

今天的VLA強調快速的閉環反饋，它的頻率從剛開始的3赫茲，到現在最快可達50赫茲甚至更高的反饋頻率，這就是大腦中的快系統。而一些邏輯推理和長程規劃的東西，它會思考得更慢。

為何不能押寶真實數據？

目前，國際上訓練VLA最主流的方式，是通過真機采集大量的遙操作數據，例如特斯拉的遙操工廠、斯坦福大學的ALOHA等等。

“現在市場或政府都在討論要不要建大型的遙操場，到底要建多少才夠。我們可以先看一下自動駕駛使用的‘人類的遙操數據’——既然車就是機器人，那方向盤就是遙操的主臂，人就是遙操員。”

王鶴表示，如今的頭部車企，會有約百萬輛級別的車每天在路上跑。按照15-30秒是一個clip的標準，日回流量為上億clips；而目前具身智能最大的數據集約為100萬-200萬clips的數據集。

車的自由度只有兩個：方向盤+油門剎車。而人形機器人的一條手臂就有六七個自由度，一只靈巧手有20個自由度，全身加起來有接近百個自由度。

如今的頭部人形機器人廠商，包括銀河通用，在真機數據采集這件事上，與汽車百萬臺的數量中間存在巨大差距，這就是為什么不能夠完全押寶真實數據。

“如果想押寶真實數據，就得先把人形機器人量產到百萬千萬臺，然后再讓百萬千萬人去做數據采集。這一點會讓人形機器人或者VLA的發展陷入長期的無法落地的狀態。”

如何訓練端到端VLA？

王鶴指出，在此背景下，最主要的學術觀點就是用合成仿真數據解決難題——銀河通用正在從機器人與物體間的交互，以及靈巧手抓取標簽和軌跡中，研究視覺層面仿真和現實之間的差異（Sim2Real Gap），并且在仿真器中通過大量的強化學習，自主探索靈巧手抓取的方式。

今年，銀河通用構建了一個完全用合成數據訓練的具身端到端VLA大模型。

王鶴稱，它背后是數10億級別的機械臂抓取的軌跡幀，每一幀都有VLA label。并且，這些數據覆蓋了桌面上可能出現的各種物體及相關信息：包括名字、材質、形狀、堆放方式、光照背景，桌子顏色紋理，以及其他變量等。

與DeepSeek千億萬億級別的參數量不同，銀河通用的GraspVLA模型，是一個幾十億參數的端到端快系統。

該模型的訓練特點，是在輸出時用到了「具身思維鏈」：“比如‘拿起盒子’的動作，我們先輸出一個2D的Bounding Box（邊界框），再用該輸出去進一步思考如何做6D Grasping Pose。這兩個輸出本質上都是Auto-Regressive（自回歸模型）中的離散Token，基于它們，可以用Flow Matching的Action Expert，去輸出七自由度的Delta Action。就和Google RT-2一樣，Delta Action可實現瞬時平動，瞬時轉動和瞬時夾爪的閉合。”

王鶴表示，GraspVLA是第一次將2D Bounding Box、6D Grasping Pose引入作為思維鏈（CoT），最終輸出Delta Action的。

數據價值與測試效果

GraspVLA首先采用的就是合成數據，由于這些數據將物體的2D Bounding Box標簽、6D Grasping Pose的抓取標簽，動作軌跡標簽等融在一起合成，從而可以保證其一致性。

但是，合成數據畢竟不能囊括物理世界的一切信息，所以銀河通用也在使用互聯網的圖文視頻數據。這些數據也被加以注釋和描述，約有一億數據也做了Bounding Box的注釋，這些數據會與合成數據進行混合訓練。

“互聯網的很多數據沒有Action標簽，只有Bounding Box標簽，所以我們的模型就只訓練到第一步Bounding Box，并不輸出CoT和Action。經過這樣的混合訓練，我們可將互聯網上所有的感知、視覺和語義全部吸納進來。”

王鶴指出，經過訓練，銀河通用的VLA端到端模型產生了非常強的零樣本泛化能力——經過與π0（PI發布的具身智能大模型）對比，在全新的環境中，π0需要在指定的測試環境中進行一定的數據微調才能工作，而GraspVLA則完全不需要微調，成功率還比前者更高。

“π0只用到了100萬到幾百萬規模的數據集，而且還是一個‘很臟’的數據集，包括一些跨本體、多形態的機械臂、人形、輪式混在一起。我們則是單一機械臂的大規模高質量物理仿真數據集，對于光照背景、物體位置、平面高度、開放詞匯類別、閉環、魯棒性，都有充分的零樣本的泛化性。”

王鶴舉了一個「抓取玩具鴨」的案例，輸入的語言指令就是「抓一個鴨子」，同時隨機采取了各種干擾方式，夾爪還是成功夾起了目標。他認為，這足以證明GraspVLA不是一個開環的模型。

對于該模型的架構和數據，銀河通用也進行了機制消融實驗。

“π0的模型只用仿真數據，因此它直接輸出Action,成功率沒有想象的那么高，在真實世界只有20%。而我們的仿真數據用到了2D Bounding Box、6D Grasping Pose的全部標簽，成功率在真實世界達到了93%。”

王鶴還表示，如果和π0.5這種多任務平行訓練的模式相比，采用CoT的VLA成功率高了20%以上。

“上述成果都是基于全合成數據。如果你給我真實世界的動作數據，只會讓我更強。”

在「零樣本泛化」層面，他舉了個例子——在針對某品牌礦泉水進行訓練時，貨架上一排擺了4瓶，一共5排；而測試時變成一排3瓶，一共4排，位置大小、高度、顏色，蓋子的直徑全變了。

“如果只是簡單記憶，肯定是會抓錯的，而我們現在能夠零樣本的泛化在新的飲品上。這就意味著，如果需要進廠或進店培訓，可以在一類樣品中只培訓一個，它就自動在同類物體之間泛化，這樣的VLA才能成為老百姓或是工廠超市用得起的技術。”

VLA是「義務教育階段」

王鶴認為，這種采用合成數據的具身端到端VLA訓練新范式，相當于人類的義務教育——它能將一項技能在十億百億規模的數據中進行充分學習，在徹底學會以后，就可以真實世界用很少量的數據進行簡單培訓，這相當于職業教育，讓機器人能夠舉一反三地執行真實場景的任務。

他介紹稱，在「貨架取物」的任務中，過去是基于視覺，對抓取Pose進行估計，再進行軌跡執行。這需要把商品放得稀疏一些，因為軌跡規劃必須要避障。

而在銀河通用的實際操作中，貨架上的商品種類繁多，形態各異，從瓶裝水到真空包裝的鹵蛋都有，而且燈光、展區、物品位置都和測試布置完全不一樣。“這一看就是閉環的模型。”他說道。

靈巧手+VLA的效果

除了展示的二指夾爪，銀河通用也對靈巧手進行了長時間測試。

“今年我們用自研的合成管線，第一次將33種人類抓取模式全部覆蓋：使用剪刀的手勢、持針抓的手勢等等，這些數據全都能合成。“

王鶴說的這套基于數學優化和物理仿真的全鏈路合成管線，能夠GPU并行地產生大量的靈巧手抓取數據，覆蓋上千萬個不同的物體的抓取。而且還不僅限于抓取，還有各種各樣的操作。

例如疊衣服的任務，從帽衫、跨欄、背心、長袖、短袖、無袖、長褲、短褲，各種紋理的衣物，都能夠大規模合成數據，從而進行非常長程的示范學習。

從王鶴演示的視頻來看，靈巧手在疊衣服過程中，即便面對種種干擾也還是繼續完成了任務。

另外，其合成數據還覆蓋了自然語言視覺、自然語言導航、尋物，跟隨人等等。其中，在復雜環境中，聽從復雜指令跟隨人的示范非常有趣：

“在從來沒見過的場景里，沒有SLAM，沒有定位建圖，機器人能在陌生環境中服從一個非常長的指令，例如Move to the man on the right side，then follow the man until you see a sofa。”

在示范視頻中，可以看到收到該指令的機器狗，跟隨一個人直到沙發邊，然后便停止跟隨。另一個案例中，即便人都在拐角處走出視野了，機器狗還能繼續轉彎跟隨，而且在商場的復雜環境中也沒有失誤。

“這就是端到端方案的效果。頭部車廠是單天回流1億條clips，可是總不能找100萬人去操作機器狗，所以這其中全合成數據。”

已開始常態化運行

目前，這些VLA端到端模型的技術，已經在零售、接待、康養和工業領域中逐步落地。

例如在24小時藥店的貨架區和柜子存儲區，銀河通用已經部署了人形機器人進行取貨工作，這樣的店已經常態化運行7家。

關于「全人形」的工作

全人形機器人無疑是更難的，而銀河通用也已經在全人形上開展工作。

“現在我們基于強化學習端到端全身控制的遙操，不僅能蹲，還可以向前前傾，能抓握地面上的東西。我們也在各種各樣的環境中去做全身遙操，并且全時維持身體的平穩。”

這就是銀河通用聯合清華大學弋力助理教授團隊發布的OpenWBT，這是一款全開源、多機型、跨虛實人形機器人全身遙操作系統。

王鶴介紹稱，該方法將原子技能進行編碼、解碼，再把中間串聯的連接，通過強化學習構成技能組合。

“大家只需要大家用VR頭顯、手柄，筆記本就可以輕松搭建。它既能在真實世界里遙操，又能在仿真世界里遙操，還可以跨機型。”

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.