在近日的北京智源大會上,北京大學助理教授、北京銀河通用機器人創始人兼CTO-王鶴,在備受關注的「具身智能與人形機器人」論壇上發表了演講,詳細介紹了VLA對于機器人智能發展的作用,以及銀河通用目前所做的工作。
RoboX對其演講內容進行了整理提煉,供大家參考。
![]()
簡述VLA
通用機器人的本質,是通過具身智能驅動高自由度的仿人本體。它不能只做某一件具體的事情,而是要服務千行百業,千家萬戶。
面對這樣的目標,王鶴認為,VLA(Vision-Language-Action Model)的應用是一個重要轉折點。
他介紹稱,VLA的輸入是人類的自然語言指令,這也是實現通用的一個關鍵點,比過去的復雜指令更加通用。
另一個重要的模態是視覺:視覺占到了人類日常信息輸入量的80%以上。所以要想實現通用機器人,先納入視覺模態是非常重要的。
模型的輸出是Action。在谷歌的RT-2框架中,模型直接生成Everyday Robot末端執行器的瞬時三維平動和三維旋轉。該動作指令可通過逆運動學(IK)求解器轉換為關節空間的目標位姿,最終由PID/PD控制器驅動執行機構完成運動控制。
![]()
王鶴表示,如果類比人體的運動控制及腦部系統,VLA用于實時生成軌跡,控制則交由機械臂,做IK后再基于positional(位置信息)執行。所以VLA不是「小腦」,更多的是「大腦」。
今天的VLA強調快速的閉環反饋,它的頻率從剛開始的3赫茲,到現在最快可達50赫茲甚至更高的反饋頻率,這就是大腦中的快系統。而一些邏輯推理和長程規劃的東西,它會思考得更慢。
為何不能押寶真實數據?
目前,國際上訓練VLA最主流的方式,是通過真機采集大量的遙操作數據,例如特斯拉的遙操工廠、斯坦福大學的ALOHA等等。
“現在市場或政府都在討論要不要建大型的遙操場,到底要建多少才夠。我們可以先看一下自動駕駛使用的‘人類的遙操數據’——既然車就是機器人,那方向盤就是遙操的主臂,人就是遙操員。”
王鶴表示,如今的頭部車企,會有約百萬輛級別的車每天在路上跑。按照15-30秒是一個clip的標準,日回流量為上億clips;而目前具身智能最大的數據集約為100萬-200萬clips的數據集。
![]()
車的自由度只有兩個:方向盤+油門剎車。而人形機器人的一條手臂就有六七個自由度,一只靈巧手有20個自由度,全身加起來有接近百個自由度。
如今的頭部人形機器人廠商,包括銀河通用,在真機數據采集這件事上,與汽車百萬臺的數量中間存在巨大差距,這就是為什么不能夠完全押寶真實數據。
“如果想押寶真實數據,就得先把人形機器人量產到百萬千萬臺,然后再讓百萬千萬人去做數據采集。這一點會讓人形機器人或者VLA的發展陷入長期的無法落地的狀態。”
如何訓練端到端VLA?
王鶴指出,在此背景下,最主要的學術觀點就是用合成仿真數據解決難題——銀河通用正在從機器人與物體間的交互,以及靈巧手抓取標簽和軌跡中,研究視覺層面仿真和現實之間的差異(Sim2Real Gap),并且在仿真器中通過大量的強化學習,自主探索靈巧手抓取的方式。
![]()
今年,銀河通用構建了一個完全用合成數據訓練的具身端到端VLA大模型。
王鶴稱,它背后是數10億級別的機械臂抓取的軌跡幀,每一幀都有VLA label。并且,這些數據覆蓋了桌面上可能出現的各種物體及相關信息:包括名字、材質、形狀、堆放方式、光照背景,桌子顏色紋理,以及其他變量等。
與DeepSeek千億萬億級別的參數量不同,銀河通用的GraspVLA模型,是一個幾十億參數的端到端快系統。
該模型的訓練特點,是在輸出時用到了「具身思維鏈」:“比如‘拿起盒子’的動作,我們先輸出一個2D的Bounding Box(邊界框),再用該輸出去進一步思考如何做6D Grasping Pose。這兩個輸出本質上都是Auto-Regressive(自回歸模型)中的離散Token,基于它們,可以用Flow Matching的Action Expert,去輸出七自由度的Delta Action。就和Google RT-2一樣,Delta Action可實現瞬時平動,瞬時轉動和瞬時夾爪的閉合。”
王鶴表示,GraspVLA是第一次將2D Bounding Box、6D Grasping Pose引入作為思維鏈(CoT),最終輸出Delta Action的。
![]()
數據價值與測試效果
GraspVLA首先采用的就是合成數據,由于這些數據將物體的2D Bounding Box標簽、6D Grasping Pose的抓取標簽,動作軌跡標簽等融在一起合成,從而可以保證其一致性。
但是,合成數據畢竟不能囊括物理世界的一切信息,所以銀河通用也在使用互聯網的圖文視頻數據。這些數據也被加以注釋和描述,約有一億數據也做了Bounding Box的注釋,這些數據會與合成數據進行混合訓練。
“互聯網的很多數據沒有Action標簽,只有Bounding Box標簽,所以我們的模型就只訓練到第一步Bounding Box,并不輸出CoT和Action。經過這樣的混合訓練,我們可將互聯網上所有的感知、視覺和語義全部吸納進來。”
![]()
王鶴指出,經過訓練,銀河通用的VLA端到端模型產生了非常強的零樣本泛化能力——經過與π0(PI發布的具身智能大模型)對比,在全新的環境中,π0需要在指定的測試環境中進行一定的數據微調才能工作,而GraspVLA則完全不需要微調,成功率還比前者更高。
![]()
“π0只用到了100萬到幾百萬規模的數據集,而且還是一個‘很臟’的數據集,包括一些跨本體、多形態的機械臂、人形、輪式混在一起。我們則是單一機械臂的大規模高質量物理仿真數據集,對于光照背景、物體位置、平面高度、開放詞匯類別、閉環、魯棒性,都有充分的零樣本的泛化性。”
王鶴舉了一個「抓取玩具鴨」的案例,輸入的語言指令就是「抓一個鴨子」,同時隨機采取了各種干擾方式,夾爪還是成功夾起了目標。他認為,這足以證明GraspVLA不是一個開環的模型。
![]()
對于該模型的架構和數據,銀河通用也進行了機制消融實驗。
“π0的模型只用仿真數據,因此它直接輸出Action,成功率沒有想象的那么高,在真實世界只有20%。而我們的仿真數據用到了2D Bounding Box、6D Grasping Pose的全部標簽,成功率在真實世界達到了93%。”
王鶴還表示,如果和π0.5這種多任務平行訓練的模式相比,采用CoT的VLA成功率高了20%以上。
“上述成果都是基于全合成數據。如果你給我真實世界的動作數據,只會讓我更強。”
在「零樣本泛化」層面,他舉了個例子——在針對某品牌礦泉水進行訓練時,貨架上一排擺了4瓶,一共5排;而測試時變成一排3瓶,一共4排,位置大小、高度、顏色,蓋子的直徑全變了。
![]()
“如果只是簡單記憶,肯定是會抓錯的,而我們現在能夠零樣本的泛化在新的飲品上。這就意味著,如果需要進廠或進店培訓,可以在一類樣品中只培訓一個,它就自動在同類物體之間泛化,這樣的VLA才能成為老百姓或是工廠超市用得起的技術。”
VLA是「義務教育階段」
王鶴認為,這種采用合成數據的具身端到端VLA訓練新范式,相當于人類的義務教育——它能將一項技能在十億百億規模的數據中進行充分學習,在徹底學會以后,就可以真實世界用很少量的數據進行簡單培訓,這相當于職業教育,讓機器人能夠舉一反三地執行真實場景的任務。
![]()
他介紹稱,在「貨架取物」的任務中,過去是基于視覺,對抓取Pose進行估計,再進行軌跡執行。這需要把商品放得稀疏一些,因為軌跡規劃必須要避障。
![]()
而在銀河通用的實際操作中,貨架上的商品種類繁多,形態各異,從瓶裝水到真空包裝的鹵蛋都有,而且燈光、展區、物品位置都和測試布置完全不一樣。“這一看就是閉環的模型。”他說道。
靈巧手+VLA的效果
除了展示的二指夾爪,銀河通用也對靈巧手進行了長時間測試。
“今年我們用自研的合成管線,第一次將33種人類抓取模式全部覆蓋:使用剪刀的手勢、持針抓的手勢等等,這些數據全都能合成。“
王鶴說的這套基于數學優化和物理仿真的全鏈路合成管線,能夠GPU并行地產生大量的靈巧手抓取數據,覆蓋上千萬個不同的物體的抓取。而且還不僅限于抓取,還有各種各樣的操作。
![]()
例如疊衣服的任務,從帽衫、跨欄、背心、長袖、短袖、無袖、長褲、短褲,各種紋理的衣物,都能夠大規模合成數據,從而進行非常長程的示范學習。
從王鶴演示的視頻來看,靈巧手在疊衣服過程中,即便面對種種干擾也還是繼續完成了任務。
另外,其合成數據還覆蓋了自然語言視覺、自然語言導航、尋物,跟隨人等等。其中,在復雜環境中,聽從復雜指令跟隨人的示范非常有趣:
“在從來沒見過的場景里,沒有SLAM,沒有定位建圖,機器人能在陌生環境中服從一個非常長的指令,例如Move to the man on the right side,then follow the man until you see a sofa。”
在示范視頻中,可以看到收到該指令的機器狗,跟隨一個人直到沙發邊,然后便停止跟隨。另一個案例中,即便人都在拐角處走出視野了,機器狗還能繼續轉彎跟隨,而且在商場的復雜環境中也沒有失誤。
![]()
“這就是端到端方案的效果。頭部車廠是單天回流1億條clips,可是總不能找100萬人去操作機器狗,所以這其中全合成數據。”
已開始常態化運行
目前,這些VLA端到端模型的技術,已經在零售、接待、康養和工業領域中逐步落地。
例如在24小時藥店的貨架區和柜子存儲區,銀河通用已經部署了人形機器人進行取貨工作,這樣的店已經常態化運行7家。
關于「全人形」的工作
全人形機器人無疑是更難的,而銀河通用也已經在全人形上開展工作。
“現在我們基于強化學習端到端全身控制的遙操,不僅能蹲,還可以向前前傾,能抓握地面上的東西。我們也在各種各樣的環境中去做全身遙操,并且全時維持身體的平穩。”
![]()
這就是銀河通用聯合清華大學弋力助理教授團隊發布的OpenWBT,這是一款全開源、多機型、跨虛實人形機器人全身遙操作系統。
王鶴介紹稱,該方法將原子技能進行編碼、解碼,再把中間串聯的連接,通過強化學習構成技能組合。
“大家只需要大家用VR頭顯、手柄,筆記本就可以輕松搭建。它既能在真實世界里遙操,又能在仿真世界里遙操,還可以跨機型。”
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.