![]()
原創:親愛的數據
![]()
確實有些一手消息,
可惜不是很多。
機器人領域,谷歌來好消息了,
谷歌DeepMind團隊在把大模型的能力往機器人行動上用,用得很好,名字叫做Gemini Robotics。
一看名字就知道基礎模型肯定是Gemini 模型了。
GeminiRobotics官網上客觀地說,
當然也是冷冰冰地說:
“模型能使各種機器人執行,
比以往更廣泛實際任務。”
![]()
理解這句話要兵分兩路,
一路是以前在工廠參觀,
看到流水線上機械臂就挺震撼了,
機械臂在固定工位上做規定動作,
穩定性和精確性符合工業級別的標準。
盡管各式各樣的機器人均表現出在柔性上大幅超過機械臂,
當然也包括摔個狗吃屎,
站也站不穩等“柔性動作”。
但是,機器人讓機械臂大量下崗的“換代時刻”沒有到來,盡管機器人在抖音快手小視頻上都挺能,
但是,現實中動作并非如此絲滑自如,
任何可以驚呼“牛”的機器人技術,
距離高產售賣,尚有距離。
當下的機器人似乎進入了這樣一種敘事:
機器人能給完成簡單任務,
尚未進入一大堆細節指標,精度,比拼的階段,
還在描述,一件簡單的事,機器人能不能干,
你家機器人能干,我家的也能干,
谷歌Gemini Robotics顯然讓能力又上了一個臺階。
不過,現在還不是機器人的本事非常之高,
高到甚至可以肉眼高精度競賽的時候。
還是那句話,小步前進中,偶爾步子大。
前進都值得鼓勵,太小就算了;
另一路是,在我看來,
技術浪潮往往是成對或者成三出現的,
比如上一波的移動互聯網,超級APP,云計算,
不用證明哪種技術更好,
事實證明,不僅同樣重要,而且互為榫卯。
這一波技術浪潮,
人工智能已然占據C位,
而在我看來,人工智能與機器人技術,
也應該是“成對出現”。
機器人可以視為大模型的“超級APP”,
短期看來,機器人技術比人工智能大模型技術發展,稍慢幾拍。
放在歷史的長河里,它們肯定是一個時期的產物。
就好比,誰也不會使用一個沒有APP的智能手機。
畢竟,協同起來,有利雙方。
你甚至可以簡單地理解,
模型需要“身體”,機器人需要“腦子”。
不過真實物理世界充滿了未知和驚喜,
征服難度可想而知,
這兩路講完,后面就好聊了。
![]()
大模型的道路上,
一直是語言模型強勢,
多模態模型屈居,
為此我寫了一篇討論文章,幫多模態說了些好話:
AI大模型技術路線之爭:你可以信仰多模態,也可以無視多模態
說白了,有人就是認為大語言模型更有用,
發展大語言模型能讓模型更聰明。
不過,當我們把語境放在機器人里面,
多模態大模型則更受歡迎,
因為大語言模型僅擅長輸出文字,
“顯得”能力不全,
好比說,就算你“手快”,
可惜你“眼疾”,這樣也不行。
說白了,誰也不想要一個看也看不見,還啞巴,
又沒有行動能力的“機器人”。
所以,多模態對與機器人領域更實用。
谷歌的Gemini模型堅定走多模態技術路線,
文本、圖片都能輸入給大模型,
于是,就有了視覺語言大模型
(VL模型,或者是圖文模型),
2023年年為了觀察圖文大模型的發展,
猛寫了20000字,
是這篇:2023年終盤點:圖文大模型編年簡史
看上去,我是在用寫稿克服要被AI干掉的焦慮。
現在完全不焦慮了,
我只想少熬夜,身體健康,活得久些,
科技發展都這么加速了,要有機會享受到。
話說回來,
給機器人做底座模型的是多模態模型夠嗎?
也就是說,機器人看懂文字看懂圖。
當然,這還不夠。
機器人的特長是行動,也就是做出動作,
動作的英文就是Action,
無論是拿起,放下,站立還是蹲下,
你得做出動作,嘴上說的不算。
好消息是,現在的基礎大模型都很聰明了,
讓模型告訴機器人,下一個動作是啥。
模型有學習能力,機器人也有了學習能力,
于是,我們有了目標,就是給機器人一個“發令官”
這個發令官肯定得用視覺-語言-動作(VLA)模型來實現。理解了這點之后,你會發現Gemini Robotics就是一個VLA模型,這也是目前所有機器人技術公認的主流路線。
大家都認同的VLA模型的突破點在于:
用統一模型將視覺(環境),
語言與動作整合為單一模型,
直接建“觀察-理解-行動”的端到端閉環。
比如,機器人看見障礙物就拐彎,
這和自動駕駛的原理一樣,
不過機器人要求更靈活。
說白了,VLA模型就是一種眼觀六路,
耳聽八方的模型,
不過,將這種模型用在機器人身上,
各個技術團隊就各有高妙了。
好消息是,既然有一個學習能力的腦子了,
再讓機器人做動作,
它就可以在物理世界里找到一點自尊了。
讓我們再回到谷歌官網上的原話:
“機器人必須展示具身推理的能力,
即理解我們周圍世界并做出反應的人類能力,
并安全地采取行動來完成工作。”
原理是這樣,誰實現出來就牛氣了,
谷歌DeepMind團隊送上驚喜,Gemini Robotics。
真怕哪天哪個機器人搞出點驚嚇。
他們是如何搞出來的呢?
簡單說,設計了兩個大組件干這事。
![]()
![]()
先說,Gemini Robotics-ER是基礎模型,
(以下有時簡稱ER)
也是一個專門針對機器人的VL模型,
即視覺語言模型。
不過ER沒有自己上陣,
派出了ER模型的蒸餾版,
成為Gemini Robotics的兩大組件之一。
細說就是,
把模型軟件棧理解為垂直的,
越基礎的在越下面,
Gemini 2.0是最基礎最底座的模型。
在此之上,先發展出Gemini Robotics-ER,
這時候雖然ER還很基礎,
但是有了多模態推理能力,
如3D空間理解、物體關系分析,
最終都歸結為一種能力,推理能力。
怎么理解呢?
ER模型是為機器人推理能力建立的一個基礎模型,我打個比方,ER模型能先把任務分解了,機器人先站起來,然后拿到桌子上的衣服,再把衣服疊了,相當于解題思路,或者“思維鏈”,但是ER就在這個階段了,它可不管機器人的行動,而且是一點也不管。
就是說,ER模型本身不直接生成機器人動作。
要我說,ER模型工作性質屬于“腦補”,
是一個腦補型工作者,
就是“我光想想這事該怎么做”,
最多再把想法告訴別人。
![]()
這個設計很特別,當然也很合理,
于是,這個機器人對物理世界,
有了一個大概的理解。
然而,既然想做機器人,光有理解力不夠,
得執行,得行動。
于是,這時候,
增加了一個搞定機器人動作的重要組件:
action decoder。
它能將模型輸出結果轉化為機器人動作,
如機械臂軌跡、抓取力度。
目的是讓模型有直接輸出“行動”。
這兩部分組件是怎么結合?
這真是一個好問題,
也是人家的“硬核技術含量”之所在。
我把這個問題放在文末。
繼續講GeminiRobotics和ER模型的關系。
GeminiRobotics是在ER模型(蒸餾)的基礎之上,基于其輸出,直接生成一串具體動作,學術說法就是,具體動作的時間序列,如機械臂的角度調整、手指的抓取力度,完成任務。
這里當然是用的Diffusion Policy。
我寫了Diffusion Policy的解讀文章,但是還沒有寫完,GeminiRobotics就出來了,
真的太卷了,科技博主的命也是命。
只能發了這篇再發Diffusion Policy。
再聊回來,
比如:ER提供“思路”,
GeminiRobotics控制機械臂以最優路徑移動并執行抓取。
強調一下,GeminiRobotics的硬核能力就是,
可以做到端到端的動作生成,
比如,抓取葡萄、折疊紙、操作工具,
看得出來,它們支持好幾個步驟才能完成的靈巧任務,如,折紙直到折出個小動物。
還有個有趣的,我們已知,
Gemini Robotics這個模型有兩個部分,
一部分在云端(主干網絡),
一部分在機器人身上的芯片上,
Action decoder。
這種設計,既符合模型設計思路,
也符合硬件芯片的條件。
因為在大型視覺語言模型(如Gemini Robotics-ER)中,推理速度通常較慢且需要專用硬件,很棘手,很現實。無法在機器人本體上運行推理,就可能無法滿足實時控制需求。體現在硬件上就是,云上模型(主干網絡)提供“智力”,解碼器適配硬件特性。這也成為GeminiRobotics的特色之一。
![]()
技術報告里面也提到,
可以根據api生成代碼的形式,
生成控制機器人運動策略。
另外,我們的故事既然從VLA開始,
那也在VLA結束,
有了GeminiRobotics,
機器人也終于有了自己的知名VLA模型。
有一位“親愛的數據”讀者,
和DeepMind的GeminiRobotics技術組成員,
聊了聊,
于是,我們有了一些一手信息,
這次的技術發布大概經歷兩年時間,
團隊說有些資料還在撰寫,后面會更新技術報告。
他還問到一個技術細節:
“云端和本地端之間的信息是怎么交互的?
是按照latent code的形式嗎?”
得到的他們團隊成員的答復是:
“VLM首先單獨微調(finetune),
再凍結(freeze) ,
單獨訓練action decoder部分,
有計算方面的優化,
具體有些技術細節可能要稍后再發布。”
這個答復是非正式的,非官方的,
純屬技術交流,請勿濫用。
也就是說,他們提到的訓練方法是,
先把其中的主干網絡凍結(參數固定),
再訓練第二個重要組件(action decoder),
另外,云端和本地端之間的信息是怎么交互的?
是按照latent code的形式嗎?
這個問題就是前面提到的:
“這兩部分組件是怎么結合?”
那位讀者的理解是,
ER模型把所有的信息都壓縮成一個latent code,
傳遞給action decoder,
然后action decoder根據這些信息,
再用diffusion去生成動作。
我也有一個想不明白的點,
向谷歌機器人團隊舉手示意,
如果你也有,歡迎補充在評論區:
我的問題是,這種專為機器人設計的VLA大模型,
推理過程是隱式,還是顯式。
能不能做到顯式的推理?
我還挺想知道。
(完)
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.