337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

谷歌推出機器人模型Gemini Robotics,附送一手小道消息

0
分享至



原創:親愛的數據



確實有些一手消息,

可惜不是很多。

機器人領域,谷歌來好消息了,

谷歌DeepMind團隊在把大模型的能力往機器人行動上用,用得很好,名字叫做Gemini Robotics。

一看名字就知道基礎模型肯定是Gemini 模型了。

GeminiRobotics官網上客觀地說,

當然也是冷冰冰地說:

“模型能使各種機器人執行,

比以往更廣泛實際任務。”



理解這句話要兵分兩路,

一路是以前在工廠參觀,

看到流水線上機械臂就挺震撼了,

機械臂在固定工位上做規定動作,

穩定性和精確性符合工業級別的標準。

盡管各式各樣的機器人均表現出在柔性上大幅超過機械臂,

當然也包括摔個狗吃屎,

站也站不穩等“柔性動作”。

但是,機器人讓機械臂大量下崗的“換代時刻”沒有到來,盡管機器人在抖音快手小視頻上都挺能,

但是,現實中動作并非如此絲滑自如,

任何可以驚呼“牛”的機器人技術,

距離高產售賣,尚有距離。

當下的機器人似乎進入了這樣一種敘事:

機器人能給完成簡單任務,

尚未進入一大堆細節指標,精度,比拼的階段,

還在描述,一件簡單的事,機器人能不能干,

你家機器人能干,我家的也能干,

谷歌Gemini Robotics顯然讓能力又上了一個臺階。

不過,現在還不是機器人的本事非常之高,

高到甚至可以肉眼高精度競賽的時候。

還是那句話,小步前進中,偶爾步子大。

前進都值得鼓勵,太小就算了;

另一路是,在我看來,

技術浪潮往往是成對或者成三出現的,

比如上一波的移動互聯網,超級APP,云計算,

不用證明哪種技術更好,

事實證明,不僅同樣重要,而且互為榫卯。

這一波技術浪潮,

人工智能已然占據C位,

而在我看來,人工智能與機器人技術,

也應該是“成對出現”。

機器人可以視為大模型的“超級APP”,

短期看來,機器人技術比人工智能大模型技術發展,稍慢幾拍。

放在歷史的長河里,它們肯定是一個時期的產物。

就好比,誰也不會使用一個沒有APP的智能手機。

畢竟,協同起來,有利雙方。

你甚至可以簡單地理解,

模型需要“身體”,機器人需要“腦子”。

不過真實物理世界充滿了未知和驚喜,

征服難度可想而知,

這兩路講完,后面就好聊了。



大模型的道路上,

一直是語言模型強勢,

多模態模型屈居,

為此我寫了一篇討論文章,幫多模態說了些好話:

AI大模型技術路線之爭:你可以信仰多模態,也可以無視多模態

說白了,有人就是認為大語言模型更有用,

發展大語言模型能讓模型更聰明。

不過,當我們把語境放在機器人里面,

多模態大模型則更受歡迎,

因為大語言模型僅擅長輸出文字,

“顯得”能力不全,

好比說,就算你“手快”,

可惜你“眼疾”,這樣也不行。

說白了,誰也不想要一個看也看不見,還啞巴,

又沒有行動能力的“機器人”。

所以,多模態對與機器人領域更實用。

谷歌的Gemini模型堅定走多模態技術路線,

文本、圖片都能輸入給大模型,

于是,就有了視覺語言大模型

(VL模型,或者是圖文模型),

2023年年為了觀察圖文大模型的發展,

猛寫了20000字,

是這篇:2023年終盤點:圖文大模型編年簡史

看上去,我是在用寫稿克服要被AI干掉的焦慮。

現在完全不焦慮了,

我只想少熬夜,身體健康,活得久些,

科技發展都這么加速了,要有機會享受到。

話說回來,

給機器人做底座模型的是多模態模型夠嗎?

也就是說,機器人看懂文字看懂圖。

當然,這還不夠。

機器人的特長是行動,也就是做出動作,

動作的英文就是Action,

無論是拿起,放下,站立還是蹲下,

你得做出動作,嘴上說的不算。

好消息是,現在的基礎大模型都很聰明了,

讓模型告訴機器人,下一個動作是啥。

模型有學習能力,機器人也有了學習能力,

于是,我們有了目標,就是給機器人一個“發令官”

這個發令官肯定得用視覺-語言-動作(VLA)模型來實現。理解了這點之后,你會發現Gemini Robotics就是一個VLA模型,這也是目前所有機器人技術公認的主流路線。

大家都認同的VLA模型的突破點在于:

用統一模型將視覺(環境),

語言與動作整合為單一模型,

直接建“觀察-理解-行動”的端到端閉環。

比如,機器人看見障礙物就拐彎,

這和自動駕駛的原理一樣,

不過機器人要求更靈活。

說白了,VLA模型就是一種眼觀六路,

耳聽八方的模型,

不過,將這種模型用在機器人身上,

各個技術團隊就各有高妙了。

好消息是,既然有一個學習能力的腦子了,

再讓機器人做動作,

它就可以在物理世界里找到一點自尊了。

讓我們再回到谷歌官網上的原話:

“機器人必須展示具身推理的能力,

即理解我們周圍世界并做出反應的人類能力,

并安全地采取行動來完成工作。”

原理是這樣,誰實現出來就牛氣了,

谷歌DeepMind團隊送上驚喜,Gemini Robotics。

真怕哪天哪個機器人搞出點驚嚇。

他們是如何搞出來的呢?

簡單說,設計了兩個大組件干這事。





先說,Gemini Robotics-ER是基礎模型,

(以下有時簡稱ER)

也是一個專門針對機器人的VL模型,

即視覺語言模型。

不過ER沒有自己上陣,

派出了ER模型的蒸餾版,

成為Gemini Robotics的兩大組件之一。

細說就是,

把模型軟件棧理解為垂直的,

越基礎的在越下面,

Gemini 2.0是最基礎最底座的模型。

在此之上,先發展出Gemini Robotics-ER,

這時候雖然ER還很基礎,

但是有了多模態推理能力,

如3D空間理解、物體關系分析,

最終都歸結為一種能力,推理能力。

怎么理解呢?

ER模型是為機器人推理能力建立的一個基礎模型,我打個比方,ER模型能先把任務分解了,機器人先站起來,然后拿到桌子上的衣服,再把衣服疊了,相當于解題思路,或者“思維鏈”,但是ER就在這個階段了,它可不管機器人的行動,而且是一點也不管。

就是說,ER模型本身不直接生成機器人動作。

要我說,ER模型工作性質屬于“腦補”,

是一個腦補型工作者,

就是“我光想想這事該怎么做”,

最多再把想法告訴別人。



這個設計很特別,當然也很合理,

于是,這個機器人對物理世界,

有了一個大概的理解。

然而,既然想做機器人,光有理解力不夠,

得執行,得行動。

于是,這時候,

增加了一個搞定機器人動作的重要組件:

action decoder。

它能將模型輸出結果轉化為機器人動作,

如機械臂軌跡、抓取力度。

目的是讓模型有直接輸出“行動”。

這兩部分組件是怎么結合?

這真是一個好問題,

也是人家的“硬核技術含量”之所在。

我把這個問題放在文末。

繼續講GeminiRobotics和ER模型的關系。

GeminiRobotics是在ER模型(蒸餾)的基礎之上,基于其輸出,直接生成一串具體動作,學術說法就是,具體動作的時間序列,如機械臂的角度調整、手指的抓取力度,完成任務。

這里當然是用的Diffusion Policy。

我寫了Diffusion Policy的解讀文章,但是還沒有寫完,GeminiRobotics就出來了,

真的太卷了,科技博主的命也是命。

只能發了這篇再發Diffusion Policy。

再聊回來,

比如:ER提供“思路”,

GeminiRobotics控制機械臂以最優路徑移動并執行抓取。

強調一下,GeminiRobotics的硬核能力就是,

可以做到端到端的動作生成,

比如,抓取葡萄、折疊紙、操作工具,

看得出來,它們支持好幾個步驟才能完成的靈巧任務,如,折紙直到折出個小動物。

還有個有趣的,我們已知,

Gemini Robotics這個模型有兩個部分,

一部分在云端(主干網絡),

一部分在機器人身上的芯片上,

Action decoder。

這種設計,既符合模型設計思路,

也符合硬件芯片的條件。

因為在大型視覺語言模型(如Gemini Robotics-ER)中,推理速度通常較慢且需要專用硬件,很棘手,很現實。無法在機器人本體上運行推理,就可能無法滿足實時控制需求。體現在硬件上就是,云上模型(主干網絡)提供“智力”,解碼器適配硬件特性。這也成為GeminiRobotics的特色之一。



技術報告里面也提到,

可以根據api生成代碼的形式,

生成控制機器人運動策略。

另外,我們的故事既然從VLA開始,

那也在VLA結束,

有了GeminiRobotics,

機器人也終于有了自己的知名VLA模型。

有一位“親愛的數據”讀者,

和DeepMind的GeminiRobotics技術組成員,

聊了聊,

于是,我們有了一些一手信息,

這次的技術發布大概經歷兩年時間,

團隊說有些資料還在撰寫,后面會更新技術報告。

他還問到一個技術細節:

“云端和本地端之間的信息是怎么交互的?

是按照latent code的形式嗎?”

得到的他們團隊成員的答復是:

VLM首先單獨微調(finetune),

再凍結(freeze) ,

單獨訓練action decoder部分,

有計算方面的優化,

具體有些技術細節可能要稍后再發布。

這個答復是非正式的,非官方的,

純屬技術交流,請勿濫用。

也就是說,他們提到的訓練方法是,

先把其中的主干網絡凍結(參數固定),

再訓練第二個重要組件(action decoder),

另外,云端和本地端之間的信息是怎么交互的?

是按照latent code的形式嗎?

這個問題就是前面提到的:

“這兩部分組件是怎么結合?”

那位讀者的理解是,

ER模型把所有的信息都壓縮成一個latent code,

傳遞給action decoder,

然后action decoder根據這些信息,

再用diffusion去生成動作。

我也有一個想不明白的點,

向谷歌機器人團隊舉手示意,

如果你也有,歡迎補充在評論區:

我的問題是,這種專為機器人設計的VLA大模型,

推理過程是隱式,還是顯式。

能不能做到顯式的推理?

我還挺想知道。

(完)





聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
露餡了。這,才是特朗普不惜一切,也要找到美軍墜機飛行員的原因

露餡了。這,才是特朗普不惜一切,也要找到美軍墜機飛行員的原因

Ck的蜜糖
2026-04-04 19:23:53
在上海月薪7000能難到啥程度?網友吐槽:上海是給高學歷人群玩的

在上海月薪7000能難到啥程度?網友吐槽:上海是給高學歷人群玩的

番外行
2026-04-05 00:10:05
大陸很多人不喜歡蔣萬安!不是因為他姓蔣,而是因為他太“精明”

大陸很多人不喜歡蔣萬安!不是因為他姓蔣,而是因為他太“精明”

混沌錄
2026-04-03 12:36:16
伊朗發動“真實承諾-4”第95輪行動!美軍“海馬斯”火箭炮系統、“愛國者”導彈系統等均被列為打擊目標遭到摧毀

伊朗發動“真實承諾-4”第95輪行動!美軍“海馬斯”火箭炮系統、“愛國者”導彈系統等均被列為打擊目標遭到摧毀

大象新聞
2026-04-04 22:52:06
皇馬主帥輪換搞砸了,輸給保級隊,姆巴佩災難表現:6次射門0進球

皇馬主帥輪換搞砸了,輸給保級隊,姆巴佩災難表現:6次射門0進球

足球狗說
2026-04-05 00:27:08
深夜突發!特朗普,重大警告!猛烈拋售潮來襲,高盛最新發聲

深夜突發!特朗普,重大警告!猛烈拋售潮來襲,高盛最新發聲

證券時報
2026-04-04 23:59:04
亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

亞洲第一賭場新東泰覆滅記:性交易泛濫,富商瘋狂砸錢,揮金如土

談史論天地
2026-04-04 17:30:03
跨越一萬公里的清算:48小時逐客令,阿根廷一刀切斷伊朗南美命脈

跨越一萬公里的清算:48小時逐客令,阿根廷一刀切斷伊朗南美命脈

環球格局觀
2026-04-04 20:52:35
這是張雪峰創業初期和女兒張姩菡的舊合照

這是張雪峰創業初期和女兒張姩菡的舊合照

歲月有情1314
2026-04-04 10:26:01
黃繼光遺體雙臂僵硬,女衛生員焐三天,終留終身遺憾

黃繼光遺體雙臂僵硬,女衛生員焐三天,終留終身遺憾

嘮叨說歷史
2026-03-27 14:47:46
美國提議48小時臨時停火,伊朗在戰場上用重火力回應!伊方:以色列上空已被伊朗導彈主宰,“鐵穹”神話終結;伊朗無人機大規模打擊本古里安機場

美國提議48小時臨時停火,伊朗在戰場上用重火力回應!伊方:以色列上空已被伊朗導彈主宰,“鐵穹”神話終結;伊朗無人機大規模打擊本古里安機場

每日經濟新聞
2026-04-04 23:07:45
260Mbps高清無碼!美國繞月將進行4K激光直播

260Mbps高清無碼!美國繞月將進行4K激光直播

快科技
2026-04-03 14:31:38
天龍三號運載火箭發射失利

天龍三號運載火箭發射失利

財聯社
2026-04-03 13:05:08
中國四大長壽食物 山藥排第四 第一名天天見卻少有人愛吃

中國四大長壽食物 山藥排第四 第一名天天見卻少有人愛吃

荷蘭豆愛健康
2026-04-04 18:05:42
德媒:德國太天真了,我們最大的幻想,就是信了中國是個現代強國

德媒:德國太天真了,我們最大的幻想,就是信了中國是個現代強國

古史青云啊
2026-04-04 11:36:37
西甲前瞻|馬競1-1巴薩:復仇鞏固西甲還是留力歐冠,巴薩面臨抉擇

西甲前瞻|馬競1-1巴薩:復仇鞏固西甲還是留力歐冠,巴薩面臨抉擇

體育世界
2026-04-04 16:11:29
賺20.97億、分20.96億,蘇泊爾淪為法國股東“提款機”?

賺20.97億、分20.96億,蘇泊爾淪為法國股東“提款機”?

財觀潮頭
2026-04-03 20:13:59
48小時紅線!中國提前全球通告:敢給戰爭開綠燈,直接一票否決

48小時紅線!中國提前全球通告:敢給戰爭開綠燈,直接一票否決

策前論
2026-04-04 17:12:15
三觀不正!王曼昱淘汰橋本,日本女隊全出局,評論區卻是滿屏嘲諷

三觀不正!王曼昱淘汰橋本,日本女隊全出局,評論區卻是滿屏嘲諷

野渡舟山人
2026-04-05 00:34:30
白人女性與黑人女性的體味差異,網友真實分享引發熱議

白人女性與黑人女性的體味差異,網友真實分享引發熱議

特約前排觀眾
2025-12-22 00:20:06
2026-04-05 02:12:49
親愛的數據 incentive-icons
親愛的數據
《我看見了風暴:人工智能基建革命》一書作者
693文章數 219913關注度
往期回顧 全部

科技要聞

內存一年漲四倍!國產手機廠商集體漲價

頭條要聞

伊朗發動第七輪導彈襲擊 耶路撒冷攔截導彈升空

頭條要聞

伊朗發動第七輪導彈襲擊 耶路撒冷攔截導彈升空

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

Q女士反擊,否認逼宋寧峰張婉婷離婚

財經要聞

中微董事長,給半導體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

本地
藝術
家居
數碼
公開課

本地新聞

跟著歌聲游安徽,聽古村回響

藝術要聞

你絕對不能錯過的夢幻性感攝影作品!

家居要聞

溫馨多元 愛的具象化

數碼要聞

今年新款AirPods Pro、Apple TV值得等嗎?升級方向曝光

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版