網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請入駐

谷歌最強(qiáng)具身大腦發(fā)布！波士頓機(jī)器狗瞬間人模人樣

2026-04-17 15:09:27　來源: 量子位

北京舉報(bào)

分享至

henry 發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

剛剛，Google DeepMind發(fā)布了最新的機(jī)器人推理模型——

Gemini Robotics-ER 1.6

搭載它的波士頓動(dòng)力機(jī)器狗Spot，現(xiàn)在能走到工廠里的壓力表前，停下來，讀出數(shù)字。精確到刻度以下。

機(jī)械臂面對操作任務(wù)時(shí)，也能判斷什么時(shí)候開始，什么時(shí)候算完成。

說起來，這已經(jīng)是Gemini Robotics主打空間推理的第三代模型。

九年前谷歌把波士頓動(dòng)力賣掉，今年CES剛宣布重新合作，ER 1.6就是這次新開始的第一個(gè)正式成果。

掌門人哈薩比斯也是第一時(shí)間轉(zhuǎn)發(fā)了。

ER 1.6的定位是機(jī)器人的高層大腦，不直接控制機(jī)械動(dòng)作，而是負(fù)責(zé)理解環(huán)境、制定計(jì)劃、調(diào)用工具——

谷歌搜索、VLA、或者開發(fā)者自己定義的任何函數(shù)，都可以直接調(diào)用。

相比上一代ER 1.5和Gemini 3.0 Flash，新模型在空間推理、物體計(jì)數(shù)、任務(wù)成功檢測上均有顯著提升。

還多了一個(gè)全新能力，讀儀表。

Gemini Robotics-ER 1.6

在技術(shù)博客中，Laura Graesser和Peng Xu兩位作者開篇寫道：

機(jī)器人要真正有用，就必須不只是執(zhí)行指令，而是要對物理世界進(jìn)行推理。

ER 1.6的核心升級(jí)圍繞一件事，讓機(jī)器人真正「看懂」它所處的環(huán)境。

儀表識(shí)別

先看Spot在工廠里做的那件事。

工業(yè)設(shè)施里有大量儀器需要持續(xù)監(jiān)控，溫度計(jì)、壓力表、化學(xué)視鏡。以前Spot能走過去拍一張照片，但看不懂上面的數(shù)字。

ER 1.6讓這件事變了。

模型讀儀表分三步。先放大，把小刻度看清楚；再用Pointing定位指針和刻度，結(jié)合代碼計(jì)算比例；最后調(diào)用世界知識(shí)，把數(shù)字解釋成有意義的讀數(shù)。

這套組合的效果，ER 1.5的儀表識(shí)別成功率是23%，加上Agentic Vision之后，ER 1.6達(dá)到了93%

波士頓動(dòng)力Spot副總裁Marco da Silva表示：

儀表識(shí)別等能力和更可靠的任務(wù)推理，將使Spot能夠完全自主地觀察、理解并應(yīng)對現(xiàn)實(shí)世界的挑戰(zhàn)。

Pointing，空間推理的基石

儀表識(shí)別能做到這一步，背后是Pointing能力的支撐。

Pointing是ER模型從初代就在練的基本功。簡單說，就是讓模型用「點(diǎn)」來表達(dá)它對空間的理解，哪里有什么，有幾個(gè)，怎么移動(dòng)，抓哪里最合適。

ER 1.5在這一任務(wù)上表現(xiàn)不佳：給它一張工具圖，它數(shù)錯(cuò)了錘子數(shù)量，漏掉了剪刀，還把圖里根本不存在的手推車給「指」了出來。

ER 1.6則能把這些全部答對，錘子2把、剪刀1把、畫筆1支、鉗子6把，一個(gè)不差。更關(guān)鍵的是，對于圖里沒有的東西，它知道不去指。

成功檢測，知道什么時(shí)候停

ER 1.6還有一個(gè)升級(jí)，成功檢測。

知道任務(wù)何時(shí)結(jié)束，和知道如何開始，同樣是自主性的核心。

以前的系統(tǒng)，做完一個(gè)動(dòng)作就算完了。但真實(shí)場景里有遮擋、有光線變化、有模糊指令，「做完了」這件事本身就需要判斷。

ER 1.6強(qiáng)化了多視角推理，機(jī)器人通常有多個(gè)攝像頭，頭頂一個(gè)、手腕一個(gè)，系統(tǒng)需要把這些視角合并成一個(gè)連貫的判斷。

比如開頭的那個(gè)demo：把藍(lán)色筆放進(jìn)黑色筆筒，任務(wù)完成了嗎？

ER 1.6能從多個(gè)角度的畫面里，給出一個(gè)可靠的答案。

順帶一提，這也是谷歌迄今最安全的機(jī)器人模型。

在對抗性空間推理任務(wù)里，ER 1.6對安全指令的遵循程度優(yōu)于所有前代版本。

不處理液體、不搬運(yùn)超過20公斤的物體，這類物理安全約束，ER 1.6能通過Pointing等空間輸出做出更準(zhǔn)確的判斷。

在基于真實(shí)傷害報(bào)告的安全隱患識(shí)別測試?yán)铮珽R系列比Gemini 3.0 Flash高出6%（文字場景）和10%（視頻場景）。

谷歌與波士頓動(dòng)力

看到Spot，你可能會(huì)好奇，為啥谷歌要用波士頓動(dòng)力的狗？

事情是這樣的：

谷歌2013年收購波士頓動(dòng)力，2017年賣給軟銀，理由是看不到商業(yè)閉環(huán)。

2020年現(xiàn)代汽車以8.8億美元接盤。然后2025年11月，波士頓動(dòng)力的前CTOAaron Saunders離職，加入了谷歌DeepMind。

2026年1月CES，兩家在現(xiàn)代汽車的發(fā)布會(huì)上宣布正式合作，目標(biāo)是把Gemini Robotics部署到Atlas人形機(jī)器人上。

賣出去九年，又回來了。

哈薩比斯的說法是，谷歌不做硬件，要成為「機(jī)器人領(lǐng)域的Android」，給所有機(jī)器人廠商提供大腦。

這次ER 1.6發(fā)布，署名了兩位作者，Laura GraesserPeng Xu

Laura Graesser是牛津本科、NYU碩士出身，2018年加入Google，2023年至今在DeepMind做機(jī)器人研究，還合著過一本強(qiáng)化學(xué)習(xí)教科書《Foundations of Deep Reinforcement Learning》。

她早期的研究方向之一，是讓機(jī)器人打乒乓球，系統(tǒng)需要在100毫秒內(nèi)完成感知、計(jì)算和擊球動(dòng)作。

Peng Xu是DeepMind機(jī)器人基礎(chǔ)模型方向的研究員，專注機(jī)器人學(xué)習(xí)與大模型的結(jié)合，不僅參與過上面的機(jī)器人打乒乓球，也是RT-1、RT-2、Cap（Code as policy）、Gemini robotics等一系列著名工作的作者之一。

[1]https://deepmind.google/blog/gemini-robotics-er-1-6/
[2]https://deepmind.google/models/gemini-robotics/gemini-robotics/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.