- 克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
機器人也開始內(nèi)卷了,一位表現(xiàn)極其離譜的“新員工”,直接拉高了機器人的“就業(yè)門檻”。
具身智能獨角獸Generalist,剛剛推出了最新的研究成果——新模型Gen-1。
在包裝手機和折疊紙箱這些精細活兒上,它把機器人的成功率從64%硬生生拉到了99%,幾乎告別了手殘職業(yè)病。
![]()
以前折疊一個標準紙箱需要慢悠悠地磨掉34秒,現(xiàn)在GEN-1僅用12.1秒就能完成,效率直接開啟了3倍速模式。
![]()
而且,GEN-1的表現(xiàn),也用實際表現(xiàn)驗證了機器人領(lǐng)域的Scaling Law。
機器人模型卷出新高度
GEN-1上崗后的表現(xiàn)簡直像是在倍速播放,而且即便面對維護掃地機器人200次這種枯燥任務(wù),它也能穩(wěn)如泰山。
![]()
甚至連續(xù)裝箱1800次,也能從從容容游刃有余。
![]()
更離譜的是它處理突發(fā)狀況的腦回路。
如果零件在流水線上被意外撞歪了,它絕不會傻站在那兒報錯,會自己切換抓取角度,甚至動用兩只手配合著把活干完。
![]()
這種靠直覺解決問題的即興智能,讓它在處理亂七八糟的雜物時表現(xiàn)得像個干了十年的老師傅,那種死讀程序的鐵疙瘩僵硬感徹底消失了。
用人類活動記錄訓練機器人
為了讓GEN-1具備使機器人變身“全能打工人”的能力,研發(fā)團隊對數(shù)據(jù)處理架構(gòu)進行了重寫。
他們沒有死磕昂貴且難以擴展的機器人遙操作數(shù)據(jù)這條老路,轉(zhuǎn)而通過低成本穿戴設(shè)備捕捉了數(shù)百萬項人類活動記錄,讓AI像看電影一樣預(yù)習物理世界的潛規(guī)則。
這種“去機器人化”的預(yù)訓練方案巧妙繞過了數(shù)據(jù)規(guī)模的瓶頸,讓基礎(chǔ)模型在接觸機械臂之前,就已經(jīng)從人類視角洞察了空間、時間與物理因果。
這種基于50萬小時高保真物理交互數(shù)據(jù)集練就的底座,讓它的學習效率直接起飛,達到了前代模型的10倍。
哪怕是面對從未見過的奇怪任務(wù)或陌生的機器身體,給GEN-1一個小時的實機演示,也能讓它火速入職。
另外,為了讓機器人的動作不再卡成PPT,以及實現(xiàn)實時操控,研發(fā)團隊還在推理端祭出了兩項關(guān)鍵技術(shù)。
首先是專門為物理世界打造的分頁注意力(Paged Attention)機制。
在處理PB級別的物理交互數(shù)據(jù)流時,傳統(tǒng)的內(nèi)存管理方式容易導致計算資源分配不均,進而產(chǎn)生響應(yīng)延遲。
Paged Attention通過更高效地調(diào)度計算資源,解決了動作指令發(fā)射時的調(diào)度難題,確保每一個動作指令都能在毫秒級的時間維度內(nèi)即時發(fā)射,讓AI的反應(yīng)速度能跟上現(xiàn)實世界的物理節(jié)奏。
配合演進的還有一套Harmonic Reasoning系統(tǒng)。它作為推理層面的核心組件,改變了以往單一路徑預(yù)測動作的死板模式。
它允許模型在輸出指令時通過多尺度的動態(tài)調(diào)節(jié)來引導權(quán)重,使其在執(zhí)行折疊紙箱或包裝手機等復雜動態(tài)任務(wù)時,能夠展現(xiàn)出超越單一模型權(quán)重分布的性能上限。
研發(fā)團隊為此投入數(shù)月時間優(yōu)化訓練穩(wěn)定性,并編寫了大量自定義內(nèi)核來壓榨硬件算力的極限。
機器人領(lǐng)域的Scaling Law
GEN-1的性能跨越,證明了Scaling Law在物理世界依然有效——只要喂夠了數(shù)據(jù)和算力,機器人的腦子也會產(chǎn)生“開竅”時刻。
通過大規(guī)模預(yù)訓練,機器人不再生硬地模仿動作序列,自己悟出了空間、時間和因果關(guān)系的規(guī)律,感知到了物體之間的相互影響。
有了直覺之后,機器人干活就開始帶點“靈性”。當任務(wù)中途出現(xiàn)沒見過的阻礙,它會自發(fā)嘗試一些教學大綱以外的操作,比如發(fā)現(xiàn)東西塞不進去時會像人一樣晃晃袋子。
這種即興解題的能力源于它真正理解了“動作會導致后果”的邏輯。
即使現(xiàn)場零件被意外撞歪,它也能憑直覺找回節(jié)奏,不需要人類像保姆一樣每一步都盯著糾錯。
這種在真實世界摔打出來的經(jīng)驗,讓原本懸浮在百科全書里的抽象文字變成了實打?qū)嵉男袆恿Α?/p>
研發(fā)團隊通過對齊技術(shù),給這種即興天賦裝上了“導航儀”,確保機器人“臨場發(fā)揮”的動作依然會嚴絲合縫地待在用戶設(shè)定的規(guī)范里。
這種進化,讓機器人從一個只能按部就班的機器,變成了一個真正懂物理常識、能獨立處理復雜局面的“職場老手”。
DeepMind大牛創(chuàng)業(yè)成果
GEN-1的底層邏輯,源于資深團隊在機器人領(lǐng)域的長期積累,創(chuàng)始人Pete Florence的技術(shù)背景,為這一方案提供了深厚的理論底色。
![]()
他曾任Google DeepMind高級研究科學家,通過Dense Object Nets等工作探索了視覺引導下機器人從感知到動作的端到端學習路徑。
在谷歌PaLM團隊工作期間,他作為核心力量參與并主導了PaLM-E、RT-2等多個具備代際跨越意義的機器人項目。
2024年,Pete Florence離開谷歌并創(chuàng)立了Generalist。
即便在他離職后的2025年3月,DeepMind在發(fā)布的Gemini Robotics論文中依然四次引用了他參與合著的研究。
https://generalistai.com/blog/apr-02-2026-GEN-1
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.