337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

“26年具身智能,做不過來根本做不過來”:含陶大程教授獨家專訪

0
分享至







2026年具身智能這么熱,

美國舊金山PIRobotics這家機器人創業公司,

你真得知道。

我也??此麄儓F隊發的新模型,

當然,很多國內具身智能小伙伴,

比我關注多了,

因為這家公司走開源路線,

有些東西國內也能跟著用。

公司投入大,工作扎實,高速發展,

是一個很好的觀察行業的“錨點”。

用新聞體說,就是,

PhysicalIntelligence是美國具身智能領域的翹楚,

(簡稱PI或π),他們家的模型叫π系列。



講真,機器人還沒有真正的記憶系統。

當然,有些短的記憶,

也能記清楚一些事情的先后順序。

這里有兩個概念,請看漫畫:



為啥說沒有記憶系統呢?

要么沒法存數分鐘到數小時的任務情況(上下文),

要么堆砌大量原始數據,導致反應遲緩。

這也是為什么大多數具身智能干活,

只能在“嚴格控制“幾分鐘”“短任務”里打轉,

還有說法是單點任務(技能)還行。

多個子任務串聯,

長時間,多階段就尷尬了。

也就是說,即便當下的模型,

單步技能點數很高,

但在面對長達十幾分鐘,

跨多個階段的任務時,

它們往往表現得像“金魚”:

只能記住最近幾秒鐘的視覺信息(攝像頭畫面里),

一旦時間長,

即使是最先進的機器人也會丟失狀態,

導致錯判和重復錯誤。



機器人干活缺啥能力?

第一,先前啥狀態;

第二,規劃后續做啥動作;

第三,環境變了,怎么動態調整;

真實環境從來不簡單。

我說得很婉轉,

在文藝晚會舞臺上跳舞的機器人,

這類機器人在仿真系統提升能力,

技能點很單一。

而在受限環境下行動,

換個新環境干別的活,

恐怕要犯老年癡呆。

35歲以上排隊領雞蛋的老年人表示,

這是史上被黑的最慘的一次。

對機器人來說,和金魚一樣的記憶力是不夠的。

1.記不住過去做過啥(步驟);

2.一件東西,攝像頭照的那個區里看不見,

以前放哪也不記得了。





PI機器人的記憶模塊,

居然是可插拔的?

是的。

我觀察PI團隊,

是在模型大版本迭代后,

才單獨推出了一個可插拔的模塊,

(叫MEM,Multi-scaleEmbodiedMemory)。

按道理,應該和大版本一起推出,

然而并沒有。

中科視語CEO趙朝陽博士告訴我,

PI公司的模型,從π0.5到π0.6,

技術提升點很多,

記憶模塊并不在其中,

一方面是值得單獨拿出來解決,

另一個比較合理的解釋,

就是做大版本的時候,

這個模塊,還沒有準備好;

AI行業主打一個,

沖刺總在截止日期前,

每家AI公司都一樣,

好在,記憶模塊(MEM)是相對獨立的。

“記憶模塊是一個必備的技能。

所以只不過是去年這個節點上,

我們認為記憶這件事兒在具身上也可以弄了,

不像原來那樣那么虛了。”

誰不想要記憶模塊呢,

我也想要。

所以,有了記憶模塊有啥好?

以前的記憶技術要么只記細節記不住流程,

要么只記流程沒細節,

記憶模塊(MEM)直接全搞定,

還解決了兩個大問題:

第一,不卡殼。

視頻編碼器優化了速度,

哪怕處理多攝像頭畫面,

反應延遲也低。

第二,不翻車。

多源數據訓練避免了“記混動作”,

加了記憶還不影響操作精度,

以前加記憶會變慢的毛病徹底根治。

說實話,這都是長期困擾業界的難題。

似乎人人都在“記憶”上下功夫,

兩個月前,開源團隊Deepseek,

也推出了人家的記憶模塊(Engram)。

市面上的知名團隊都在下“記憶力”的功夫。

看上去,“記住”將是智能的下一個拐點。

從學術到產業,

圍繞AI記憶能力的研究正在迅速積聚。

具身智能也沒落下。





中科紫東太初具身智能部門負責人,

劉榮博士告訴我:

“大家緊盯著VLA狂卷,

因為VLA本身的難點實在也很多?!?/p>

具身智能常用的模型類型就是,

視覺-語言-動作一體化,簡稱VLA;

俗稱技術路線。

這個類型的模型,

核心概念已經清晰,

但方法、優化、跨任務能力仍在優化。

我的觀點是,該技術(模型)處于快速迭代階段,

其實目前這個架構不錯,

紅利還沒有吃完。

所以,大家都在這條道路上狂奔。

當然,還是得和行業一線專家聊一下。

中科紫東太初董事長王金橋,

他給了我更本質的理解:

“這個架構只是科研人員,

沿襲著大模型大力出奇跡的思路,

慣性探索,技術路線遠沒有定型。”

而中科紫東太初具身智能部門負責人,

劉榮博士告訴我:

“實現方法、跨本體跨任務能力仍要優化?!?/p>

我又和中科視語CEO趙朝陽博士,

聊了如何兼顧研發和工程實戰的打法:

一種思路,要么模型(VLA),

直接輸出機器人行動,

模型把“看到的東西,

得到的指令”和“該怎么動”,

結合在一起思考+行動,

視覺模塊,讓它知道所處環境長什么樣,

語言模塊,讓它理解任務目標,

動作模塊則把理解變成行為。



另一種思路,也是參考行業標桿,

FigureAI的路線。

要么用VLM+VLA,

追求極致工程化,

VLM模型協調指揮,決策判斷,

VLA模型負責單步動作執行,

如,拉開冰箱門是一個單步技術點,;

關上則可能是另一個。

而打掃客廳衛生,就涉及到客廳多大,

窗戶多高,幾件家具之類;

打掃客廳衛生,需要先擦玻璃、擦桌子,

再掃地,最后拖地。

沒做過保潔的人可能壓根不知道,

地,從來都是留到最后拖的。

沒搞過科研學術的人可能壓根不知道,

小環節小動作,都是“多個子任務”。

“兩個模型各負其責,

工程上也好調整。”劉榮博士如是說。



美國舊金山PI機器人團隊的出發點,

是想在長程任務上做得好。

阻礙機器人做一系列任務的核心障礙,

是記憶。

何時記住?

記住什么?

如何記住?

接著,用這些記憶去指導,

后面行為與策略規劃。

簡單地把機器人看見的(所有視覺幀),

填進模型的上下文窗口既不現實,

機器人會誤把無關過去行為,

當成當前決策依據。

比如,機器人試圖拿起一根小筷子。

如果沒有記憶功能,

機器人往往會反復以同樣的方式失敗。

因為它不記得之前的嘗試,

所以只會重復相同的行為。

配上BGM,

估計就成了一刀不剪的B站鬼畜視頻。

而有了記憶功能,

第一次失敗后,

會設法成功拿起筷子。

于是,他們團隊為具身智能設計的記憶架構,

就分為兩層。

第一層是短期記憶,

它記錄當下的視覺信息,

保持機器人對環境的持續感知。

第二層是長期記憶,

它用文字形式,

保存經驗和規則,

讓機器人能夠跨越較長時間,

保持任務狀態,

按需調整。

這里有點太技術了,

按中科視語CEO趙朝陽博士的說法,

從科研直覺去理解,

人類好久之前的記憶,

會被總結成經驗,

——一朝被蛇咬,十年怕井繩;

人類近期(短期)記憶,

更具體,更生動,更多細節,

非洲大草原上,

沉睡中的母獅,

被黑曼巴毒蛇咬了一口下巴,

獅頭立刻腫成表情包。

學術說法是:

短期使用細節信息支持即時行為,

長期用抽象語義保持任務語境和目標邏輯。

趙朝陽博士也聊到:

“記憶分層能設計得更細致,

長短,長中短,超長期記憶,等等。

甚至有些永遠不能被遺忘,比如安全底線?!?/p>

看來以后都可以這么玩了:

大大大記憶,小小小記憶,

久而久之,研發同學說話都結巴了,

這絕對是工傷。

細想起來,這倒是和很多年前,

阿西莫夫機器人三大定律遙相呼應:

機器人不會傷害人類。



記憶本身是個很宏大的主題,

記憶和現有系統未來會是什么形態?

記憶不只是存下什么,

而是進化的底層動力:

1.整體目標是什么

2.需要先做什么再做什么

3.現在做到哪一步了

4.這一步怎么做

5.下一步該做什么

具身智能目前在這個大趨勢上,

要做出來真正有記憶的機器人,

如何在復雜、長期任務中持續成長和自適應。

具身智能只是會感知、會執行,不夠。

而是會記住、會推理,

會運用過去的經驗來塑造未來的策略。

具身智能這么熱,還有一個原因,

中科紫東太初董事長王金橋

是這么說的:

“有太多事情可以做,

或者說,根本做不過來,

原因是走得最快的是大語言模型,

那么大語言模型踩過的坑,

一定指導多模態大模型。

多模態模型踩過的坑,

一定指導具身智能大模型?!?/p>



One More thing

下內容包含大量科研黑話和學術暴擊,

看不懂不丟人,能看完的都是狠人,

建議非戰斗人員提前服用冰美式。

為什么不用Transformer-XL自回歸?

答案:不用的原因有三個:

第一,必須逐步生成,每步依賴前一步輸出,

不支持并行推理,效率低。

第二,視覺幀或連續動作序列很長時處理長序列會越來越慢。

第三,缺乏直接視覺結構建模能力。

為什么PI機器人的記憶模塊可插拔?

這個問題,趙朝陽博士給我好好講了講。

模型π0.6和π0.6*一起發布的,

加入真機強化學習,

這將會是未來一段時間VLA的主流打法。

上一種利器尚且不夠,

再把記憶模塊也加持上。

而以前,

還在用Transformer-XL做自回歸的,

現在都不用了。

MEM設計成可插拔不可謂不巧妙,

雙重否定表達作者非??隙ā?/p>

MEM模型用了谷歌的Gemma3(4B),

這是在π0.5架構基礎上的升級版本,

π0.5使用的是Gemma2.6。

MEM的可插拔特性主要體現在記憶增強模塊上,

分為短期記憶和長期記憶兩部分。

在短期記憶方面,

模型對ViT模塊進行了優化,

使其能夠處理更多歷史觀察幀,

從而提升視覺信息的吞吐量。

具體來說,優化主要集中在時間注意力和空間注意力結構上,

因為MEM很新,廠商尚未開源,也可以理解。

長期記憶部分,就更重要了,

甚至可以說是最重要的“彈藥”,

那就是數據上下功夫。

用大語言模型生成訓練數據的方式來增強。

先總結(抽象在數據里),再讓模型學習。

Datateachingand machine learning.

模型會生成類似鏈式推理的摘要和總結數據,

造數據優化長期記憶,到底怎么做的呢?

我們認為:關鍵在于,

造一個帶摘要+總結的樣本數據,

還要跟他原本樣本的視頻幀情節時間步驟對應上

最后,再用這些數據訓練主干網絡,

(視覺-語言模型,Gemma),

這樣,長期記憶不僅能記錄下事件,

還抽象經驗,用于后續推理。

我感慨整個設計很巧妙,

保證了短期記憶專注于即時操作信息,

而長期記憶提供跨任務的連續上下文支持。



陶大程是大曉機器人首席科學家。目前,他任職于新加坡南洋理工大學,擔任杰出大學教授。同時,澳大利亞科學院院士,歐洲科學院外籍院士,當選IEEE、ACM、AAAS等多個國際權威學會會士。長期聚焦于將統計學和數學方法引入人工智能,在表征學習、計算機視覺與深度學習等方向具有奠基性貢獻。

問題一:記憶是個宏大命題,

以記憶模塊對現有具身系統的影響來看,

以您的見識,

未來會是個啥形態呢?

陶大程教授回答:未來的記憶,不會只是一個“外掛模塊”,而會成為具身系統的時間操作系統。因為ACE-Brain-0其實告訴我們,具身統一的難點,不在于單個技能,而在于如何把不同域、不同階段、不同粒度的知識組織起來并長期保留下來;它用spatialscaffold解決的是“跨embodiment的共享結構”問題。與之對稱,記憶解決的其實是“跨時間的共享結構”問題。一個解決“不同機器人/不同場景之間怎么統一”,一個解決“同一個機器人在不同時間怎么連續”。所以未來真正強的具身系統,一定不是單純的VLA,而是空間骨架+時間記憶的耦合系統。

因此,未來具身里的記憶形態,可能會有五層:

第一層是感知工作記憶。這層記最近幾秒到幾十秒的視覺、觸覺、位姿和交互狀態,用來處理遮擋、局部失誤、抓取重試、視野之外的短時補償。

第二層是情節記憶。它記錄“剛剛發生了什么、哪一步成功了、哪一步失敗了、失敗后換過什么策略”,服務分鐘級任務。

第三層是語義/程序記憶。它不是記細節畫面,而是記“我現在做到哪一步、這個任務的標準順序是什么、這個對象通常應該如何處理”。

第四層是空間記憶。這是ACE-Brain-0給你的重要啟發:未來記憶不能只是文本摘要,還必須帶有空間scaffold,也就是物體位置、相對關系、可達性、場景拓撲。

第五層是反事實記憶,也就是可執行的世界表征:不是只記“過去如何”,還要能內部模擬“未來可能如何”。這是worldmodel真正進入具身主干之后,記憶會新增的一層。

第六層是不可遺忘記憶。未來機器人一定會有一部分memory不是為了提升任務成功率,而是為了固化安全邊界、人體禁區、設備極限、規范流程。

未來的具身記憶,不是更大的contextwindow,而是“分層的、空間化的、可調用的、可修訂的、可執行的MemoryOS”。

問題二:具身借鑒LLM經驗,

借鑒VLM經驗是必然的,

本質該怎么理解?

陶大程教授回答:具身借鑒LLM/VLM,不是在借一個模型外形,而是在借一整套“如何從海量異構數據中提煉共享先驗、再把共享先驗遷移到具體任務”的方法論。

第一層本質,是抽象壓縮能力;

第二層本質,是跨模態對齊能力;

第三層本質,是空間共享能力

(ACE-Brain-0:sharedscaffold);

第四層本質,是自舉改進能力

(self-evolutionlearning,

為worldmodel提供了機制性側證);

第五層本質,是有組織的訓練

(ACE-Brain-0)。

第三層:ACE-Brain-0給出了自動駕駛、無人機、機器人操作雖然形態不同、動作空間不同,但都依賴3D空間理解、物體布局建模、幾何關系推理和空間后果預測。

第四層:ACE-Brain-0其實也在回答,

“為什么不能所有東西一鍋燉”。

混合jointtraining會帶來長尾分布、

梯度干擾、領域稀釋;

順序微調又會造成災難性遺忘。所以需要Specialize-Reconcile:

先建專業能力,最后再融合。

問題三:您的論文中曾強調,

“通用具身智能要求在異構具身

(例如自動駕駛、機器人和無人機),

之間具備強大的泛化能力?!?/p>

具身作為前沿技術技術,

您是如何理解目前具身產業的?

陶大程教授回答:

第一,不能把具身產業只理解成,

“人形機器人產業”。

第二,產業真正的壁壘不是模型本身,

而是“經驗回流閉環”。

產業中的記憶,不只是模型內部記憶,

更是企業級經驗記憶。

第三,產業落地不是單靠端到端autonomy,

而是“自動化+人類兜底+再學習”的混合系統。

第四,世界模型(WorldModel),

將成為產業主戰場,

支撐PhysicalAI的規?;柧殹?/p>

未來PhysicalAI的真正基礎設施,

會包括一個可擴展、可校準、可評測、可生成數據的worldmodel。

第五,數據供給方式本身,就是產業路線分水嶺。

Reference:

1. Ziyang Gong, Zehang Luo, Anke Tang, et al.: ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments. arXiv:2603.03198

2. Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao: A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops. ICLR 2025

(完)





聲明:個人原創,僅供參考

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
清明前夕!卸下偽裝,翁帆坦然發聲,21年陪伴究竟圖什么?

清明前夕!卸下偽裝,翁帆坦然發聲,21年陪伴究竟圖什么?

秋姐居
2026-04-04 14:38:03
大量GPS定位器流入閑魚!自帶無限流量,全新才九塊九

大量GPS定位器流入閑魚!自帶無限流量,全新才九塊九

閑搞機
2026-04-04 11:00:09
丈母娘心碎了:與輝同行全額退款,全網沒等來董宇輝的假一賠三

丈母娘心碎了:與輝同行全額退款,全網沒等來董宇輝的假一賠三

王新喜
2026-04-03 20:28:36
被曝生下畸形兒傳聞后,這一次,崩潰大哭的闞清子,終究是夢醒了

被曝生下畸形兒傳聞后,這一次,崩潰大哭的闞清子,終究是夢醒了

生性灑脫
2026-04-04 14:20:37
老人說:“四月吃一瓜,中藥不用抓”,一利尿,二排毒,三消腫。

老人說:“四月吃一瓜,中藥不用抓”,一利尿,二排毒,三消腫。

阿龍美食記
2026-04-02 10:35:01
事態嚴重!中方代表團直赴東京當面問罪,人民日報重磅通告!

事態嚴重!中方代表團直赴東京當面問罪,人民日報重磅通告!

王姐懶人家常菜
2026-04-04 14:25:53
國際乒聯單打世界杯將進行1/4決賽爭奪 今日賽程一覽

國際乒聯單打世界杯將進行1/4決賽爭奪 今日賽程一覽

環球網資訊
2026-04-04 09:47:58
重慶市一輛奔馳大G拍賣,遭19個人瘋狂加價508次后以236.6萬成交

重慶市一輛奔馳大G拍賣,遭19個人瘋狂加價508次后以236.6萬成交

天天話事
2026-04-04 15:05:15
莫氏雞煲老板娘發聲辟謠:“老板累癱照”是AI生成的,吐槽“雞難吃”的賬號也不是老板小號,老板不會玩抖音

莫氏雞煲老板娘發聲辟謠:“老板累癱照”是AI生成的,吐槽“雞難吃”的賬號也不是老板小號,老板不會玩抖音

極目新聞
2026-04-04 16:47:16
“自沖突爆發以來首艘西方船只”,外媒:一艘法國集裝箱船成功通過霍爾木茲海峽

“自沖突爆發以來首艘西方船只”,外媒:一艘法國集裝箱船成功通過霍爾木茲海峽

環球網資訊
2026-04-04 12:54:25
殺妻惡魔金昊被執行死刑!受害者弟弟哭訴:姐姐本有兩次逃生機會

殺妻惡魔金昊被執行死刑!受害者弟弟哭訴:姐姐本有兩次逃生機會

奇思妙想生活家
2026-04-04 12:58:34
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

共工之錨
2026-03-31 00:27:37
許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

許家印,在恒大王國里,過足了官癮、錢癮、色癮,金蟬脫殼玩死了

歷史偉人錄
2026-04-01 17:55:34
馬克龍簽反華聲明后離日,G7峰會正式宣布拒邀中國

馬克龍簽反華聲明后離日,G7峰會正式宣布拒邀中國

春深似海水
2026-04-04 10:30:51
只要占了3條,說明你不是一般人

只要占了3條,說明你不是一般人

青蘋果sht
2026-03-28 06:08:04
CBA焦點戰今夜打響!3日19點35分!CCTV5不播,上海沖擊15連勝

CBA焦點戰今夜打響!3日19點35分!CCTV5不播,上海沖擊15連勝

大魚簡科
2026-04-04 14:57:16
東契奇64場場均33.5分位列第一,因傷常規賽報銷無緣各項獎項評選

東契奇64場場均33.5分位列第一,因傷常規賽報銷無緣各項獎項評選

懂球帝
2026-04-04 07:44:49
買超與邵晴切割,張嘉倪終獲圓滿

買超與邵晴切割,張嘉倪終獲圓滿

搞笑娛樂笑話
2026-04-04 12:35:43
過年了兒子在樓下,打了10多個電話沒有人接,憤怒上樓開門才明白

過年了兒子在樓下,打了10多個電話沒有人接,憤怒上樓開門才明白

濤哥講堂
2025-01-13 15:44:37
繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

削桐作琴
2026-04-02 18:15:11
2026-04-04 18:12:49
親愛的數據 incentive-icons
親愛的數據
《我看見了風暴:人工智能基建革命》一書作者
693文章數 219913關注度
往期回顧 全部

科技要聞

內存一年漲四倍!國產手機廠商集體漲價

頭條要聞

媒體:失蹤飛行員已成最大危機 特朗普恐無法體面退場

頭條要聞

媒體:失蹤飛行員已成最大危機 特朗普恐無法體面退場

體育要聞

剎不住的泰格·伍茲,口袋里的兩粒藥丸

娛樂要聞

闞清子口碑贏了!全開麥跑調拒絕重唱

財經要聞

中微董事長,給半導體潑點冷水

汽車要聞

17萬級海豹07EV 不僅續航長還有9分鐘滿電的快樂

態度原創

本地
家居
教育
房產
軍事航空

本地新聞

跟著歌聲游安徽,聽古村回響

家居要聞

溫馨多元 愛的具象化

教育要聞

重磅!13位校長入選!北京市中小學卓越校長最新名單來了

房產要聞

小陽春全面啟動!現房,才是這波行情里最穩的上車票

軍事要聞

美軍又一架戰機墜毀 此前F-15E被擊落

無障礙瀏覽 進入關懷版