網易首頁 > 網易號 > 正文申請入駐

π0.7發布，機器人迎來GPT-2時刻

2026-04-18 17:19:27　來源: 智東西

北京舉報

分享至

智東西
編譯高遠矚
編輯漠影

智東西4月17日報道，一個成立僅兩年的機器人初創公司Physical Intelligence，剛剛拿出了讓整個灣區AI圈為之震動的新成果。其最新發布的機器人基礎模型π0.7，能夠讓機器人執行從未被明確訓練過的任務：從使用空氣炸鍋烹飪紅薯，到在一臺從未見過任何衣物折疊數據的工業機器人上成功疊好T恤。

更令人驚訝的是，這些能力并非刻意設計，而是在訓練過程中“涌現”出來的。

“我的經驗一直是，當我深入了解數據中的內容時，我基本上可以猜出模型能做什么。我很少感到驚訝。但過去幾個月是我第一次真正感到驚訝。”Physical Intelligence研究科學家Ashwin Balakrishna在論文發布后坦言。

他隨機買了一個齒輪組，問機器人“你能轉動這個齒輪嗎？”結果機器人真的做到了。這種超越死記硬背、能夠組合技能解決新問題的能力，在機器人領域尚屬首次。

π0.7的出現，可能預示著機器人AI正接近類似大語言模型領域的“GPT-2時刻”，其能力開始以超出基礎數據預期的方式增長。

一、零基礎上手空氣炸鍋只見過兩個相關片段，卻能學會使用

論文中最具沖擊力的發現，來自于π0.7對空氣炸鍋的使用。

當研究者要求它“用空氣炸鍋烹飪一個紅薯”時，它完成了部分任務，比如打開炸籃、嘗試放入紅薯，但未能完全成功。這已經足夠令人驚訝，因為模型從未見過完整的“拿起紅薯-打開炸籃-放入-關閉-啟動”這一鏈條。

更令人振奮的是，當研究者采用“語言指導”的方式，像向新員工解釋事情一樣，逐步給出指令：“打開空氣炸鍋”“拿起紅薯”“把紅薯放進炸籃”“關閉空氣炸鍋”……π0.7能夠精準地跟隨這些實時指令，成功完成整個任務。

Physical Intelligence研究員、斯坦福大學計算機科學博士生Lucy Shi透露，早期的一個空氣炸鍋實驗成功率只有5%，但在花了大約半小時優化提示工程（prompt engineering）后，成功率躍升至95%。“有時失敗模式不在機器人或模型上，”她說，“而在于我們不擅長提示工程。”

這一現象讓人不禁聯想到大語言模型的“涌現”能力：就像GPT-2能寫出關于“安第斯山脈獨角獸”的奇怪故事一樣，π0.7也能將從未一起出現過的技能重新組合。

Physical Intelligence聯合創始人、UC Berkeley教授Sergey Levine評價道：“它到底從哪里學會空氣炸鍋是什么？這很難追溯。但看到機器人領域出現這種情況，真的很特別。”

▲人類用逐步指令“教”機器人使用空氣炸鍋的過程

二、跨具身遷移：讓笨重的工業臂學會疊衣服，性能媲美人類專家

如果說空氣炸鍋案例展示了π0.7能組合不同技能，解決從未見過的任務，那么跨具身遷移（cross-embodiment transfer）實驗則展示了它在物理形態層面的遷移能力。

研究者決定在一個完全不同的機器人上測試π0.7：雙臂UR5e系統。這是兩臺UR5e工業級機械臂，帶有Robotiq平行夾爪。它們的手臂更長、更重，慣性大，夾爪也不夠精確，遠程操作本身就很困難。關鍵是，研究者從未用這個平臺收集過任何衣物折疊的數據。也就是說，對于UR5e來說，折疊T恤是一個“零樣本”（zero-shot）任務。

結果令所有人震驚：π0.7不僅成功地在UR5e上折疊了T恤和毛巾，而且其任務進度達到了85.6%，成功率達到了80%。

為了給這個數字提供參照，研究團隊進行了一項人類受試者研究：招募了10名平均擁有375小時遠程操作經驗的頂級操作員（均處于公司操作員經驗排名的前2%），讓他們在UR5e上“零樣本”嘗試折疊T恤。這些操作員雖然熟悉源機器人，但從未在UR5e上做過這個任務。結果顯示，人類操作員的平均任務進度為90.9%，成功率為80.6%。π0.7的表現幾乎與這些專家持平。

并且，π0.7在UR5e上采用的折疊策略與源機器人完全不同。在源機器人上，人類操作員通常以傾斜的末端執行器接近布料，先壓住織物再提起；而在UR5e上，π0.7自發地采用垂直抓取，這是更適合長臂、高慣性機器人的策略。

模型沒有盲目模仿訓練數據中的動作，而是根據目標具身的物理特性調整了自己的行為。這正是跨具身遷移的本質：不是復制運動軌跡，而是理解任務目標并找到適合當前身體的新解法。

▲跨具身遷移結果：左側對比π0.5、π0.6、π0.7在多個跨具身任務上的成功率，右側展示UR5e折疊衣物的任務進度和人類對比

▲展示策略自適應變化（傾斜抓取 vs 垂直抓取）

三、開箱即用：從削蔬菜皮到組裝盒子，全面對標專用模型

除了空氣炸鍋和跨具身折疊，π0.7在常規的靈巧操作任務上也交出了一份亮眼的成績單。

Physical Intelligence將π0.7與之前通過強化學習微調的專用模型π0.6*進行了系統比較。任務包括：制作濃縮咖啡（多步驟：磨粉、壓粉、扣入手柄、萃取）、組裝盒子（將平板紙盒折疊成立體盒子）、折疊T恤和短褲、削蔬菜皮（西葫蘆、黃瓜、胡蘿卜）、更換垃圾袋、切西葫蘆、做花生醬三明治等。

結果顯示，π0.7在所有任務上都達到了與專用模型相當甚至更高的性能。

例如，在衣物折疊任務中，π0.7的吞吐量（每小時成功次數）甚至超過了RL專家模型。在需要記憶的任務中，π0.7也不需要任何微調，開箱即用就達到了與專用記憶模型（π0.6-MEM）相似的水平，比如“找到藏在抽屜里的物體”或“交換三個杯子的位置”。

在指令遵循方面，π0.7同樣大幅超越了前代模型π0.5和π0.6。

研究者在4個未見廚房和2個未見臥室中設計了14個指令遵循場景，每個場景需要機器人執行3-6步開放式指令，π0.7的整體指令遵循成功率顯著高于前代。

更令人印象深刻的是，π0.7能夠處理“分布外”的復雜指代指令，例如“拿起我會用來喝湯的物體”或“拿起最大盤子上的水果”。當結合子目標圖像（GC模式）時，性能進一步提升。

此外，π0.7還能打破數據集的偏見：在“反向清理”任務中，數據中通常是“垃圾扔垃圾桶、盤子放餐盤回收箱”，但π0.7能夠遵循指令將垃圾放入餐盤回收箱、盤子放入垃圾桶。在“反向冰箱到微波爐”任務中，數據只有“冰箱→微波爐”，π0.7卻能從微波爐取出食物放回冰箱，這極大依賴子目標圖像提供的視覺引導。

▲指令遵循成功率

四、π0.7的技術核心：5B參數、異構數據與跨任務泛化

π0.7模型架構概覽：

π0.7是一個參數量約50億（5B）的視覺-語言-動作模型（VLA），其核心組件包括：

1、視覺-語言骨干網絡：基于Gemma3 4B模型（含4億參數的視覺編碼器），負責處理多視角圖像、語言指令和機器人本體感知信息。

2、動作專家模塊：一個8.6億參數的Transformer，采用流匹配（Flow Matching）目標生成連續動作，輸出長度為50步的動作塊（action chunk）。

3、記憶機制：沿用MEM（多尺度具身記憶，Multi-scale Embodied Memory）架構，對歷史觀測進行時空壓縮，使模型能處理變長的歷史幀。

4、多模態上下文：訓練時模型接受四種額外提示——子任務語言指令、子目標圖像（subgoal image）、片段元數據（episode metadata）和控制模式（關節空間或末端執行器控制）。訓練時每種提示會隨機丟棄一部分，使模型在推理時能靈活組合使用。

▲π0.7模型架構圖

π0.7訓練數據特點：

π0.7使用了大規模異構數據，包括多種機器人平臺的演示數據、自主策略評估產生的成功與失敗數據、人類遠程操作干預數據、第一人稱人類視頻，以及互聯網上的非機器人數據（如圖像問答、視頻字幕等）。

訓練時，模型還接受四種額外提示作為數據上下文：子任務語言指令、子目標圖像（subgoal image）、片段元數據（episode metadata）和控制模式（關節空間或末端執行器控制）。每種提示在訓練中會隨機丟棄一部分，使模型在推理時能靈活組合使用。

模型通過元數據標注區分不同質量的數據，從而能從次優數據中學習而不損害性能。這些元數據包括：整體速度（以500步為一檔，如1750-2250步標為“2000步”）、整體質量（1-5分）、錯誤標簽（是否犯錯）和控制模式。

訓練中團隊還采用了“知識絕緣”技術（KI），讓語言骨干網絡的梯度與動作模塊隔離，避免動作預測干擾預訓練的視覺語言特征，從而更穩定地學習多模態上下文。

通過這種設計，π0.7學會了根據提示中的“質量=5”“錯誤=false”“速度=8000”等條件，輸出高質量、快速、無錯誤的動作。而訓練數據中的次優片段則提供了豐富的“負面樣本”和狀態多樣性，增強了模型的魯棒性（Robustness）。

▲開箱即用性能對比: 展示π0.7與π0.6*專家模型在濃縮咖啡、盒子搭建、衣物折疊等任務上的成功率和吞吐量對比

▲元數據消融實驗結果

五、能力突破拐點已至，三大局限仍待突破

盡管π0.7取得了令人矚目的成果，但研究團隊并沒有回避其局限性。

首先，π0.7目前還無法僅憑一個高層次的指令自主執行復雜的多步驟任務。

“你不能告訴它，‘嘿，去給我烤些面包片’，”Sergey Levine坦言。“但如果你逐步引導它——‘對于烤面包機，打開這個部分，按下那個按鈕，這樣做’——那么它實際上往往能做得很好。”也就是說，對于長時程、多階段的新任務，仍然需要人類通過語言進行“指導”或訓練一個高層策略來分解子任務。

其次，機器人領域缺乏標準化的基準測試，這使得外部驗證變得困難。

Physical Intelligence主要依靠與自家前代模型的對比，以及內部設計的一系列評分規則（如削蔬菜皮的完成百分比、折疊衣物的質量評分）。不同實驗室之間的任務和環境差異很大，難以直接比較。

第三，也是根本性的問題：語言模型有整個互聯網可以學習，而機器人沒有。

盡管π0.7也使用了網絡預訓練、人類視頻等數據，但物理世界的交互數據仍然稀缺且昂貴。研究者承認，對于某些任務，零樣本泛化的成功率（60-80%）仍然低于分布內任務（超過90%）。未來需要更高效的數據利用方法，例如利用π0.7本身的可引導性進行自主強化學習。

此外，由于訓練數據集規模巨大且內容龐雜，研究者往往難以確切知道某個能力究竟來自哪個具體片段。例如，空氣炸鍋的知識可能來自那兩個片段，也可能來自網絡上無數張廚房圖片的預訓練。這種“黑箱”特性與大型語言模型如出一轍，但也意味著真正的組合泛化（compositional generalization）正在發生：模型不是在檢索記憶，而是在重新混合。

Levine回憶起當年GPT-2生成“安第斯山脈獨角獸”故事時的震撼：“它到底從哪里學到秘魯的獨角獸？那是非常奇怪的組合。現在在機器人領域看到這種情況，真的很特別。”

批評者可能會指出，機器人演示的任務看起來不如“后空翻”那樣酷炫。但Levine反駁說，泛化本身看起來總是不如精心編排的特技表演那么戲劇化——但它要有用得多。

▲數據擴展性曲線：左圖顯示有元數據時，即使在數據質量下降的情況下，π0.7的性能仍能隨數據量增加而持續提升；右圖顯示高任務多樣性數據對泛化性能的關鍵貢獻

結語：組合泛化實現突破，通用機器人“大腦”將至

π0.7的發布，標志著機器人基礎模型從“死記硬背”走向“組合泛化”的初步突破。它能夠在零樣本下完成空氣炸鍋烹飪、跨具身折疊衣物等從未見過的任務，性能媲美人類專家和RL微調專用模型。這背后是多樣化上下文提示、元數據條件化（conditioning on metadata）和超大規模異構數據訓練的共同作用。

如今，物理智能的“GPT時刻”似乎也在悄然臨近。Physical Intelligence已融資超10億美元，最新估值達56億美元，并正洽談新一輪可能將其推至110億美元的融資。

當然，也有人對此持保留態度，認為π0.7的跨具身能力目前僅限于夾爪操作，尚未涉及更復雜的全身控制，但這類質疑并未掩蓋多數人對該方向的樂觀預期。

盡管其仍有諸多限制：無法自主完成長鏈條任務、缺乏標準化評測、數據依賴性依然存在……但他們的研究成果已經向世界證明：一個可引導、可教會、可遷移的通用機器人“大腦”，不再是科幻。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.