網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

π0.7的泛化能力有多強(qiáng)？零樣本純靠口述就能用空氣炸鍋

2026-04-17 21:34:56　來(lái)源: DeepTech深科技

北京舉報(bào)

分享至

當(dāng)你在電商平臺(tái)下單購(gòu)入一臺(tái)全新的空氣炸鍋，快遞到了，拆開(kāi)包裝，你隨手把說(shuō)明書(shū)扔在一邊，轉(zhuǎn)頭告訴家里的服務(wù)機(jī)器人，“把那個(gè)紅薯放進(jìn)空氣炸鍋里烤一下。”

放在之前，機(jī)器人從未見(jiàn)過(guò)這款炸鍋，沒(méi)有對(duì)應(yīng)的操作程序，最可能的結(jié)局就是系統(tǒng)報(bào)錯(cuò)，任務(wù)失敗。想讓它學(xué)會(huì)用新電器，工程師必須重新收集演示數(shù)據(jù)、重新訓(xùn)練模型，一個(gè)完整的流程將耗費(fèi)數(shù)周乃至數(shù)月。

但現(xiàn)在，這個(gè)困局正在被打破。2026 年 4 月 16 日，總部位于美國(guó)舊金山的明星機(jī)器人 AI 公司 Physical Intelligence（簡(jiǎn)稱(chēng) PI 或 π）發(fā)布了其最新模型 π0.7。在一段令研發(fā)團(tuán)隊(duì)成員都感到意外的演示視頻中，這個(gè)從未被明確訓(xùn)練過(guò)“如何使用空氣炸鍋”的模型，僅憑一步步的語(yǔ)言指引，就引導(dǎo)機(jī)器人打開(kāi)炸鍋蓋、放入食材、合上機(jī)器，順利完成這個(gè)它在訓(xùn)練數(shù)據(jù)中幾乎沒(méi)有見(jiàn)過(guò)的任務(wù)。

PI 是誰(shuí)？

PI 成立于 2024 年初，總部位于舊金山。公司核心創(chuàng)始團(tuán)隊(duì)堪稱(chēng) “全明星陣容”：聯(lián)合創(chuàng)始人謝爾蓋·萊文（Sergey Levine）是加州大學(xué)伯克利分校（UC Berkeley）機(jī)器人學(xué)習(xí)方向的知名教授，專(zhuān)注研究機(jī)器人強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)十余年；切爾西·芬恩（Chelsea Finn）來(lái)自斯坦福大學(xué)，是元學(xué)習(xí)領(lǐng)域的頂尖學(xué)者；卡羅爾·豪斯曼（Karol Hausman）與布萊恩·伊希特（Brian Ichter）均來(lái)自 Google DeepMind，在大型機(jī)器人模型方向積累了深厚的工業(yè)界經(jīng)驗(yàn)。

圖 | Sergey Levine（來(lái)源：UC Berkeley）

謝爾蓋曾對(duì)外簡(jiǎn)潔地描述公司的目標(biāo)：PI 的使命就是“把 ChatGPT 搬進(jìn)機(jī)器人里”，開(kāi)發(fā)能夠控制任意機(jī)器人、完成任意任務(wù)的通用基礎(chǔ)模型。這個(gè)定位決定了 PI 的商業(yè)邏輯：不造硬件，專(zhuān)為機(jī)器人提供“大腦”。PI 的模型可以授權(quán)給各家機(jī)器人廠商，成為整個(gè)行業(yè)的底層智能引擎。

資本市場(chǎng)對(duì)這一邏輯給出了極為積極的回應(yīng)。2024 年 3 月完成 7,000 萬(wàn)美元種子輪融資后，PI 在兩年內(nèi)又相繼完成 4 億美元 A 輪融資和 6 億美元 B 輪融資，估值來(lái)到 56 億美元，成為全球具身智能賽道估值最高的純模型公司之一。而最近的 2026 年 3 月，有消息傳出，PI 正洽談新一輪約 10 億美元融資，估值有望超過(guò) 110 億美元，較四個(gè)月前幾乎翻番。

π0 家族演進(jìn)史：從開(kāi)源原型到通用大腦

讓我們把時(shí)間線拉回 2024 年 10 月，彼時(shí)發(fā)布的 π0 是 PI 的開(kāi)山之作。這是一個(gè)約 30 億參數(shù)的視覺(jué)-語(yǔ)言-動(dòng)作（VLA）模型，基座模型是谷歌的預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型 PaliGemma，并在來(lái)自7種不同機(jī)器人平臺(tái)、68 項(xiàng)任務(wù)的數(shù)據(jù)上進(jìn)行訓(xùn)練。

π0 采用了一種稱(chēng)為“流匹配”的動(dòng)作生成方式，能以 50Hz 的頻率實(shí)時(shí)生成平滑的運(yùn)動(dòng)軌跡，具備基本的跨機(jī)器人泛化能力。2025 年 2 月，PI 將 π0 的代碼與權(quán)重完全開(kāi)源，迅速成為機(jī)器人基礎(chǔ)模型社區(qū)的重要參考基線。

圖 | π0 的訓(xùn)練框架（來(lái)源：Physical Intelligence）

2025 年 11 月發(fā)布的 π0-FAST 則在 π0 的基礎(chǔ)上引入"快速動(dòng)作空間分詞器"（FAST），這代模型改善了語(yǔ)言指令的跟隨能力，但推理計(jì)算成本也隨之提升約 4~5 倍。在幾乎同期亮相的 π0.6 中，PI 為之引入了一套名為RECAP（基于優(yōu)勢(shì)條件策略的經(jīng)驗(yàn)與糾錯(cuò)強(qiáng)化學(xué)習(xí)）的算法，將專(zhuān)項(xiàng)任務(wù)的吞吐量翻倍，同時(shí)大幅降低了長(zhǎng)時(shí)間運(yùn)行的失敗率。但 π0.6 的本質(zhì)仍是“專(zhuān)家模型”，每個(gè)任務(wù)需要單獨(dú)訓(xùn)練，單獨(dú)優(yōu)化。

直到 π0.7 問(wèn)世，才成為這個(gè)故事最關(guān)鍵的轉(zhuǎn)折點(diǎn)。作為一系列迭代模型中最新、能力最強(qiáng)的一代，PI 不再追求“為每項(xiàng)任務(wù)訓(xùn)練最佳專(zhuān)家”，而是試圖用一個(gè)單一通用模型，在不進(jìn)行任何任務(wù)特定微調(diào)的情況下，直接匹配甚至超越所有專(zhuān)家模型的表現(xiàn)，同時(shí)還展現(xiàn)出此前機(jī)器人模型從未真正實(shí)現(xiàn)的組合泛化能力。

全新的多模態(tài)提示框架與罕見(jiàn)的組合泛化能力

舉一個(gè)經(jīng)典例子，如果一個(gè)大語(yǔ)言模型既能將英文翻譯成法文，也能將輸出格式化為 JSON，它就能自然地完成"將英文翻譯成法文并以 JSON 格式輸出"這個(gè)新任務(wù)，盡管它可能從未見(jiàn)過(guò)這種組合的訓(xùn)練樣本。這種將已有技能重新排列組合、解決新問(wèn)題的能力，就是組合泛化。

在機(jī)器人領(lǐng)域，這種能力一直是一個(gè)理想化卻難以實(shí)現(xiàn)的愿景。現(xiàn)有的 VLA 模型雖然能理解多樣的語(yǔ)義概念，但在實(shí)際執(zhí)行層面的表現(xiàn)基本停留在“模式記憶”階段：見(jiàn)過(guò)的任務(wù)能做，沒(méi)見(jiàn)過(guò)的就不行。想要完成新任務(wù)，必須重新收集數(shù)據(jù)、重新訓(xùn)練或微調(diào)專(zhuān)項(xiàng)模型。

π0.7 的出現(xiàn)，為機(jī)器人模型突破泛化限制帶來(lái)了一絲曙光。而其實(shí)現(xiàn)組合泛化的核心技術(shù)路徑，是一套全新的多模態(tài)提示框架。

在舊的訓(xùn)練策略中，給機(jī)器人的指令往往只有一個(gè)維度：做什么（語(yǔ)言描述任務(wù)目標(biāo)）。但 π0.7 的訓(xùn)練將指令擴(kuò)展成了一個(gè)多維度的上下文包，其中既有描述任務(wù)目標(biāo)及子步驟的語(yǔ)言指令、描述如何執(zhí)行任務(wù)的具體參數(shù)和控制模態(tài)標(biāo)簽，也包括一個(gè)內(nèi)置輕量級(jí)視覺(jué)模型自動(dòng)生成的視覺(jué)子目標(biāo)圖像。

圖｜π0.7 的多模態(tài)提示框架（來(lái)源：Physical Intelligence）

這套多模態(tài)提示框架解決了一個(gè)之前被低估的核心問(wèn)題：數(shù)據(jù)多樣性與質(zhì)量的矛盾。在以往的訓(xùn)練中，不同來(lái)源的數(shù)據(jù)往往無(wú)法混用，因?yàn)樗鼈兊膱?zhí)行風(fēng)格、速度、質(zhì)量參差不齊，混合訓(xùn)練反而會(huì)讓模型學(xué)到僅僅達(dá)到“平均水平”的劣質(zhì)策略，執(zhí)行效果也差強(qiáng)人意。

π0.7 的解決方案是為每條訓(xùn)練數(shù)據(jù)添加顯式的元數(shù)據(jù)標(biāo)注，低質(zhì)量的自動(dòng)采集數(shù)據(jù)被標(biāo)注為“低質(zhì)量/低速度”，優(yōu)質(zhì)的人類(lèi)演示被標(biāo)注為“高質(zhì)量/高速度”。模型在訓(xùn)練時(shí)學(xué)會(huì)了根據(jù)指令要求，選擇對(duì)應(yīng)風(fēng)格的行為。推理時(shí)，只需在 Prompt 中指定“高質(zhì)量、快速執(zhí)行”，模型就會(huì)調(diào)用與該標(biāo)簽對(duì)應(yīng)的最佳行為模式。

這一設(shè)計(jì)使 π0.7 能夠?qū)⑦^(guò)去無(wú)法有效利用的數(shù)據(jù)全部納入訓(xùn)練，包括質(zhì)量較低的自動(dòng)數(shù)據(jù)、來(lái)自不同機(jī)器人平臺(tái)的數(shù)據(jù)，甚至人類(lèi)操作視頻等，大幅擴(kuò)展了有效訓(xùn)練數(shù)據(jù)的規(guī)模與多樣性。

從系統(tǒng)層面看，π0.7 使用了用 Gemma3 4B 作為基座模型，推理流程可以分為幾個(gè)環(huán)節(jié)：在感知層，機(jī)器人的 RGB-D 攝像頭持續(xù)流式傳輸圖像，與機(jī)器人當(dāng)前的運(yùn)動(dòng)歷史一同輸入系統(tǒng)。接著，系統(tǒng)將二者輸入一個(gè) 50 億參數(shù)量級(jí)的 Transformer 模型，結(jié)合語(yǔ)言指令與視覺(jué)子目標(biāo)圖像進(jìn)行綜合理解。

隨后，高層策略模型根據(jù)任務(wù)指令，自動(dòng)分解并生成語(yǔ)言子目標(biāo)序列，選擇性地調(diào)用世界模型生成對(duì)應(yīng)的視覺(jué)子目標(biāo)圖像。行動(dòng)專(zhuān)家模塊則在約 100 毫秒內(nèi)預(yù)測(cè)未來(lái) 50 步的動(dòng)作序列，通過(guò)硬件抽象層將數(shù)據(jù)轉(zhuǎn)換為各機(jī)器人平臺(tái)專(zhuān)用的關(guān)節(jié)指令，同時(shí)在力度和速度范圍內(nèi)實(shí)施安全約束。整套系統(tǒng)可自動(dòng)適配或靈活切換多種控制模式，如關(guān)節(jié)控制、末端執(zhí)行器控制等，無(wú)需重新訓(xùn)練。

僅需動(dòng)動(dòng)嘴，模型就能自己學(xué)會(huì)控制新機(jī)器、完成新任務(wù)

在 PI 公布的論文中，研究人員展示了三個(gè)實(shí)用案例。其中最令人印象深刻、也最具想象空間的實(shí)驗(yàn)就是用自然語(yǔ)言教會(huì)機(jī)器人使用空氣炸鍋。

PI 的研究人員首先用一個(gè)直接指令測(cè)試模型，零樣本地讓機(jī)器人把紅薯放進(jìn)空氣炸鍋。結(jié)果是機(jī)器人做了若干次錯(cuò)誤嘗試，終究未能順利完成任務(wù)，按照現(xiàn)有模型的水平，屬于意料之中。

隨后，研究人員換了一個(gè)策略：對(duì)機(jī)器人進(jìn)行逐步的語(yǔ)言引導(dǎo)，就像你教一個(gè)第一次用這個(gè)電器的朋友：先告訴它打開(kāi)抽屜，再告訴它放入食材，再告訴它關(guān)上，以此類(lèi)推。在語(yǔ)言一步步引導(dǎo)下，機(jī)器人成功完成了這個(gè)它從未被專(zhuān)門(mén)訓(xùn)練過(guò)的任務(wù)。

最后一步更為關(guān)鍵。當(dāng)研究人員用這種語(yǔ)言引導(dǎo)的方式多次走完流程之后，他們用這些語(yǔ)言指令序列微調(diào)了一個(gè)高層策略模型，該模型能夠自動(dòng)生成完成任務(wù)所需的語(yǔ)言子目標(biāo)序列。此后，機(jī)器人無(wú)需人工逐步引導(dǎo)，可以完全自主地完成空氣炸鍋任務(wù)。換言之，模型從“被語(yǔ)言引導(dǎo)著做事”，進(jìn)化到了“用語(yǔ)言引導(dǎo)自己做事”。

研究人員專(zhuān)門(mén)追溯了訓(xùn)練數(shù)據(jù)來(lái)源，結(jié)果只找到兩條和空氣炸鍋高度相關(guān)的片段：機(jī)器人關(guān)閉空氣炸鍋抽屜的操作，以及開(kāi)源數(shù)據(jù)集中一個(gè)同款機(jī)械臂放置塑料瓶的片段。這些片段的操作場(chǎng)景與真正完成任務(wù)時(shí)的運(yùn)動(dòng)軌跡差異很大，但模型仍然將其內(nèi)化，并成功遷移到了新任務(wù)上。

第二個(gè)實(shí)驗(yàn)展示的是 π0.7 的跨機(jī)器人本體遷移能力。

PI 使用了名為UR5e雙臂系統(tǒng)的機(jī)器人平臺(tái)，這種機(jī)器人操作起來(lái)極為困難：兩條粗重的機(jī)械臂慣性大、夾爪精度低。在 PI 的訓(xùn)練數(shù)據(jù)中，幾乎沒(méi)有其執(zhí)行疊衣服任務(wù)的記錄。

但當(dāng)研究人員用另一套靜態(tài)雙手機(jī)器人收集數(shù)據(jù)并喂給 π0.7，命令它自主控制這臺(tái) UR5e 疊衣服時(shí)，它也順利完成了。兩臺(tái)機(jī)器人在體型、姿態(tài)和結(jié)構(gòu)上差異巨大，π0.7 在 UR5e 上采用了與原始訓(xùn)練機(jī)器人完全不同的運(yùn)動(dòng)策略，這意味著它能夠?qū)崿F(xiàn)真正意義上的技能遷移與適應(yīng)。

（來(lái)源：Physical Intelligence）

量化驗(yàn)證顯示，π0.7 在 UR5e 上疊衣服的成功率，與已在原始機(jī)器人上積累了平均 375 小時(shí)遠(yuǎn)程操作經(jīng)驗(yàn)的專(zhuān)業(yè)人員、首次切換到 UR5e 時(shí)的“零樣本”成功率相當(dāng)。

第三個(gè)結(jié)果或許是最能改變行業(yè)預(yù)期的。此前，PI 的 π0.6 版本通過(guò)專(zhuān)項(xiàng)強(qiáng)化學(xué)習(xí)，在疊衣服、制作咖啡、組裝紙箱等特定任務(wù)上分別訓(xùn)練了專(zhuān)門(mén)的“專(zhuān)家模型”。為每個(gè)任務(wù)分配一個(gè)專(zhuān)家，是當(dāng)時(shí)取得最佳性能的最優(yōu)策略。

π0.7 用一個(gè)單一通用模型，在這些任務(wù)上直接與這些專(zhuān)家進(jìn)行了對(duì)比。結(jié)果是：π0.7 在成功率上與所有專(zhuān)家模型持平，在某些任務(wù)的吞吐量上甚至超過(guò)了專(zhuān)家模型。除了以上這些意在精確評(píng)估模型某項(xiàng)能力的具體控制實(shí)驗(yàn)，π0.7 在削黃瓜皮、做花生醬三明治、擦玻璃等靈巧任務(wù)上也表現(xiàn)出色，我們離全能家務(wù)機(jī)器人又近了一步。

（來(lái)源：Physical Intelligence）

PI 的研究科學(xué)家阿什溫·巴拉克里希納（Ashwin Balakrishna）感慨道，π0.7 能做到的已經(jīng)遠(yuǎn)超預(yù)期：“此前我只要深入了解訓(xùn)練數(shù)據(jù)的內(nèi)容，就能猜到模型能力的邊界，但 π0.7 顛覆了這一切，隨便買(mǎi)一個(gè)齒輪組，問(wèn)它能轉(zhuǎn)動(dòng)這個(gè)齒輪嗎，它都能做到。”

具身智能的“GPT 時(shí)刻”，還有多遠(yuǎn)？

早期的大型語(yǔ)言模型需要針對(duì)每個(gè)具體的下游任務(wù)進(jìn)行大量微調(diào)，才能取得最佳性能，直到 GPT 系列模型的出現(xiàn)改變了這一范式：通過(guò)足夠大規(guī)模、足夠多樣的預(yù)訓(xùn)練，模型可以在不針對(duì)特定任務(wù)微調(diào)的情況下直接完成多種語(yǔ)言任務(wù)，并展現(xiàn)出組合泛化在內(nèi)的涌現(xiàn)能力。

機(jī)器人領(lǐng)域如今正處在一個(gè)類(lèi)似的早期階段，即需要針對(duì)每項(xiàng)任務(wù)訓(xùn)練對(duì)應(yīng)的專(zhuān)家模型。但 PI 的聯(lián)合創(chuàng)始人給出了判斷：一旦機(jī)器人模型越過(guò)組合泛化的能力門(mén)檻，其能力的增長(zhǎng)速度就將不再與數(shù)據(jù)量線性相關(guān)，而會(huì)呈現(xiàn)超線性增長(zhǎng)。

難道，拐點(diǎn)已至？PI 的研究人員在論文全篇中使用了非常審慎的措辭，他們坦承，π0.7 展示的是組合泛化的“初步跡象”，模型目前還無(wú)法響應(yīng)類(lèi)似“給我烤片面包”等高層級(jí)模糊指令，仍需人類(lèi)將其分解為具體步驟。同時(shí)，提示工程的質(zhì)量對(duì)結(jié)果影響巨大，一次糟糕的引導(dǎo)就可能導(dǎo)致成功率從 95% 暴跌至 5%。

謝爾蓋曾拒絕給出機(jī)器人模型真正落地的預(yù)期時(shí)間表，只表示，“進(jìn)展比我兩年前預(yù)期的要快”。現(xiàn)在看來(lái)，這句話或許是最值得行業(yè)認(rèn)真對(duì)待的一句話：π0.7 展示的是方向，而非終點(diǎn)。未來(lái)，機(jī)器人的“可用性”可能只需要一個(gè)足夠通用的模型，和足夠清晰的語(yǔ)言表達(dá)。

參考內(nèi)容：

https://www.pi.website/blog/pi07

運(yùn)營(yíng)/排版：何晨龍

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.