網易首頁 > 網易號 > 正文申請入駐

小鵬第二代VLA，一部最新的「物理AI啟示錄」

2026-03-06 22:07:57　來源: RoboX

北京舉報

分享至

2025年底，卡耐基梅隆大學教授、AI2研究科學家Tim Dettmers在博客中指出：“當前AI領域的創新多基于現有思想的漸進修補，技術架構的觀念空間不斷萎縮。我們或許正站在技術進步的臨界點，面臨創新上限的嚴峻挑戰。”

同一時間，何小鵬正在硅谷體驗FSD V14。在發現該版本已經進化為「完全不一樣的物種」后，他意識到，自己狂砸數十億研發的基座模型是最值得的賭注——因為只有采用全新的物理世界模型架構，才能捅開已經觸手可及的天花板。

3月2日，被小鵬定位為「物理世界基座模型」的第二代VLA，宣布將于本月正式開啟推送。該模型實現了大膽重構——扔掉了「L」拐杖，也就是去掉了語言轉譯環節，首次實現從視覺信號到動作指令的端到端直接生成

「基座模型」具身智能行業常被提及，這也是玩家們極力挖掘的護城河。而小鵬的第二代VLA，不僅重構了范式，還實現了工程化落地和規模化驗證。

在RoboX近80公里的城區測試中，第二代VLA不僅全程無需人工介入，而且行為高度擬人甚至優于人類司機，全程沒有出現急剎頓挫，確實刷新體驗上限。

這種已經開始「涌現」的能力，也將應用于小鵬的機器人、飛行汽車等智能體上。

根據小鵬汽車董事長兼CEO何小鵬、以及小鵬汽車通用智能中心負責人-劉先明的深入解析，我們會發現第二代VLA代表了物理AI的幾點最新變化，這些變化有的已成為新的共識，有的則打破了普通人對于大模型發展的傳統認知。

通用基座」才能救自動駕駛

如今，劉先明的Title已經由「自動駕駛負責人」變為「通用智能中心負責人」。

何小鵬稱，這是跨域融合進程中的一部分：不重構完整模型架構，就無法實現高級自動駕駛突破和物理AI發展。如今小鵬正在構建底層通用能力體系，以實現代際差。

他堅信，3-5年內所有汽車都會成為全域融合的超級智能體；1-3年內，全自動駕駛也會落地。

“小鵬不再專研自動駕駛、而是要創建物理AI體系。如今小鵬的基座模型會先在汽車領域的第一步落地，但未來也會在智能座艙、機器人和飛行器上應用。”何小鵬說道。

劉先明稱，第二代VLA的底層復用能力還是很強的，因為該基座模型的設計是原生多模態，不會只針對自動駕駛，而是可以復用的。

他認為，自動駕駛的技術范式已經發生了很大的變化，Waymo等幾家采用規則算法的L4公司，上限已經觸手可及，大家只能不停的去往前去卷。

“L4一直受限于ODD，其技術路線成本極高、并且泛化性很差。而如果真想泛化性解決整個問題，技術范式就一定要變，這是不可避免的。”

他指出，做好基座模型，是一家做L4公司的必修課，因此Waymo也在做基座模型。但能否成功還得看它到底有沒有決心投入，以及多快能完成轉型。

從「預測詞匯」向「預測物理狀態」轉移

劉先明表示，相比起數字世界，物理世界的任務難度呈指數級上升。因為其輸入信號不僅信息量大，而且是非結構化的。

“它是連續信號，不像離散的文字可以拆解，處理起來尤為困難。更別提物理世界那千變萬化的交互方法和無限的多樣化場景。”

為此，小鵬第二代VLA架構被打造為原生多模態物理世界模型，并采取了以下優化措施：

1、針對處理連續信號及多模態信號的問題，小鵬設計了原生多模態tokenizer作為信號處理單元，以更高效率、更嚴謹的方式整合所有信號，并在早期階段避免單一模態偏差；
2、針對物理世界的復雜性，小鵬構建了長序列、高效率的推理邏輯，即設備推理的CoT（思維鏈）機制。為確保實時性，小鵬將整體推理效率提升了32倍；
3、至于輸出多模態能力，該模型可生成視頻、音頻及動作行為。這不僅代表了第二代VLA的基礎技術突破，更是仿真、強化學習等領域的創新實踐。
4、艙駕一體，讓整車更像有機的智能體。

同時我們注意到，一篇被AAAI2026錄用的論文也在近期引發熱議。這是由北大計算機科學學院多媒體信息處理國家重點實驗室與小鵬汽車聯合創作的論文，它針對VLA處理圖像超高計算量問題，提出了視覺token剪枝框架FastDriveVLA。這一技術也已應用于小鵬第二代VLA。

該框架采用基于「重建」的對抗性前景-背景重建策略，它能夠使模型像人類駕駛員一樣，自動過濾無關緊要的視覺信息，只關注有用的核心信息。這一方法不僅顯著提升了模型的推理效率，還保持了駕駛性能的穩定甚至提升。

在nuScenes數據集測試中，剪掉25%視覺token，駕駛性能幾乎不變且部分指標提升；剪掉50%，各項指標均衡。同時，FLOPS降低近7.5倍，計算量銳減；CUDA延遲上，prefill和decode階段耗時分別減少3.7倍和1.3倍，推理效率顯著提升。

專用芯片深度定制

據悉，小鵬根據芯片和編譯器去重新定義和設計了底座模型的基本結構，也就是圖靈結構。正是因為有了這三方面的聯合優化，使得大模型在車端應用的效率提升了12倍。

AI芯片的兩個基本操作是訪存+計算，其中計算的占用密度越高，就意味著算力的利用率越高。

劉先明曬出了通用芯片和圖靈芯片的效率對比，指出「圖靈芯片深度定制+編譯器聯合優化」這種模式，比「通用芯片+開源模型」的效率提升了4倍左右，達到了82.5%。

他指出，以「有效算力=名義算力×算力利用率」的公式來看，一顆圖靈芯片的名義算力約相當于3顆Orin-X，而經過了聯合優化后，一顆圖靈的有效算力已經達到了約10顆Orin-X。

“其實英偉達在GPU和CUDA時代就在做這件事——把算力用好，比單純說算力提升多少倍更有價值。這也是我們從通用處理器向專用處理器ASIC過渡的原因。”

另外，大算力一定需要更高信息密度的輸入、更大的模型來匹配，否則算力就是空轉。

總而言之，如果只是搞算力軍備競賽、單純堆高數值，消費者是感受不到明顯的體感提升的。

卷GPU

更要卷云端運行效率

在模型訓練層面，人們往往過于關注單卡GPU，而忽略了云端算力集群運行效率。

如今，小鵬汽車已建成國內領先的3萬卡規模算力集群，算力儲備達到10EFLOPS。

同時需要注意的是，該算力集群利用率常年高達90%以上，高峰時期的運行效率甚至達到98%。而且這套「云端模型工廠」涵蓋了基座模型預訓練和強化學習、模型蒸餾、車端模型預訓練到部署上車的完整生產鏈路。

同時，小鵬汽車自主開發了底層的數據基礎設施，使數據上傳規模提升22倍、訓練中的數據帶寬提升15倍。

“基于強大的AI Infra，從去年11月發布會科技發布會到現在，我們一共更新了468版模型。”

劉先明表示，從2025年到現在，單GPU訓練效率提升了1010%，單任務訓練效率提升了4360%，GPU硬件利用率提升125%。

汽車銷量不再代表數據優勢

何小鵬稱，雖然物理世界和人類世界的數據量看起來是無限的，可實際上卻遠遠不夠。

“很多人說車賣得越多，數據優勢就越高，這是片面的。如何收集有質量、有價值、超大規模的數據，這是非常困難的。不論是汽車還是機器人，這件事上都遠遠沒有看到頭，模型訓練還沒出現明顯的收斂趨勢。”

劉先明介紹稱，數據一般是指Token，高質量的Token越多，模型的性能和泛化性一般會越強。

通過不斷上傳的真實世界高質量數據，小鵬已經積累了超過50PB的訓練數據。目前每一個版本的模型訓練數據達到了4萬億個tokens，這些都是第二代VLA的核心能力來源。

在去年的CVPR演講中，劉先明表示，小鵬在云上訓練了從10億到720億參數的多個模型，累計吃下了數千萬條視頻片段。

但是，如何挖掘真實世界里真正好用的數據，卻一直是行業難題——數據每天都在被收集，但存儲成本高，而且很多也用不上。

不過，小鵬車端攝像頭所采集到的高分辨率數據，數量可達每秒鐘53億字節的視覺數據，遠超其他傳感器所能提供的信息量，信息密度是其他傳感器的300倍左右。

同時他也表示，搭載小鵬第二代VLA的20萬輛車日均消耗58.8萬億Tokens，約等于全國數字Al Token日調用量（0.737萬億Tokens）的80倍。

這說明物理世界確實比數據世界更加復雜，前者數據密度對于算力的消耗更是巨大，如果沒有一個強大的算力和數據處理體系作為基礎，就不可能做好高階智能駕駛。

在此背景下，世界模型的仿真測試發揮了重要作用：在過去的一年當中，小鵬仿真的case的數量從3萬多增加到50萬多；一天的測試當量相當于去跑3000萬公里的測試。

強化學習不是「萬金油」

據劉先明介紹，強化學習依賴無模型獎勵機制，通過試錯學習調整策略。但在物理世界中，獲取真實反饋面臨挑戰，其核心難點在于難以構建與真實環境完全一致的仿真環境。

對此，小鵬將世界模型引入強化學習體系，以實現自我學習（self - learning）與自我模擬。從本質上講，這類似于構建一個可靈活替換的執行場景。

“我們借助第二代VLA模型輸出的軌跡信息，引導世界模型重新生成其對周圍環境的認知與理解。”

也就是說，每當VLA模型基于當前環境狀態輸出一個動作，世界模型就會依據該動作生成一個新的場景描述；隨后，系統獲取大量新的環境信息以及基于推理得到的數據，并以此為基礎進入下一個場景的交互循環。

正是由于這種動態交互機制的存在，模型能夠變得越來越強大。

但是，劉先明也強調了「強化學習不是萬金油」：“現在學術界、工業界都給強化學習套上了光環，覺得它‘可解萬物’。但如果連沒有強大的基座模型，強化學習就無法繼續提升。”

跳過L3，直奔L4

在何小鵬看來，L3對于硬件軟件、法律法規都是挑戰。所以他在今年兩會提出的建議是「推動自動駕駛技術從L2跨越到L4，完善法規與管理政策」。

劉先明表示，雖然目前還不能說第二代VLA可以100%達到L4水平，但其架構已經非常通用且高效，每天都會有新的版本出來，不停地在解決新的問題。

“這個進步速度是超過我們想象的，所以我們是有信心在未來的一段時間內達到l4水平的完整體系。”何小鵬對此周期的預判是1-3年。

涌現時代已經到來

去年，第二代VLA出現了一些「涌現」的行為，也就是未經刻意學習的自我進化，例如紅燈即將轉綠時的蠕行、或者主動避讓救護車，聽從交警指揮等。

何小鵬舉例稱，部分極端場景，例如廣州曾出現過的珠江漫堤等，絕大多數人都沒有經歷過。但因為系統看過大量類似數據，就有可能進化出應對能力。

“第二代VLA模型還會越來越聰明，出現越來越多具備進化能力的CoT。到那個階段，大家會明顯感受到：它既足夠安全，又會展現出一些超出預期的能力。”

但是，這種涌現必須可控，才能保障安全。劉先明指出，雖然涌現本身不是一個嚴格可控的過程，但是做自動駕駛肯定要守住安全底線。為此，小鵬正在通過數據篩選、強化學習等方式來進行把控，而他們認為，涌現的整體趨勢一定會是「讓所有人開車越來越舒心」。

通過對第二代VLA的體驗，我切實感受到它已經在超越人類司機，根本不需要我做任何介入。此時我才終于理解了何小鵬「首先邀請媽媽們」參加試駕的原因——因為如今我也迫不及待地想讓自己媽媽體驗這種近乎「無感」的智駕科技，而且她也不必再因為「路不熟」而不敢開車去陌生的地方了。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.