網易首頁 > 網易號 > 正文申請入駐

對話小鵬汽車劉先明：押注 “極簡模型”，我花了全公司最多的錢

2026-04-14 16:39:54　來源: 新浪財經

北京舉報

分享至

來源：市場資訊

（來源：晚點LatePost）

文丨李安琪

編輯丨龔方毅

2022 年下半年，通用汽車旗下的 Cruise 在舊金山晚高峰跑了一趟一個半小時的 Robotaxi（無人駕駛出租車），全程零接管。不久后公司請 Sam Altman 做了一場內部爐邊談話，當時在 Cruise 做機器學習和計算機視覺研究的劉先明和同事們聊起這趟行程，很驕傲。而 Sam Altman 一直在說他們正在做的 ChatGPT —— 當時沒太多人在意。

幾個月后 OpenAI 發布 ChatGPT，一個足夠簡單的模型架構，加上足夠大的參數量、數據和算力，展現出超越預期的智能。劉先明說當時被震撼了，他想也許沿著同樣的路徑，不用手寫成千上萬條規則，不用給系統裝五顆激光雷達再把沿街會遮擋傳感器的樹枝修剪一遍，智能駕駛也有機會涌現出智能。

2024 年初，他帶著這個判斷加入小鵬汽車。在小鵬硅谷辦公室第一次見何小鵬時，他想的是 “如果他聽不懂我在說什么，我就不來了”。

今年 3 月，基于這套邏輯開發的小鵬汽車第二代 VLA [1]（視覺-語言-動作模型）開始上車。這也是劉先明加入小鵬以來最完整的一次交付。因為太多同行想測，一輛裝了新版軟件的試駕車，日租金一度被炒到八千元。

交付后，我們在小鵬的上海研發辦公室見到了劉先明。他剃個圓寸頭、戴黑框眼鏡、說話溫和，是 i 人但因為工作成了話癆。熟人評價他 “目標感很清晰，能力非常綜合，既能講很深的技術，也能把復雜問題說清楚”。

劉先明在小鵬汽車歷任北美 AI 負責人、基座模型負責人、自動駕駛中心負責人，2026 年 2 月出任通用智能中心負責人，統管智駕和座艙這兩個原先的一級部門。在他之前，吳新宙為小鵬建立了智駕第一梯隊的行業認知，李力耘用工程和規則把 “端到端” 高階輔助駕駛推向全國量產。劉先明要做的是自研基座模型，拆掉語言翻譯，讓模型從視頻和駕駛數據里直接學開車。

兩年間，劉先明成了小鵬花錢最多的人。2025 年，他統管的業務吃掉了 45 億元年度 AI 研發預算中最大的份額。何小鵬在第二代 VLA 量產推送前的直播里說 “連續十幾個月，每月花 3 個億去賭這個事情，心里也很慌。”

但一個繞不開的問題是，智駕行業目前的整體處境是否值得這種規模的投入。目前沒有哪個細分市場的銷量冠軍是靠智駕贏的，頭部智駕供應商還在虧錢，而且技術領先的花期又很短，總有后發者快速追上。

劉先明的回答是，他們賭的不只是智駕，還有物理 AI。而在實現這個愿景前，他跟何小鵬還有一個更具體的賭約：今年 8 月底達不到特斯拉 FSD V14 在硅谷的水平，他將在金門大橋裸跑。

以下是《晚點 Auto 》和小鵬汽車通用智能中心負責人劉先明的對談與追問，經編輯：

“拆掉 Language，VLA 2.0 才真正開始”

晚點：什么是 VLA 2.0？

劉先明：之前行業里做智駕大模型，包括我們第一代 VLA，基本都是拿開源的語言模型做骨架，加上圖像數據就能做 VLM [2]（視覺-語言模型）。但問題是攝像頭看到畫面后要先經過語言模型處理再輸出駕駛動作這個過程，容易有高延遲，一秒鐘只能輸出兩三次指令，做不到實時處理。

做 VLA 2.0 時我們自研基座模型，傳感器信息輸入系統，輸出駕駛動作，中間不再經過語言（Language）翻譯。這個基座模型接上動作模塊就是 VLA 控車，接上視頻生成就是世界模型。

從頭訓練一個基座模型需要大量的錢、數據和精力，還要冒險，當下汽車行業誰敢在不確定的情況下投這么多？這個決定是最難的。做出結果之后，說服別人并不難。

晚點：這就是你們說的拆掉 Language？

劉先明：拆掉的是推理鏈路中間的語言翻譯：原來模型輸出結果要先變成 language tokens [3] ，查表翻譯成文字，再生成駕駛動作。普通人開車不需要先在腦子里把看到的東西翻譯成一段話，這一步沒有必要。

但語言沒有從整個系統消失。輸入端還需要語言，用戶語音控車、意圖理解都要用到語言模型。所以不是做了一個完全沒有 language 的東西，拆掉的是中間那層翻譯。

晚點：在原來的架構上繼續喂更多數據，不拆 Language 不行嗎？

劉先明：不行。模型中間不能有信息瓶頸，一旦產生，后面再增加數據量也不見得有好的效果。另外自動駕駛對實時性要求非常高，最終要權衡的是模型體量和推理延時。在有限車端算力下，參數量擴大十倍，推理就變慢，控車能力變差；但要想更好控車、更低延時，那模型體量要減小。

我們去年做了一個特別有意思的事，當時團隊里不是所有人都信任這個方向，所以一開始用開源模型再加上 Action（動作）數據訓了一套自動駕駛 VLA 模型后，有一天我們幾個人偷偷把 Language 拆了，模型但還是用原來的名字，我們第一次上了最大數量的 GPU 來訓練模型，GPU 變大，數據量變大變多，拆完訓完發現效果挺好的。

晚點：那是 VLA 2.0 的雛形？當時花了多久做這件事？

劉先明：去年 5 月份，花了兩三個星期。

晚點：拆掉了語言模塊之后，訓練數據的來源是不是也要跟著變？

劉先明：互聯網上的文字數據是最多的，非常容易獲得，信息量很大，可以快速把模型做起來。但做物理 AI，做機器人，做自動駕駛，更多數據來自于每天回傳的車輛數據，從物理世界真實采集出來的。如果要做物理 AI，一定要把這部分數據弄好，訓練方式一定要改過來。

晚點：機器人行業也有反思，減少大語言模型，直接做理解+生成一體化。小鵬二代 VLA 也受這個范式啟發嗎？

劉先明：這個思考可能是在不同的人群和領域中同時發生的。自動駕駛和機器人都屬于物理 AI，面對的問題本質是一樣的，都要與真實物理世界交互，處理非結構化的輸入，輸出連續而非離散的動作（車子的駕駛動作和機器人的行為動作）。拿掉 “語言” 這個思路很符合第一性原理，它簡單、直接，是更極致的端到端，也很像人類開車和日常生活中很多不用語言但暗含智能的 “直覺行為”。

晚點：但我們聽說這版 VLA 2.0 發布推遲了兩個月？

劉先明：本來定在 1 月底開始凍結版本、2 月全量推送。1 月初有一天小鵬給我打電話，他說 “現在這樣不行，你們每天都在修下限，模型上限完全沒有釋放出來，再給你兩個月的時間，你會做成什么樣？” 我說 “老板，你要再給兩個月時間，我馬上把結構給換了”。他說 “好”。于是調整到 3 月份推送。

第二天我們換了模型結構重新開始訓練。有人說我們交作業總是很遲，因為我們看到更好的可能性。如果 2 月份我們真的發了一版，可能現在天天在修 bug。

晚點：如果覺得可以做得更好，為什么不主動提延遲？

劉先明：一個是當時版本確實可以上線。另一個原因是模型、AI 發展是永遠往前進，我們現在理論上每天能更新四個版本。但從公司商業決策來看，要考慮產品型譜、上市節奏、財務狀況來決定什么時候產出結果。

晚點：多給 2 個月，模型怎么做到顯著進步？

劉先明：我們的核心優勢是迭代速度，而不是做一個非常 fancy、跨時代的模型結構?，F在每家的 AI 模型結構都極其相似和簡單，越復雜的東西越不好用。

我們有一套體系可以加快迭代速度，速度越快才能發現新問題、嘗試新結構。對很多團隊來說，最大的問題不是不知道下個結構用什么，而是沒時間去試。我們在做一件沒人知道正確答案的事，只能猜或者只能靠經驗判斷，沒有人百分百準確。我們每天都在不停迭代，把過去的結論推翻重新來。

晚點：馬斯克也說過，創新來自于速度的迭代。

劉先明：特別明顯，現在模型收斂速度越來越快，不是因為更多工程師加入，而是我們的體系自動化程度越來越高。

晚點：這條路總結下來就是 Data Scaling [5] ？

劉先明：不僅是 Data Scaling。首先 AI 一定是極致簡化，不像過去做語音，得先有個模型做語音識別，再做語言處理，最后做語音生成?，F在大家都是原生多模態模型，端到端，結構一定要簡單。第二，Scaling 不僅體現在數據，還體現在模型，是體系層級的 Scaling。有任何短板，這事都做不成，絕不是一兩天、半年就能追得上來。

晚點：現在車端模型的參數有多大？

劉先明：差不多 ****。

晚點：模型越大越好嗎？

劉先明：沒有絕對說法，至少體量上越大越好，但越大的模型需要越多數據。收集數據對我們來說不是難事，尤其是二代 VLA 推出去后，會有大量影子模式數據回來。真正難的是，如何在車端芯片塞入更大的模型。

晚點：現在數據有多大的量級？

劉先明：整體數據存儲量 50 PB 左右。

晚點：總體來說，數據規模越大對于模型性能越有利？

劉先明：高質量、有用的數據規模越大越有利。我們一開始也遇到過車在直行場景開得很好，一掉頭就廢的情況。原因是 90% 以上的數據都是空曠道路直行。數據單純多沒有意義，得找到有用數據。

晚點：找幾百個熟練的專車司機，讓他們全國到處開，把他們的數據收集下來，這個方式行得通嗎？

劉先明：行不通。200 個、2 萬個司機，跟上百萬個司機完全不一樣。200 個司機能覆蓋多少場景？有段時間，我們碰到最奇葩的數據采集案例是近距離繞行，一個司機停在前面，另一個人繞過，再停在前面，再繞過去。

我們也想過請司機，但這樣的數據沒有意義，因為都不是來自于真實場景。數據收集要像是真實世界采樣器，采樣得越密集、越隨機，量足夠大，才可能逼近真實世界場景，模型才具有泛化性，才能解決之前沒見過的問題。

晚點：我們體驗過好幾家智駕，一個共同感受是前 10 分鐘效果驚艷，越到后面越容易唯唯諾諾，這是為什么？

劉先明：第一可能是模型的容量本身受限，它會限制使用場景，還沒辦法泛化到很大的落地場景。另一個原因是數據，數據是個新的問題。怎么去挖掘高質量數據？

Meta 做一個事情叫做 data curation [8] （數據治理），這本身就是目前 AI 里面最難的問題，怎么發現一個數據不在你的訓練樣本里面，是一個 outlier [9]（異常值），它還不是一個壞數據。

這里也有一個悖論。首先你發現它，一定是因為它不在大規模數據里，第二，它如果在小規模里面，它很有可能是 outlier，是 “臟數據”，可能會被踢掉。怎么解決問題？其實有一套方法，但需要時間，需要不停地擴充數據的邊緣。

晚點：你說 VLA 世界模型也有 CoT [6] 思維鏈，就像 chatbot 的思考過程，換到自動駕駛領域，模型是怎么做思維鏈推理的？

劉先明：大家覺得 CoT 思維鏈很聰明，核心是啥？Scaling law [4] 有兩個維度，一個是 training time scaling [7] ，訓練時擴展，即訓練階段投入更多算力，讓模型變強；另一個是 test-time scaling，測試時擴展，就是推理時消耗多少算力，投入更多算力，通常能得到更好的結果。

CoT 的過程是：生成一個 token ，作為輸入，再重新生成下個 token ，不停產生中間的結果，這是個計算過程。CoT 還可以做很多采樣，有隨機性采樣的話，就可以做強化學習，探索不同的解決方案，給出最好結果。

視覺 CoT 的本質就是一個 test-time scaling ，給更多計算時間，產生更好的推理結果。車端做推理時，只是在訓練過程中，將中間結果可視化出來，我們也想知道它腦子里到底在想什么，于是通過世界模型生成未來一段時間內的道路環境和自車行為，預測模型下一步動作，我們稱之為 “腦內小劇場”，劇場生成的畫面可以是鳥瞰圖，也可以是對應不同位置攝像頭的視頻畫面。我們發現這個玩意兒挺有用的。

“智駕團隊花了最多錢，不想用規則交差”

晚點：如果能更早意識到第一代 VLA 中語言的限制，早點拆掉，二代 VLA 是不是更快出來？

劉先明：也不會。模型訓練跟交響樂協奏曲一樣，多個要素一起發展。如果連足夠的行車數據都沒有，就想拆掉 Language，其實搞不定；就算有足夠數據，有了更好的模型，如果訓練集群的穩定性和效率不高，也搞不定。把節奏排好，模型、數據、Infra [10]（基礎設施）都沒有短板，花多大錢辦多大事。

晚點：規則階段積累的東西還能派上用場嗎？

劉先明：其實不多，有些東西甚至應該盡早拿掉。沒有人告訴你 VLA 具體怎么做，只有大概思路，去想工程應該怎么匹配，怎么用最少時間、不大改動系統的情況下把它做出來，再逐漸拆分中間模塊。

晚點：聽起來很順滑，但你們實際上在二代 VLA 測試階段遇到了很多問題。

劉先明：對，當時有個決定比較艱難。二代 VLA 模型測試后遇到各種問題，比如撞路沿子或者不居中。這時候要不要借助規則把它修正一下？有段時間整個團隊都很掙扎，因為只要上了規則，系統就變味兒了，就拆不掉了。

晚點：為什么會拆不掉？

劉先明：模型還沒量產前，應該盡量讓它暴露問題。規則能修，但我想從數據角度解決模型問題。那時候測試一周，新問題越來越多，團隊也很困惑，問題解得完嗎？只要上一點規則后處理，事情就搞定了。但是一旦寫了規則，所有問題都會被蓋住，喪失發現問題的能力。不把規則拆干凈，就像在修一條到不了未來的路。

晚點：小鵬現在是 0 規則、0 超級對齊嗎？

劉先明：我們沒有規則。端到端時代可以加規則，大家都是這么做的，但模型時代依靠數據規模驅動，如果再加規則，模型的上限最終肯定會被規則限制住。加規則，也許短期可以攢出一個還不錯的版本，但可能到 8 月份完成不了任務，我還是要去裸跑的（笑），其他廠商也一定很快追上來。

舉個例子，模型走錯路，確實可以搭載車道級導航，在還剩 300 米右轉時強行變道，但一旦上了，會發現后面導航變成了拐杖，只能解決一時的問題。我們不想重度依賴導航信息，因為我們做的是全球化產品，歐洲等地區沒有圖商提供高清地圖信息的。

這是一個選擇，是通過技術手段解決，還是用一個 shortcut（捷徑）搞定，代價是后面沒法繼續。我們希望達到的狀態是，限制我們的只有自己的迭代速度。

晚點：這里的技術手段是指強化學習？

劉先明：要解決走錯路的問題，最好的辦法是強化學習。在匯入匯出這種場景可以使用強化學習，加上適當的 reward（獎勵），讓模型學會在什么情況下該做什么事情。闖紅燈也有幾種不同的辦法。一種是加規則，用傳統的技術棧 2D 模型檢測，檢測到紅燈就一腳摁死剎停，但會帶來一個問題，整個技術棧會過分依賴于已有的規則。

晚點：加或者不加規則，到底是如何影響模型工作的？

劉先明：不管是端到端模型還是 VLA 模型，核心是有一些輸入，經過加工之后要去輸出。比如我們認為輸出就是一個車要規劃幾秒的軌跡，軌跡之間的時間間隔是多少？如果橫向最大的范圍是 20 米，縱向是 80 米，把這個范圍離散化，所有可能的軌跡點組合就構成了一個極大的搜索空間。

傳統方法不管是 Monte Carlo [11] （蒙特卡洛方法）還是非凸優化，核心都是砍掉搜索空間，把它砍到可計算的范圍之內。在算力和模型不足的情況下，對搜索空間做大幅的縮減。

AI 模型反過來。為什么我們覺得現在 AI 聰明、能做很多事情？因為它的參數量直接決定了它的輸出空間。如果有幾個 Billion（十億）參數的模型，比如 OpenAI 220B 的模型，理論上它可以探索 220B 這么大規模的空間，這是足夠大的搜索空間了。所以要解決問題很簡單，就是讓你的搜索空間足夠大。

過去我們做了很多平衡，比如對搜索空間不做太多限制，但把時間和空間分開。橫向很絲滑，我們一般叫做空間；縱向一般是用速度和加速來控制，我們一般叫做時間。很多傳統方法即使到端到端的時代也是這樣——先輸出一個橫向軌跡，至于什么時間點到這個位置，可能是單獨用規則去算的。那它就會一腳剎死，因為規則沒有這么大的浮動空間。

我們則希望通過一個足夠大的模型，能夠探索這么大的搜索空間。為了讓整個模型不會過擬合到某些特定的模式上，就需要很多訓練數據。有了更多的訓練數據，就有一個很大的模型，但又不希望模型是個倒金字塔——輸入的信息量很少，一直在做插值升維，其實信息量本身沒有上升。于是我們就讓整個模型盡量變成一個通暢的結構，通暢的結構要求輸入的信息量足夠大。

這是為什么我們不用激光雷達，因為激光雷達給我們的信息量太小了，而且頻率又很低，整個系統會拖慢到 10 赫茲。它還有光柵的閃變，光柵的處理時間一般是 80 到 100 毫秒。

最近小鵬第二代 VLA 從喀什到上海橫穿中國，全程 5000 公里，純視覺方案經歷沙塵暴、雨雪等天氣和場景，單次最長 0 接管里程 1360 公里，這已經能說明問題。

把所有東西加在一塊，整個邏輯就非常簡單：找到一個給你提供高密度信息輸入的傳感器配置，一個足夠強大的模型，和一個能夠端到端去訓練的方式。

晚點：什么樣的智駕體驗可以稱得上好？

劉先明：智駕體驗過于主觀，沒有特別好的評價標準。過去大家一直用接管 MPI、MPCI 來評價，但如果加規則或者限制，是很容易做到零接管的。

我一直說，自動駕駛是白開水，能讓坐在后座的用戶忘掉駕駛這件事。

我們內部評價時會盡量排除主觀因素，用比較客觀的 CCES： compliance-合規，comfort-舒適，efficiency-效率，safety-安全。其中，安全最重要，有時候為了安全，不得不犧牲一些效率和舒適性，但我們不想就此放棄效率和舒適，就看怎么平衡。

晚點：這形成共識很難嗎？

劉先明：很難，因為行業很卷。想出圈，一定要挑出不同的特質，去讓別人注意到自己。

晚點：你會怎么做？

劉先明：沒有固定答案。最好的辦法是，在技術架構和技術路線上，不能有短期的 trade-off（妥協），一定要做具備可拓展性、向上空間足夠大的東西。另外，基礎能力要足夠強，才可以在不同風格上做 trade-off。作為技術一號位，我能做的就是告訴大家，不要去追求某些短期目標而去欠下一些技術債。

晚點：哪些算 trade-off 呢？

劉先明：比如為了舒適性，加一些 “過路口減速” 規則，或者在某些特定情況給模型加兜底。

晚點：你這些說的都挺好的。但我們還是想知道，去年天天測、天天出新問題的時候，團隊還信這條技術路線嗎？

劉先明：有一段時間士氣比較慘，測試結果很慘，天天我都去看。那時候真不敢回國。

那段時間壓力很大，團隊確實有不同的聲音。但頂過壓力后，發現問題的收斂速度非常快。問題充分暴露后，用比較系統的方法去修，AI 修問題不是一個個修，是一坨一坨修的。

有時候加了一個數據解決一個問題，另外一坨不相關的問題也解了。這個事情確定之后，系統就好干了，大家都認同方向了。以前系統會存在很多模塊兜底，長得奇形怪狀特別亂，沒法優化，現在系統可以簡化很多。

晚點：是前面說的去年 5 月份那時候嗎？

劉先明：差不多，那時候真不敢回國。我本來 5 月回國時應該給大師兄測 demo 的，結果到約定時間都沒找他。一直等到我坐上飛美國的飛機，才給他發消息，說下次回來一定讓你坐 demo。

晚點：確認一下，你是上了飛機才告訴他的？

劉先明：我想的是，什么時候做出來了什么時候再回國。

晚點：我要是交不出稿，可能也消失。

劉先明：但是你交不出稿你消失的話，會不會有人問你？

晚點：當然會啊。當時何小鵬真沒找過你？

劉先明：大師兄對我真的挺寬容，他不問我。有時候他在飛書上跟我發消息，打個招呼，然后不管了。

晚點：做不出來的時候你忐忑嗎？

劉先明：大師兄經常開玩笑說我 “花了全公司最多的錢，但是發現分文不掙”。作為管理者，我肯定有壓力。一家公司能健康地發展下去，不能只投入，要講產出的，否則游戲轉不下去。

但如果你在做的事關系到公司的未來命運或者整個商業化進程，沒有壓力是不可能的，這一點上，全公司壓力最大的肯定是大師兄。有的時候他也會跟我吐槽，說他自己很痛苦。

在我這一層，他其實一直極力保護我。有時候一個會議我剛進門，他會說 “你走吧，這會不需要你，回去干活?！?今天車圈如此卷，半年做不出來東西，可能很多一號位就被干掉了。我做這個事情這么長時間，資源一直源源不斷的投入進來，老板并沒有因為短暫的體驗不好就放棄，或者換一條路走。這種信任和篤定，不太能在別的地方找到。

大概去年 6 月份，我們進展還是很快的，所以敢回國了。我在回來的航班上看一個版本的實驗結果，覺得不錯，落地之后趕緊去測試，天天追著大師兄坐 demo，從北京追到上海。大師兄問我為什么不去廣州測，我說廣州跑不下來，太難了。

晚點：小鵬對你的管理風格是偏向寬容還是嚴格？

劉先明：既寬容又嚴厲。對于結果很寬容，不急功近利，不短視。正是有這種對于研究和技術突破的寬容，才有了今天的技術突破。很多 CEO 嘴上喊的都是技術突破和投入，但忍不了半年。這是我最欣賞和佩服大師兄的地方。他對于原則很嚴厲，對就是對，錯就是錯。不能浪費資源，不能渾水摸魚。這也是小鵬能逐漸走得更快更穩的原因。

晚點：你什么時候知道你花了整個公司最多的錢？

劉先明：一直都知道。每年都會跟小鵬和財務去審預算，太可怕了。

晚點：所以是多少？

劉先明：這不能告訴你們。

晚點：公開能查到的 2025 年是 45 億元 AI 研發投入，是這個數字嗎？

劉先明：我去要預算是 2024 年的事情。2025 年已經是公開數字了。

晚點：剛到小鵬時覺得你自己能花多少錢？

劉先明：我剛來的時候，給老板寫一個方案，要預算，然后他問我說這些夠嗎？我說不太夠，于是我們重新寫了一個版本叫 “格局打開版”，預算直接 x2，大師兄直接批了。

不過，在資源不受限的情況下，很多事情過于理想化；而在人、時間，預算都受限的情況下，你不得不去想，怎么讓龐大的組織變得更高效；在哪些事情上做取舍，哪些事情讓你有更大贏面。

晚點：能舉個例子嗎？你剛加入時算力沒有今天豐富，當時的某個決策放到今天會是什么？

劉先明：變化特別明顯，我剛來時算力還 OK，但大家覺得不夠用，每個人都在申請更多的卡，要預算。那時候我去看整個訓練集群的訓練效率，發現 GPU 利用率只有 8%，很低。我的決策很簡單，把它干到 40%，效率提升 5 倍。

當時我們要訓更大的模型，為了在規定的時間點完成它，直接把卡的數量 x2，不夠就 x3、x4，這樣可以縮短單個模型的訓練時間，當時更多是技術選擇。

現在不一樣。一方面要優化整個訓練效率，還要考慮數據，數據成本，存儲/讀取成本。但更重要的是，哪些業務線可以等，哪些事情是可以被砍掉的；怎么把預算分配大盤子里，讓長板變得更長。

晚點：8% 也太低了。怎么會這樣？

劉先明：那個時候模型規模還比較小，大家沒有意識到這個問題，并且沒有深入看這個問題，訓練速度慢就直接加機器，簡單粗暴。但資源達到瓶頸后就必須要看了。

在硅谷，工程師的文化和傳統通常是先做工具，先做各種 profiling [12]（性能分析）和 dashboard（數據可視化），這也是硅谷工程師和研究人員效率很高的原因。但這初期很費時間，后期卻能做到加速度。

解決問題核心是找對人，來做這種硬核的事情，還要團隊能有統一的認知，內部要有節奏，不能揠苗助長，也不能急功近利。最后就是科學的方法論，不是靠喊口號和硬派指標，要從數據出發做出科學的決定。

晚點：去年小鵬賣的車更多了，何小鵬給你買卡的預算有沒有變多？

劉先明：我們去要預算，他總是問 “夠嗎”？

晚點：滿分 10 分，你給這版 VLA 2.0 打幾分？

劉先明：6 分，離我們所有人的理想還有差距。目前已知的問題，導航（我們不想用任何先驗信息，比如高精地圖或者規則點來限制模型的泛化能力，我們需要讓他在沒有這些先驗信息的地方也能好用，比如鄉村，地庫，漫游，海外，所以還需要時間），處理極端情況的能力。所以我不認為世界上目前有任何一個系統已經接近 10 分。

“不止智駕，小鵬還要搏物理 AI 的未來”

晚點：現在的 VLA 是不是還不夠你剛說的 “極簡”？

劉先明：整體架構上應該差不多了。但是內部很多細節還在不停更新，包括我們也在嘗試各種各樣的方法在往前做，不管是訓練的方法還是模型的架構，都在往前做，但整個范式是基本不會變的。

晚點：還可能要拆掉什么東西嗎？

劉先明：沒什么可拆的了，再拆就沒了。

晚點：再拆就剩骨架了。

劉先明：對。所以說到底，其實這背后沒有什么太多的秘密，秘密就是極致的工程化，這也是我剛來的時候跟小鵬說的話，AI 的背后就是極致工程化。

晚點：目前自動駕駛領域，還有技術非共識？

劉先明：還有很多，可能一家公司甚至團隊里都有非共識。比如怎么做 VLA 大家就沒有共識，再比如自動駕駛出多條軌跡還是單條軌跡也沒有共識；是橫向空間縱向空間分開做出軌跡，還是橫縱聯合出軌跡，也沒有共識。如果大算力、大數據是強共識，那兩年前所有車企都應該去做大算力芯片，但現在很多量產的下一代芯片，算力還是 Orin 量級。

晚點：非共識意味著不確定性，但何小鵬說三年內自動駕駛可以實現，這是一個很大的確定性。這里面有矛盾嗎？

劉先明：沒有大矛盾，方法論是固定的，大方向是確定的，可能行業還沒完全信。我們篤定是因為過去幾年 AI 的發展就是這樣，比如 OpenAI、Gemini、Claude 出來。2023 年谷歌發第一代大模型時，大家還認為是造假，但想象不到一年后，Gemini 3 能做到現在這樣。當路徑是對時，趨勢會發展得非?？斓?。核心在于有沒有選擇一條對的路，不斷調整方法，快速探索。

晚點：你在 Cruise 研究 L4 自動駕駛、Robotaxi，一些 L4 自動駕駛公司普遍會認為，沿著 L2 智駕的路線沒有辦法抵達 L4 級自動駕駛。你怎么評價？

劉先明：沿著 L2 可以走到 L4，AI 大模型和規模法則（Scaling Law）讓我們看到并且堅信這個方向。

我們的 VLA 2.0 架構就是為了 L4 而生的，從視覺輸入到軌跡輸出的極簡架構，能夠支持模型、數據和算力的高效擴展，scaling 能讓我們突破模仿學習的上限，突破 L2；世界模型和強化學習能夠幫助模型自我進化，解決各種各樣的 corner case。

其實，Cruise 是當時自動駕駛圈里追 Waymo 追得非常狠的公司。2019 年還是純規則，工程師寫一段代碼，然后自己坐到副駕，現場調試，開一圈出去沒撞就說明沒事，如果撞了，就說明代碼有問題。

晚點：寫完代碼立刻測試？

劉先明：對。那時候技術棧非常重規則，最早 Cruise 那幫人很多都參加過 DARPA [13] 的無人駕駛挑戰賽，也有人來自 CMU（卡內基梅隆大學）機器人實驗室。我第一次見到 Cruise 車的時候驚呆了，那么小的 GM Chevy Bolt（雪佛蘭小型電動車）車上裝了 5 顆激光雷達。

第二代車有 22 顆攝像頭，4 顆 128 線激光雷達，8 顆近場激光雷達。那個時候的代碼怎么寫的？雷達點云作為輸入進來，檢測然后執行規則，寫優化器，然后計算軌跡。在舊金山街道，我們的車被樹枝垂下來遮住激光雷達，被卡住了。Cruise 還動用 “鈔” 能力，把整條街的樹枝都得修剪了。

Cruise 是全美第一個商業化的自動駕駛企業，雖然后面有不幸的事情。能做到這一點，是因為 2019 年 Cruise 決心換思路，成立了 AI 部門，我是那個時候加入的。當時提出概念 Continuous Learning Machine 的概念，即一種持續學習的機器。當時覺得不太可能實現，但也是從那時候開始，我們大規模學習 Infra，建立非常通用、簡單的模型框架。

晚點：你在 Cruise 時已經能看到 AI 大模型的技術框架支撐進化到自動駕駛了嗎？

劉先明：那時候沒有人敢說一定是對的。2022 年底 Cruise 內部邀請 Sam Altman（OpenAI 創始人）來跟當時的 CEO Kyle Vogt 做爐邊談話，當時我們在舊金山體驗了一個多小時 Robotaxi，沒有遠程接管過，我們跟 Sam 吹牛，看我們多牛。但是 Sam 當時說我們在做 GPT，緊接著 2023 年 ChatGPT 就出來了，非常震撼。

晚點：為什么之后又去了小鵬？

劉先明：當時在商業化面前，要做最終取舍，還要用各種規則把模型限制住。離開 Cruise 還是因為，當你相信一條路，但在這看不到盡頭，你可能會選擇一個新的地方去實現它。

晚點：你當時跟何小鵬第一次見面就達成了共識？

劉先明：跟大師兄約在硅谷辦公室面試。面試之前，我想的事情是，如果他聽不懂我在說什么我就不來了。估計大師兄當時想的事情是，如果這個人想的事情還是過去那套，我也不要他了。他希望做一家有創新能力的 AI 企業，所以才大刀闊斧去改革。我覺得我跟他說什么，他是認同并覺得就應該做的。我也是一個比較激進的人，聊完了之后，我覺得給我準備 offer 吧。

晚點：當時有多家智駕公司也在接觸你，你選擇了小鵬汽車？

劉先明：我要做的事，一定需要大量數據和大量資金支持，肯定選擇一個能有數據和硬件支持的地方，只能是主機廠。當然，大師兄自己也有了類似的想法，想找人跟他一起實現。所以剛來小鵬的時候，我們認為這條路是對的，但沒人百分百確信。那個時間點上，小鵬想做，我也終于找到一個愿意投錢的老板。

晚點：你最早加入小鵬出任 AI 負責人，還不是技術一號位，當時怎么爭取資源、怎么說服團隊嘗試新路線？

劉先明：小鵬自動駕駛團隊一直非常扁平。我來的時候跟力耘電話，他說這個團隊是你的，一會兒又打過來說，這個團隊也是你的。其實不需要去爭取什么。過去幾年，小鵬做了很多事情，比如 2022 年開始建 “扶搖” 萬卡集群，很多先天條件都已經鋪好。它的積累在所有主機廠里是最有先天優勢的。

晚點：你什么時候才覺得自己在小鵬站穩了腳跟？

劉先明：我剛來時，很多人跟我說踩了幾個死穴。第一是空降，第二是跨國，當時團隊一半在國內，一半在美國，第三還讓人覺得高高在上，那時候科學家氣質比較重，很高冷，不像現在話癆一樣。很多人判斷我撐不過一年。

晚點：但你走到了今天，還被賦予更多職責。

劉先明：小鵬的團隊是很包容的，因為一直有硅谷團隊，大家很適應有能力、有新想法的人加入，也適應跨文化協作。

晚點：從哪個節點開始，你覺得團隊開始信你？

劉先明：可能就是無圖城市 NOA 階段，包括去激光雷達、搭建 OCC（占據網絡）階段，開始向團隊輸出一些想法，推動底層框架變化，大家愿意跟著你一起干，最終結果好像還不錯，那時候開始有人相信你的技術判斷。

晚點：自動駕駛的技術依然在向前演進，除了 VLA，還有別的路線可能嗎？有行業人士說技術路徑已經進入停滯年代，您認同嗎？

劉先明：我不認同，我們才只是物理 AI 很初始的階段。我們也都看到了過去、今年，AI 是以什么節奏進步的。核心還是你要做自動駕駛軟件，還是物理 AI 。自動駕駛算法可能接近天花板了，但是物理 AI 剛開始。

晚點：機器人的研發會對智駕還有哪些啟示嗎？小鵬會在機器人關節的自研上做到哪種程度？

劉先明：小鵬機器人現階段會充分復用小鵬智駕乃至整個汽車體系的能力。機器人行業是軟件驅動硬件設計，機器人的關鍵在于融合+創新，要做到這一點，全棧自研就成了必選項。

只有自己研發的硬件，才能完美匹配自己訓練的模型，而模型的訓練也要根據實際需求進行專項調整。到最后，我們發現，只有全棧自研，才能造出一個足夠領先，同時又能實現規模化量產的機器人。

晚點：你前面說小鵬汽車極致扁平，這是場面話嗎？

劉先明：扁平化真是小鵬的獨特文化，你很少能在飯堂看到一個 CEO 這么平易近人，也跟你一樣吃豬腳飯。我在食堂見到他，當時還拄著拐，大師兄見到我說，來坐這吃，我說我走不動，然后大師兄端著飯盤過來了。

晚點：你們現在人也挺多的，特斯拉 FSD 團隊沒那么人，車企智駕有必要養這么龐大的智駕隊伍嗎？

劉先明：不一樣，特斯拉 Autopilot 團隊確實人不多。我們團隊其實有很大的變化，很多人轉到了中間的 Infra，去做訓練、推理、車端部署、數據研發等。很多之前寫規則的工程師，雖然不適應做模型，但知道什么數據最重要，所以他是做數據最好的人。

數據不是能從車上回傳回來就可以用。每天一輛車平均開車 1.7 個小時，但真實有效數據不超過 90 秒。如果沒有對自動駕駛行為非常準確的判斷，是找不出來數據的。我們不是要干掉這些人，而是給大家找更合適的位置。我們還有大眾的項目、機器人 .... 很多橫向項目也會涉及到很多人。盡量幫大家做轉型和升級。

晚點：如果按商業化順序來看，自動駕駛、機器人、通用智能，哪個優先級最高？

劉先明：自動駕駛、機器人、通用智能。

晚點：你是個容易 “掛臉” 的人嗎？

劉先明：不是，有人說我很 nice，但是我會因為浪費時間和邏輯不清楚這兩件事情直接打斷所有人講話。

晚點：你 MBTI 是什么？

劉先明：INTJ。

晚點：作為小鵬通用智能中心的負責人，你希望團隊成員用哪三個關鍵詞來評價自己的領導風格？

劉先明：克制，穩定，果斷。

晚點：如果要用一場具體的仗來讓整個通用智能中心形成戰斗力，你會選什么？

劉先明：就是今年的艙駕聯動，因為這是整個組織轉型，重構底層架構，以及讓大家看到上限的一次戰斗。這個故事很熟悉，自動駕駛也是 VLA 2.0 這么一戰打成的。

晚點：你跟我們提了很多次 “簡單”，這是你的某種信條嗎？

劉先明：其實是在讀書的時候，我的博導 Thomas Huang（我們叫他 Tom，黃煦濤教授），他一輩子追求的理念就是簡單，相信簡單的東西才是美的。

2012 年我在美國讀書，那會 Alexnet 神經網絡剛出來，當時我們整個實驗室做圖像處理和計算機視覺，Tom 說所有人停下手里所有工作，全轉去神經網絡。這其實就是模型 Scaling 和數據 Scaling 的早期雛形。但業界很多人不敢去轉，在排斥，我們當學生的心里也比較打鼓，但可能當時已經有這樣的想法。

畢業以后第一次被直接的觸動確實是 Sam Altman 介紹 GPT，所有人都在考慮是不是這就是未來。我們這代人很幸運，2016 年的時候有 Resnet（殘差神經網絡），2017 年有 Transformer，GPT 最早是 2019 年，2023 年 Chat GPT。你會發現，你不確定的道路，已經有些先驅者幫你探好路，告訴你是對的。

題圖來源：小鵬汽車

注釋：

[1] VLA：Visual-Language-Action 的縮寫，即 “視覺—語言—動作模型”，指將視覺輸入、語言理解與動作輸出結合在一起的模型。文中所說小鵬 VLA 2.0，核心變化是減少中間語言翻譯環節，讓模型更直接地從感知走向動作輸出

[2] VLM：Vision-Language Model 的縮寫，即 “視覺—語言模型”，通常用于處理圖像、視頻與文本之間的聯合理解任務。

[3] Language / language token：文中指模型推理過程中的語言表征。token 是大模型處理信息時使用的基本單位，可理解為文本被切分后的最小計算單元之一。

[4] Scaling Law：規模法則，指模型能力通常會隨著參數規模、訓練數據量和算力投入的增長而提升。

[5] Data Scaling：通過擴大數據規模、提升數據質量來增強模型能力的方法。

[6] CoT：Chain of Thought 的縮寫，常譯為 “鏈式推理” 或 “思維鏈”，指模型通過生成中間推理步驟來提升結果質量。

[7] training time scaling / test-time scaling：前者指在訓練階段增加算力、數據和訓練資源；后者指在推理階段增加計算量，以換取更好的結果。

[8] data curation：數據篩選、數據治理，指從海量數據中識別、清洗、組織出對訓練真正有價值的數據。

[9] outlier：異常值，指明顯偏離多數樣本分布的數據。它未必是錯誤數據，但往往更難處理。

[10] Infra：infrastructure 的縮寫，即 “基礎設施”。在本文語境里，主要指訓練集群、數據系統、推理部署等支撐模型研發和運行的底層能力。

[11] Monte Carlo：蒙特卡洛方法，一類基于隨機采樣的統計模擬方法，常用于復雜系統的求解與優化。

[12] profiling / dashboard：profiling 指性能分析，用于定位系統運行瓶頸；dashboard 指數據看板或可視化面板，用于監測和展示關鍵指標。

[13] DARPA / CMU：DARPA 是美國國防高級研究計劃局，曾舉辦多屆無人駕駛挑戰賽；CMU 是卡內基梅隆大學，其機器人研究長期處于全球前沿。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.