2022年從華為轉投地平線的蘇箐,這幾年少有公開言論。12月9日,他作為首席架構師,在首屆地平線技術生態大會上的講演,相當罕見。與總是“贏贏贏”相比,講出當前的技術困難,并從技術發展脈絡的角度,對未來進行一番預測(對不對另說),還是很有含金量的。這場講演里面,他的高管身份淡了,項目工程師的色彩更濃厚。大家可能都更想聽點業內對于自動駕駛的真話,盡管這些話里“贏”的成分太少。
芯片公司開始做算法
事后有很多人認定蘇箐的講演底色是悲觀的。更準確地說,他在技術必然性的樂觀和“工程地獄”的悲觀之間搖擺。其樂觀在于,技術路徑已經非常確定,暫時找不到比Transformer注意力機制更好的標準算子(因此他將特斯拉 FSD V12稱之為“奧本海默時刻”);悲觀性在于,還要做那么多苦工。發現“端到端”的喜悅,很可能是這幾年工程創新的頂峰。接下來要不斷收斂定義,做技巧性優化。
![]()
看上去“優化”似乎沒什么技術含量。其實不然,如何設計高效的注意力機制,處理傳感器(主要是攝像頭)產生的海量Token,考慮到處理Token的目標,都是捕獲時空長距離依賴關系,在端到端的旗幟下,視頻流轉化為最適合Transformer理解的連續向量,技術挑戰性一直被低估。
光學畸變、光線變化、陰影估算、多相機時空戳精確同步、將視頻流編碼為空間和語義的神經表達,都是非常考校技術實力的部分。蘇箐所謂“做苦工”,不僅是要處理這些技術問題,更主要是在SOP期限壓力下,做出堪用的、可供商業化部署的一攬子解決方案。這些工作現在屬于Soc公司的“菜”,因為通過定制化計算單元(NPU、ISP),可能比純軟件方案更高效地解決以上難點。
這恰恰是以前屬于華為、Momenta這類供應商,以及蔚小理等新勢力的技術護城河范圍。但現在芯片公司開始做算法,業內的智駕供應鏈,又開始發生微妙且重要的變化。
地平線就做了HSD(Horizon SuperDrive),對應特斯拉的FSD。這意味著芯片公司從Tier2,升級為Tier1,與其他方案解決商(比如博世、大陸、電裝等)結成生態伙伴,由他們基于芯片公司的芯片和感知算法開發標準軟件,對車企交付。
可以預料,芯片公司成為完整的智駕方案Tier1,只是時間問題。芯片公司自己就成為智駕生態的中堅。跨國Tier1高興沒多久,就將迎來更多的對手。
對于那些不愿意投入上千人做算法的中小車企、跨國車企,則是空前的利好。他們也有可能做出與巨無霸型智駕供應商掰手腕的產品了,如果后者不能再領先一步的話。
到頭來,可能會導致所有的智駕供應商,都致力于垂直整合智駕供應鏈,從Soc到軟件,從傳感器到執行機構一把抓。那么,會不會出現智駕供應商與車企搶著當“鏈主”的局面?大概率不會,因為有能力自己垂直整合的車企,往往不會直接采購整體智駕方案。
這是蘇箐在演講中并未明言、但反復暗示的最大的觀點。地平線在產業中的野心,絕不是解決好車載算力就完事的。
世界模型可能是L4的必要但不充分條件
一段式端到端的特點,就是從感知到輸出控制信號之間是黑盒子,大家不放心。加交通規則約束兜底是普遍做法。但只要使用規則,就有寫不完的規則。有人提議“軟約束”,即給推理出來的行車方案,在訓練中引入評估模型(基于物理規則),這就更像人類的“因果關系”思考模式,比粗暴裁剪輸出優雅多了。但這部分算法,大概尚未閉環。而且這樣造成一些VLA方式的“慢思維鏈”變得更慢了。
世界模型被看成是與VLA對立的的方案。其實兩者并不沖突。世界模型(WM)本質上是短時(大概2、3秒)預測模型。在L2向L4過渡階段,WM的作用是存疑的。
![]()
現在看,在L2階段,WM的核心價值在于減少誤剎、提升舒適性。其關鍵在于,通過對物理世界的模擬,預測出多個交通參與者意圖活動的可能結果。這就又回到因果預測,模型需要理解場景中的因果關系。有些是概率極高、甚至確定的(比如綠燈會催動車流、車輛行人看見紅燈會停),但無法預測不理智的莽撞行為。后者才是發生事故的主要誘因。
在L3/L4中,WM必須升級為可長時程推演和“反事實思考”的認知模型。蘇箐的“自動泛化”夢想,大概依賴于此。真正的瓶頸在于,WM與后續的決策規劃模塊仍是“兩張皮”。在很多架構中,WM預測了結果,端到端再進行代價計算,這里面存在信息延誤和誤差積累。有人主張,讓WM多干點活,不僅預測,還要評估各個行為分支的好與壞。這樣做可能產生更多的代價。
蘇箐與業內有些公司的看法一致,即沒有WM,L4沒有可能。但僅有WM,仍然解決不了極端場景下的安全降級策略、實時性與穩定性的平衡。WM看上去更適合當一個訓練“引擎”,安全駕駛不應該由其兜底。
L4缺工具,L3需要設定新規則
在中美科技與產業界,大家一股腦地都去投資大模型,“玩命堆算力,不要問有沒有用”。這種瘋狂投入在商業上是否劃算,取決于一個規律——算力成本增加,與性能提升,存在大致的線性比值。但大家有點隱約覺得,快觸碰到“天花板”了,即投資效能在下降。
![]()
這其實也正常,算力可以堆,但是高質量數據并非無限。獲取極端場景數據越來越困難,意味著訓練效果也下來了。雖然訓練的“規模化”一直有效,但追求訓練效率,就必須設計更好芯片與協同算法。這就又回到了芯片公司的強項。
現在監管批準了少數L3量產車型上路,但要在特定路線和特定工況下使用。L3與L2最大的區別,是誰來兜底。而廠家兜底的前提,仍然是用戶有效接管(依靠數據盒子判斷)。但如果不清晰劃定接管條件。L3和L2又有什么區別。
目前,L2強調的是統計意義上的安全(多少億公里的事故率),L4必須追求邏輯意義上的安全(證明通常意義上的場景都安全),后者必須要有新的驗證、測試和仿真技術。而L3則需要智駕系統證明自己的安全邊界。蘇箐所謂“平滑過渡”,大概率是從體驗出發的,但在L3階段,如果無法逾越責任歸屬問題,那么過渡到L4,就成了空話。
當然,相比技術上責任歸屬,用戶同樣在意商業責任歸屬。保險公司推出“技術責任險”,由主機廠買單。而智駕方案供應商則將算法、芯片與安全里程承諾打包出售給主機廠,從而實現層層承諾,將用戶從兜底責任中解脫出來。
![]()
這樣做的結果,就是實力強且規模大的智駕供應商,迅速瓜分掉主機廠訂單。即更具垂直整合能力、掌握大筆資源(投資云算力、組建超大算法研發團隊和芯片硬件研發團隊)的供應商,將毫無懸念地拿到少數幾張幸存者資格證。
這樣一來,自動駕駛商業模式收斂,經歷的時間將很短,甚至遠比L2到L4過渡時間要短得多。至于是否“平滑”,只能由幸存者負責闡釋。
注:圖片部分來源網絡,如有侵權,聯系刪除。
大廠的共同生存指南 寶馬高翔:在變革中保持謹慎的創新
馬斯克萬億薪酬背后
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.