近期,多家企業相繼推出了各自的高階智駕方案,不斷刷新著公眾對輔助駕駛能力的認知。
無論是華為乾崑智駕的再次進化,還是小鵬、理想、Momenta、地平線等發布的新一代系統,都表明了這一領域競爭的激烈與技術路徑的多元化。
![]()
一個核心的討論焦點在于,不同方案所依賴的底層模型架構正在分化為兩種主要思路:一種是以視覺-語言-動作為核心的擬人化推理路徑,另一種則專注于構建高保真的物理世界模型。這引發了行業內的廣泛探討:在通往更高級別自動駕駛的道路上,這兩種技術路線是必須二選一的對立選項,還是有可能殊途同歸?
以VLA為代表的技術路徑,其目標在于讓車輛的決策邏輯盡可能模擬人類駕駛員的思考過程。這套系統的工作流程始于視覺感知,將攝像頭捕捉的圖像信息轉化為機器能夠理解的語義標簽,例如識別出“車輛”、“行人”、“交通標志”。隨后,系統會像人一樣,基于這些語義信息和對交通規則的理解,進行情景推理和判斷,最終生成控制車輛的指令。
![]()
這種方式的優勢在于其出色的場景泛化能力和處理不確定性的靈活度。在面對復雜的城市路況,尤其是那些規則模糊、充滿突發狀況的長尾場景時,比如突然竄出的電動自行車、不標準的臨時施工區域或是無信號燈路口的多方博弈,擬人化推理模型能夠憑借其基于規則的邏輯鏈,做出更接近人類駕駛員的決策,例如主動減速觀望、禮貌讓行或重新規劃路徑。
它的核心價值在于嘗試理解場景的“含義”而不僅僅是測量物理數據,這使得它在應對未知和變化時顯得更具“智慧”。然而,其挑戰在于,從語義理解到精確控制的轉換過程中,可能損失部分物理世界的精度,對距離、速度、時間的量化控制有時不如物理模型那般直接和精確。
另一條技術路徑,世界模型,則采取了一種更為“工程化”的思維。它致力于利用傳感器(尤其是激光雷達)數據,在系統中實時構建并動態更新一個高精度的、可計算的周圍環境數字孿生。在這個虛擬的物理仿真環境中,系統可以預測所有交通參與者未來的運動軌跡,并進行大量的“如果-那么”推演,從而規劃出一條在物理約束下最優、最安全、能效最高的行駛軌跡。
![]()
這條路徑的核心優勢在于其卓越的精確性與可控性。在高速公路、結構化良好的城市道路等場景中,基于世界模型的系統能夠實現極為平滑、精準的軌跡跟蹤與控制,在安全性、舒適性和能效方面往往表現出色。它就像是一個不知疲倦、絕對遵守物理定律的超級模擬器。
但其局限性在于,這套高度依賴精確建模和大量計算的系統,在處理訓練數據中未曾充分覆蓋的、高度依賴“常識”和“社交禮儀”的極端交互場景時,其決策可能顯得不夠靈活或“情商”不足。同時,它對算力硬件的高要求,也曾是制約其成本下降和普及的重要因素。
面對兩種技術的優劣互補,行業早已跳出單一路線之爭,轉向融合發展,推出兼顧兩者優勢的雙引擎方案。
這種融合模式以世界模型為基礎,負責精準的物理建模、數據測算和軌跡規劃,筑牢駕駛穩定性根基;同時搭配 VLA 的擬人決策能力,處理復雜路況溝通、突發場景應對等柔性需求,實現精準操控與靈活應變的結合。在實際應用中,車輛既能精準完成泊車、勻速行駛等操作,又能聽懂語音指令、避讓行人、靈活繞行,全程無需人工干預,更貼近真實的高階駕駛需求。
![]()
下一代智駕的發展方向,從來不是非此即彼的路線之爭,而是通過分層協同,讓一套系統適配全場景。可以預見,未來一到兩年,雙引擎方案會成為大多數頭部車企的選擇。高階智駕不再是高價車的專屬,普通人也能用上既能算得準、又能靈活應對突發狀況的智駕系統。這或許才是技術普惠的真正意義。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.