來源:市場資訊
(來源:Xauto報告)
![]()
架構升級成為今年自動駕駛賽道的一個關鍵詞。
今年以來,蔚來推送世界模型2.0、小鵬推送第二代VLA、Momenta推出Momenta R7強化學習世界模型,在前幾天舉辦的NVIDIA GTC 2026大會上,理想發布了下一代自動駕駛基座模型MindVLA-o1。
理想汽車基座模型負責人詹錕在演講中詳細地介紹了新一代架構,隨后,理想汽車創始人李想又與詹錕進行了一場生動的對話。
讓我們得以對理想下一代自動駕駛架構的搭建和思考有了更多了解。
01
自動駕駛架構再升級,引入3D ViT
詹錕介紹,自動駕駛架構進入端到端之后,才算是真正的AI系統。但早期的端到端屬于低階智能,類似于昆蟲具備的智能,本質是通過學習模仿來做事情。
因此,想讓自動駕駛系統有好的表現,就需要喂給它大量數據進行模仿學習,然而現實世界之復雜,長尾場景難以窮盡,靠吃數量來學習,顯然無法完全覆蓋。
這就是為什么,當前第一梯隊輔助駕駛系統在常規城市路況下表現都比較不錯,但在長尾場景中,依然會暴露各種各樣的問題,遠遠不如人類司機。
那么如何讓自動駕駛系統從模仿學習,進化到理解交通場景?
在端到端的基礎之上,各家技術架構開始分化。詹錕介紹,端到端中間加了Language語義推理,就成了VLA,中間加了未來圖像想象,就成了世界模型。
去年的英偉達GTC大會上,理想推出VLA架構。一年沉淀下來,理想智駕整體確實有很大進步,但很快又到了一個瓶頸期。在Xauto智駕榜30個考點中,理想在窄路通行、三點式掉頭等難度較高場景依然無法通過。
![]()
面對這樣的現狀,李想提出了一個思考。
人類開車看上去沒那么難,每個普通人都能把車開得又快又穩,但全世界最頂尖的企業砸了幾千億進去,自動駕駛仍然進展緩慢。問題到底出在哪?
經過總結,理想認為,過去一直在教AI做成年人的事,但從來沒讓它當過小孩。
人類在0到6歲的階段學會了走路,學會了扔球、接球。這看起來只是簡單的動作,但實際上已經幫助孩子建立了對三維物理空間的理解。
人類能精準測距、穩定駕駛,是因為“3D預訓練”在人類6歲前就完成了。
今天所有的端到端系統本質上都是“看2D視頻學開車”,更像是一個人坐在電腦前看了十萬小時行車記錄儀,然后直接上路。
此前被行業津津樂道的BEV、OCC都存在著短板,BEV把世界從俯視角拍扁,從而丟失了高度信息,OCC雖是3D,但是缺少語義信息。
理想認為,物理AI缺的不是更大的模型、更多的數據,而是一個能真正理解3D世界的視覺基礎。
為了解決這個問題,理想引入了原生3D ViT,也就是三維視覺編碼器。
ViT(Vision Transformer),是基于Transformer的主干網絡,具備全局注意力的特性,能提取出更優秀的全局上下文特征,是大模型時代的主流。
理想介紹,3D ViT是讓模型一開始就工作在真實的三維世界里,以高分辨率多視角視覺為核心,在編碼階段直接完成對3D空間幾何和語義的統一理解,包括空間結構、位置關系、語義信息等一次完成。
那么,模型不只是看見畫面,而是理解世界。
在這個體系下,激光雷達的角色變了,它不再是感知的核心,而更像一把高精度的尺子,為視覺提供幾何標定和近場空間約束。
李想表示,在統一建模下,3D ViT可以穩定感知并推理到500米以上的空間范圍。
這里想提一個點,最近華為將旗下多款車型升級到了更高精度的896線激光雷達,或許也是基于同樣的思考,為自動駕駛模型描繪更高精度的物理世界。
既然3D ViT有諸多優勢,理想為何此時才開始引入其自動駕駛架構?談及這個問題。
詹錕表示,因為3D ViT對車端推理算力提出了極高的要求,理想汽車自研的馬赫100芯片,單顆算力達到1280TOPS,自研芯片的落地為3D ViT部署提供基礎。
02
五大核心技術點,最新架構解讀
了解了理想汽車新一代自動駕駛架構的核心變化,我們再來全面了解一下其核心技術點。
理想汽車下一代自動駕駛架構的名稱是MindVLA-o1。
這個架構以原生多模態MoE Transformer為核心,有五方面核心技術點,包括3D空間理解、多模態思考、統一行為生成、閉環強化學習和軟硬件協同設計。
![]()
在感知層面,理想汽車采用以視覺為核心的3D ViT Encoder(3D視覺模型編碼器),并利用激光雷達點云作為三維幾何提示,引導模型理解真實空間結構,使其同時具備語義理解與三維感知能力。
同時引入前饋式3DGS表示(Feedforward 3D Representation),將場景拆分為靜態環境與動態物體分別建模,并通過下一幀預測作為自監督信號,使模型同時學習深度信息、語義結構與物體運動,最終形成融合空間結構與時間上下文的高質量3D表示。
具備3D空間理解能力,使模型看得更遠。
![]()
在思考層面,自動駕駛既要理解當前環境,也要預測未來幾秒的場景演化。
在語言模型承擔語義理解、常識知識和交互能力的基礎上,理想汽車還引入了預測式隱世界模型,在隱空間中高效模擬未來。
訓練分三階段:
第一,用海量視頻數據預訓練Latent World Token(隱世界詞元),構建未來表征;
第二,在MindVLA-o1中持續世界模型的推演,形成隱空間的未來推理能力;
第三,將世界模型、多模態推理能力及駕駛行為進行聯合訓練與對齊。
由此,模型不僅能理解當前場景并進行邏輯判斷,還能在隱空間中提前“想象”未來畫面,將駕駛決策具象化。
理想汽車將這種能力定義為多模態思考。擁有多模態思考能力,讓模型想得更深。
![]()
在行為層面,理想汽車構建了統一行為生成(Unified Action Generation)機制。
首先,MindVLA-o1使用VLA-MoE(混合專家模型)架構,并引入專門的Action Expert,從3D場景特征、導航目標、駕駛指令等多維輸入中提取信息,并結合多模態思考生成高精度駕駛軌跡。
其次,為滿足實時性要求,系統采用并行解碼(Parallel Decoding),同時生成所有軌跡點,大幅提升效率。
最后,引入Discrete Diffusion(離散擴散)進行多輪迭代優化,類似逐步去噪,確保軌跡空間連續、時間穩定,并符合車輛動力學約束。
形成統一行為生成機制,使模型行得更穩。
![]()
在模型迭代層面,理想汽車構建了閉環強化學習框架,讓模型不僅能從真實數據學習,還能在世界模擬器中持續探索和優化策略。
為此,理想汽車將傳統逐步優化式重建升級為Feed-forward(前饋)場景重建,使系統能夠瞬時生成大規模、高保真駕駛場景,支持大規模并行訓練。
同時,結合生成式模型,模擬環境可擴展、編輯并生成全新場景。
為支持大規模模擬與訓練,理想汽車開發了統一的3D Gaussian Splatting(3D高斯潑濺)渲染引擎和分布式訓練框架,渲染速度提升近2倍,整體訓練成本降低約75%,實現低成本、高效率的強化學習閉環。
在閉環強化學習框架下,模型實現更快進化。
![]()
為解決傳統端側大模型部署耗時長、調試頻繁的問題,理想汽車提出面向端側大模型的軟硬件協同設計定律,將模型結構與驗證損失建模,并結合Roofline模型刻畫硬件計算能力與內存帶寬限制,在模型性能與硬件約束之間建立統一的分析框架。
理想汽車基座模型團隊評估了近2000種模型架構配置,在英偉達Orin與Thor平臺上完成驗證,找到了模型精度與推理延遲之間的Pareto Front(帕累托前沿),將架構探索時間從數月縮短至數天,大幅提升端側VLA模型的設計與部署效率。
在軟硬件協同設計定律下,模型部署更高效。
03
根據理想透露的信息,新一代自動駕駛架構量產時間或在今年二季度,首發落地車型是全新理想L9。
李想此前介紹稱,單顆馬赫100的有效算力就是英偉達Thor U的3倍。全新理想L9還準備了一個頂配版L9 Livis,這個版本將搭載兩顆馬赫100芯片。
另一個值得關注的地方是,主流自動駕駛玩家都在向世界模型靠攏,通過理想對于3D ViT的介紹也可以看到,理想也在試圖讓模型真正理解3D世界。
此外,行業的共識是,自動駕駛只是物理AI落地的一個關鍵場景,對于自動駕駛的探索,不僅服務于汽車,也可擴展至機器人及各種物理系統。
因此,打造一個通用物理AI基座模型,也是當前車企和智駕公司研發投入的重點。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.