作者 | 本一
編輯 | 德新
過去兩年,隨著大模型的發(fā)展,智駕行業(yè)行業(yè)似乎進入一場“軍備競賽”。從大規(guī)模裝車量產(chǎn),采集數(shù)據(jù)喂養(yǎng)模型迭代,“算力”成為一段時間內(nèi)主機廠們關注的焦點,行業(yè)甚至有「千卡是門檻,萬卡是入場券」的說法。
從 BEV+Transformer 到端到端,再到如今大熱的 VLA(視覺-語言-動作)模型,參數(shù)量指數(shù)級膨脹,讓整個行業(yè)陷入了一種“囤卡狂熱”。
仿佛只要堆砌了足夠的 H100 或 H800,L3 甚至 L4 級別的自動駕駛能力就會在 Scaling Law 的魔法下,自動涌現(xiàn)。
在前不久的 2025 龍蜥操作系統(tǒng)大會(OAC)自動駕駛分論壇上,我們聽到了一些冷靜得近乎“潑冷水”的聲音。
主持人在圓桌討論的時候提到一個很有意思的事情:
之前微軟 CEO 薩提亞·納德拉在接受采訪的時候就感慨過,即便擁有大量的 GPU,也面臨著缺乏足夠的物理基礎設施(如機柜與電力環(huán)境)來安置它們的尷尬境地。
這也折射出了智駕行業(yè)一個被長期掩蓋的痛點:單純依靠堆砌 GPU,想“大力出奇跡”的模式,正在撞上一堵「物理現(xiàn)實與經(jīng)濟成本」的墻。
當行業(yè)的焦點都集中在英偉達、華為昇騰這些臺前的“算力卡”上時,一場關于操作系統(tǒng)、基礎軟件與異構計算的“隱形戰(zhàn)爭”早已在水面下打響。
阿里云副總裁李俊平在開場致辭中提出了一個公式:AI 的效能 = 數(shù)據(jù)(燃料)× 模型(引擎)× 軟件(油門和方向盤)。
今天的智駕競爭,正在從單一的模型之爭,演變?yōu)檫@三者乘積效應的系統(tǒng)工程對抗。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
一、這屆智駕,被“數(shù)據(jù)搬運”卡脖子
“談卡傷感情,沒卡沒感情。”這是前兩年智駕圈的真實寫照。但到了 2025 年,很多車企發(fā)現(xiàn),即便斥巨資買來了卡,訓練效率卻并沒有線性增長。
問題出在哪?GPU 在“偷懶”。
這其實不是什么硬件故障,而是數(shù)據(jù)“喂”得不夠快。
智駕研發(fā)并非只有模型訓練這一個環(huán)節(jié),它是一個包含數(shù)據(jù)采集、清洗、標注、挖掘、訓練、仿真到端側部署的一條長長的數(shù)據(jù)閉環(huán)。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
阿里云智能集團高級架構師張先國分享了一組數(shù)據(jù):智駕研發(fā)團隊,云端存儲的數(shù)據(jù)總量通常已達到 400PB 到 800PB,日增量在 1PB 以上。一個智駕企業(yè)同時進行多個模型訓練,消耗的算力經(jīng)常需要萬卡以上。
想象一下,GPU 就像是一臺擁有 F1 引擎的賽車,但如果給它輸油的管子(I/O帶寬)只有吸管那么細,引擎空轉(zhuǎn)就在所難免。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
在龍蜥大會的現(xiàn)場,多位專家指出了“數(shù)據(jù)閉環(huán)”中存在的隱形關卡:
一個是數(shù)據(jù)加載的問題。訓練開始前,海量的小文件(圖片、標注信息)需要從存儲層搬運到計算層。另一個是預處理可能遭受的瓶頸:視頻需要抽幀、解碼、清洗,訓練集群就在那里,但數(shù)據(jù)卡在緩存層過不來,GPU 只能閑置等待。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
阿里云產(chǎn)品專家錢君在演講中提到,為了解決這個問題,行業(yè)正在把目光投向存儲與操作系統(tǒng)的底層優(yōu)化。
例如,龍蜥操作系統(tǒng)(OpenAnolis)給出的方案是全鏈路的“疏通”:針對 CPFS(并行文件系統(tǒng)),龍蜥在 OS 層面進行了深度適配。緩存寫場景下的性能可以直接提升 10 倍。這意味著模型訓練中的 Checkpoint 保存時間大幅縮短:以前需要幾小時,現(xiàn)在幾十分鐘就能搞定。
這種“看不見”的基礎設施優(yōu)化,雖然沒有新開發(fā)一個大模型那么性感,但它決定了生產(chǎn)智能的效率和成本,是讓萬卡集群真正跑滿的關鍵。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
二、CPU :被忽視的“異構協(xié)同”
在智駕的模型訓練中,公眾通常認為關鍵的算力在于 GPU;但在本屆大會上,“CPU的挖掘”成為當下的新共識。
“不能只關注 GPU,CPU 在數(shù)據(jù)預處理、存儲 I/O 及邏輯控制中扮演著關鍵角色。” 中興通訊操作系統(tǒng)產(chǎn)品副總經(jīng)理胡沖在圓桌討論中直言。
事實上,在視頻轉(zhuǎn)圖片(抽幀)、數(shù)據(jù)清洗、以及 Spark 大數(shù)據(jù)分析環(huán)節(jié),CPU 才是主力軍。而且,隨著架構的演進,Arm 架構的服務器 CPU(例如如阿里云倚天 710 )正在展現(xiàn)出獨特的優(yōu)勢。
安謀科技(Arm China)云人工智能事業(yè)部總監(jiān)侯科鑫女士,在演講中向現(xiàn)場觀眾展示了數(shù)據(jù)中心架構的演進邏輯:隨著 NVIDIA Grace Hopper 異構加速平臺的推出,CPU 與 GPU 的“緊密協(xié)同處理”已成為行業(yè)明確的發(fā)展方向。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
為什么要協(xié)同?是為了打破“內(nèi)存墻”。
“視頻處理并不是簡單的計算,它對高負載下算力要求極高。”張先國指出。
智駕訓練需要把每秒視頻抽幀為 8-32 張圖片,在視頻解碼計算(如 H.264/H.265 格式)的高并發(fā)場景下,傳統(tǒng)的 x86 架構,由于睿頻(超線程)機制和功耗墻的存在,在高負載下往往會降頻。
而張先國分享的實測數(shù)據(jù)顯示,Arm 架構處理器憑借更多的物理核和大緩存(L1/L2 Cache),在智駕數(shù)據(jù)處理場景下表現(xiàn)驚人:
首先是視頻抽幀,性能比傳統(tǒng) x86 提升約 20%,成本卻降低了 20%-30%;
大數(shù)據(jù)清洗方面,由于擁有更大的 Cache(緩存),數(shù)據(jù) Miss 率極低,這意味著 CPU 不需要頻繁地去內(nèi)存“搬磚”,從而使端到端性能提升了 30%,在部分場景下甚至實現(xiàn)了翻倍。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
一個高效的智駕云端底座,必須是 CPU 與 GPU “各司其職、緊密抱團”的異構系統(tǒng)。
侯科鑫還從更宏觀的維度講述了硬件底座的變遷。她指出,為了打破“內(nèi)存墻”和功耗瓶頸,數(shù)據(jù)中心正在從通用服務器向“定制化 SoC + Chiplet”演進。
NVIDIA 的 Grace Hopper 平臺就是典型案例——通過將 Arm 架構 CPU 與 Hopper GPU 緊密互聯(lián),實現(xiàn)內(nèi)存共享,極大降低了數(shù)據(jù)搬運的延遲。這種 CPU 與 GPU 緊密協(xié)作的架構,正是為了解決單一算力無法應對復雜數(shù)據(jù)流的困境。Arm 推出的 Total Design 生態(tài)和 Neoverse CSS,正是以推動異構計算規(guī)模化落地為核心目標,讓芯片設計公司能節(jié)省大量工程投入,快速構建這種異構計算的「高速公路」。
![]()
圖片來源:NVIDIA
三、基礎軟件的魔法:不堆卡也能讓訓練變得更快
摩爾定律在放緩,硬件的紅利正在吃緊。這時候,軟件工程的價值就被進一步放大了。
阿里云智能集團編譯器技術總監(jiān)李三紅在圓桌環(huán)節(jié)提到了一個非常典型的矛盾:模型開發(fā)者的“爽”和底層工程師的“痛”。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
算法工程師喜歡用 PyTorch 的 Eager 模式,因為這樣寫代碼像寫 Python 一樣靈活,所見即所得;但這種模式對底層硬件極其不友好,運行效率低。而底層工程師希望用 Compile 模式,把代碼編譯成極致優(yōu)化的機器碼,但這又要求上層改代碼,門檻極高。
“上層的模型開發(fā)者追求開發(fā)效率(Eager Mode),底層的 Infra 追求成本和性能,這中間的 Gap(鴻溝),就是基礎軟件的機會。” 阿里云智能集團編譯器技術總監(jiān)李三紅在圓桌討論中一針見血地指出。
針對如何填補這一鴻溝的問題,阿里云智能集團產(chǎn)品專家錢君與高級架構師張先國在隨后的演講中展示了龍蜥操作系統(tǒng)(OpenAnolis)如何通過全鏈路優(yōu)化,在不改變硬件的情況下“白撿”性能:
存儲加速(IO 吞吐): 針對 CPFS(并行文件系統(tǒng)),系統(tǒng)在 OS 層面進行了深度適配。錢君披露的數(shù)據(jù)顯示,在緩存寫場景下,性能提升了驚人的 10 倍。這意味著模型訓練中的 Checkpoint 保存時間大幅縮短,斷點續(xù)訓不再是噩夢。
網(wǎng)絡加速(打破 TCP 限制): 張先國指出,通過部署自研的 eRDMA 協(xié)議,相比傳統(tǒng) TCP,延遲降低 3 倍,帶寬提升 4 倍(實測可達 18GB/s)。這讓數(shù)據(jù)在節(jié)點間的跳躍如同在本地總線般順滑。
編譯器優(yōu)化(榨干每一滴算力): 針對 PyTorch 等框架的運行效率痛點,利用 AI Compiler 進行算子融合。據(jù)錢君介紹,這套方案在部分通用模型上帶來了接近 100% 的性能提升,有效地解決了開發(fā)靈活性與運行效率不可兼得的難題。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
效果有多明顯?
地平線和小鵬汽車的案例顯示,通過這一套“操作系統(tǒng)+編譯器+調(diào)度”的組合拳,部分場景下的性能提升可達 30% 甚至 100%,而成本卻能下降 20%-60%。
在「降本增效」成為汽車產(chǎn)業(yè)主旋律的 2025 年,這種來自基礎軟件的“軟實力”,比盲目堆更多的卡,更有性價比。
四、眺望未來:世界模型與“合成數(shù)據(jù)”
如果說當下智駕行業(yè)發(fā)展的痛點是“效率”,那么未來的挑戰(zhàn)可能會是“認知”。
清華大學人工智能研究院視覺智能研究中心主任鄧志東教授在圓桌論壇上拋出了一個前瞻性觀點:智駕模型正在從單純的感知,向世界模型(World Model)演進。
![]()
圖片來源:CVPR 2024 Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving
目前的端到端大模型,雖然能處理很多場景,但面對極端的 Corner Case(長尾場景),靠實車采集的數(shù)據(jù)永遠是不夠的。
![]()
圖片來源:NVIDIA
“路是跑不完的,但世界是可以被模擬的。”
但這種演進這種演進對基礎設施提出了更苛刻的要求:
算力需求的指數(shù)級爆炸: 世界模型極重,不僅需要理解物理世界,還要生成虛擬物理世界。這可能需要數(shù)百億甚至更高的算力支撐,甚至觸及到供電能力的邊界。
合成數(shù)據(jù)的崛起: 真實路采數(shù)據(jù)的效率太低且稀缺。未來,大量的訓練數(shù)據(jù)將來自“虛擬物理世界”的高效生成。這對GPU 的渲染能力和 CPU 的邏輯模擬能力提出了雙重挑戰(zhàn)。
軟件定義的靈活性:正如中興操作系統(tǒng)產(chǎn)品線副總經(jīng)理胡沖在圓桌中所感慨的,算法迭代極快——“去年可能還是 BEV,今年就是 VLA 了”。而阿里云李三紅也證實,一線技術團隊確實清晰感知到了模型向 VLA 及世界模型演進的趨勢。這種軟件層面的極速狂奔,與硬件芯片較長的迭代周期形成了鮮明對比。這就要求編譯器和操作系統(tǒng)必須具備極強的適應性,通過軟件定義來抹平硬件迭代的時間差。AI 不僅要“看懂”視頻,還要能“生成”視頻,甚至要理解牛頓定律。
鄧教授指出,這需要底層算力支持極其復雜的“虛實遷移”。這意味著,未來的操作系統(tǒng)不僅要調(diào)度計算,還要調(diào)度“物理世界的規(guī)則”。
這也解釋了為什么像龍蜥(OpenAnolis)這樣的開源社區(qū),開始在這個階段強調(diào)“ AI 原生操作系統(tǒng)”的概念——因為舊的底座,真的撐不住新的世界了。
![]()
圖片來源:龍蜥社區(qū)(OpenAnolis)
五、開源底座的長期主義
從 2025 龍蜥操作系統(tǒng)大會的這場自動駕駛分論壇中,我們看到了汽車科技行業(yè)的一個明顯轉(zhuǎn)折:
大家不再盲目迷信硬件的堆砌,開始回歸計算機科學的常識——系統(tǒng)協(xié)同。
面對 Arm、x86、RISC-V 等復雜的芯片架構,面對日新月異的模型算法,車企和智駕公司不可能每一家都去從零手搓一套底層軟件。
而龍蜥社區(qū)的存在,就是為了提供一個標準化的技術底座,屏蔽底層異構硬件(不同架構的 CPU、GPU、NPU)的差異,讓車企和智駕公司能夠?qū)W⒂谏蠈幽P秃退惴ǖ膭?chuàng)新。正如 Arm 通過 Arm Total Design 聯(lián)合產(chǎn)業(yè)鏈一樣,軟件層面也需要這樣一個“連接器”來降低全行業(yè)的試錯成本。
正如胡沖所言:“通過社區(qū)共建、共享,降低車企的研發(fā)門檻與成本,是解決算力荒的另一種路徑。”
在算力資源有限、成本高企、模型日趨復雜的背景下,誰能更高效地榨干每一 Tops 算力的價值,誰能以更低的成本完成數(shù)據(jù)的閉環(huán)流轉(zhuǎn),誰就能在 L3+ 的量產(chǎn)前夜活下來。
數(shù)據(jù)是資產(chǎn),模型是能力,而軟件與操作系統(tǒng),是這一切的根基。
自動駕駛的下半場,不再是單點技術的突破,而是“數(shù)據(jù)-模型-軟件”全鏈路的生態(tài)戰(zhàn)爭。在這個戰(zhàn)場上,那個由 CPU、操作系統(tǒng)、編譯器、文件系統(tǒng)構成的龐大“新基座”,正在成為決定勝負的隱形力量。
對中國的自動駕駛產(chǎn)業(yè)而言,建立一個自主、可控、高效的基礎軟件生態(tài),其戰(zhàn)略意義或許絲毫不亞于擁有幾萬張顯卡。
因為只有根扎得夠深,智能的樹才能長得夠高夠穩(wěn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.