![]()
最近,英偉達GTC2026大會上,黃仁勛舉起“token之王”獎牌,反復強調:英偉達是加速計算公司,而非GPU公司。這句話看似簡單,卻藏著AI行業的底層轉向——從拼算力、拼芯片,轉向拼產出、拼全鏈路效率。
![]()
過去幾年,大家聊AI,總繞不開“算力軍備競賽”:誰的GPU更強、顯存更大、算力峰值更高。但黃仁勛看得更透:AI競賽早已變天,問題不再是“算得有多快”,而是“能否迅速、便宜地做出高質量結果”。就像木桶裝水,短板決定容量,AI的瓶頸早已從單一芯片,外溢到數據搬運、內存、網絡、推理全流程。而token,成了衡量AI產出的核心標尺——它是AI時代的“貨幣”,token越“聰明”(模型用更少token給出更準結果),價值就越高。
![]()
在這個新賽道上,英偉達不再只賣GPU,而是要做全棧AI基礎設施的定義者。從收購Groq推出LPU,到重講CUDA故事,再到構建“AI工廠”,黃仁勛的邏輯很清晰:用全棧協同設計,把“計算平臺”變成繞不開的基礎設施,讓整個行業跟著自己的“玩法”走。
一、Token為王:AI從“算力競賽”轉向“產出競賽”
黃仁勛把token比作AI時代的核心貨幣,這個比喻很形象。簡單說,token就是AI生成的文本、代碼、圖像等內容的基本單位。以前大家比的是“每秒能生成多少token”,現在比的是“每度電能生成多少有價值的token”——同樣電力,產出的token越精準、越有用,成本越低,競爭力就越強。
這背后是AI應用的徹底落地。從實驗室走向產業,AI不再是“炫技”,而是要賺錢。智能客服、自動駕駛、代碼生成、內容創作……這些場景都需要低延遲、高吞吐、低成本的推理能力。比如智能客服要秒回用戶,自動駕駛決策要毫秒級響應,代碼生成要快速輸出可用結果——這些都不是單純靠“更強GPU”能解決的。
GPU的優勢在訓練,擅長大規模并行計算,但在推理環節,尤其是超低延遲、高并發的token生成上,存在明顯短板:數據要頻繁在顯存和內存間搬運,動態調度容易擁堵,延遲不穩定。這就像高速公路,車多了就堵,而AI推理需要的是“高鐵式”的確定性、低延遲輸出。
為了補上這塊短板,英偉達去年12月斥資200億美元收購Groq,推出Groq3LPU(語言處理單元)。它不是取代GPU,而是做GPU的“推理協處理器”,專門解決“極低延遲下更快生成token”的問題。
Groq3LPU的設計很巧妙:采用確定性數據流架構,編譯器提前定好所有調度,運行時不用動態仲裁,就像高鐵時刻表,準點、不堵;搭載230MB片上SRAM,數據帶寬達80TB/s,首token延遲小于0.1秒,推理性能是H100的10倍,能耗僅為其三分之一。和VeraRubin平臺配合后,每兆瓦token生成效率能提升35倍,token成本直接降90%。
這就是黃仁勛的思路:拆分計算+混合架構。GPU負責訓練和復雜計算,LPU負責低延遲推理,兩者協同,把“更快(吞吐)”和“更聰明(價值)”的曲線拉滿,讓每一分電力都轉化成更多高價值token。
二、CUDA20年:從“算力平臺”到“全棧世界引擎”
今年是CUDA誕生20周年,黃仁勛在GTC上重新講起CUDA的故事,意義早已不同。
2006年,CUDA剛推出時,只是把GPU從游戲顯卡變成通用計算工具,當時沒人看好,覺得“科學家的小眾需求撐不起營收”。但黃仁勛堅持投入,連續6年不縮減研發預算。2012年,吳恩達團隊用CUDA訓練AlexNet,圖像識別準確率突破80%,直接引爆深度學習革命,CUDA的價值才被徹底驗證。
20年過去,CUDA早已不是簡單的編程框架,而是全球AI的底層操作系統。它擁有數千種工具、編譯器、框架和庫,全球數億塊GPU和計算系統運行CUDA,形成了“裝機量-開發者-新市場-生態”的強大飛輪。裝機量吸引開發者,開發者創造新算法,算法催生新市場,新市場帶來更多裝機量——這個飛輪越轉越快,成了英偉達最牢的護城河。
但黃仁勛的野心不止于此。他說,現在AI開始直接使用人類的軟件工具——Excel、Photoshop、工業設計軟件、數據庫……這些工具原本是為人設計的,速度跟不上AI的節奏。所以,整個軟件世界都要加速,而且必須整體加速,才能跟上AI智能體(Agent)的速度。
這就是英偉達的新定位:技術棧公司,而非單純的芯片廠商或解決方案提供商。黃仁勛明確表示,英偉達永遠不做最終產品,只做技術棧的領導者,然后把技術開放給所有人。
怎么做?核心是**“垂直整合,橫向開放”**。先自己把一整套軟硬件、系統、模型垂直做出來,極致優化;再水平開放,讓客戶按需使用,不一定非要用全部英偉達芯片或軟件。比如VeraRubin平臺,包含7款芯片、5套機架級系統、一臺超級計算機,從CPU、GPU、LPU到存儲、網絡,全棧協同設計,每瓦特推理性能是上一代的10倍。英偉達先自己打磨好這套“AI工廠”,再開放給云廠商、OEM、企業客戶,讓他們在這個體系里構建自己的AI應用。
黃仁勛的邏輯很簡單:先做一遍,再開放出去。只有自己站在技術最前沿,做出最好的全棧方案,才能讓行業認可、跟隨,最終把自己的技術棧變成行業標準。
三、AI的終極競爭:不在模型,而在技術棧主導權
很多人覺得,AI的競爭就是大模型的競爭——誰的模型參數更多、效果更好,誰就贏。但黃仁勛潑了冷水:真正的競爭不在模型本身,而在技術棧的主導權。
他直言,Transformer不是終極架構,在長記憶、物理規律、連續任務上已經不夠用,下一代模型需要混合架構。AI不再只處理token,還要理解記憶、結構、連續動作,從語言走向現實世界,從“生成內容”變成“自主行動”。
這意味著,AI的復雜度呈指數級上升,單一芯片、單一軟件根本扛不住。AI的瓶頸不是某一個環節,而是全鏈條同時吃緊——電力、芯片、內存、網絡、軟件、模型、數據,每一環都不能弱。誰能把這些環節協同起來,做到極致優化,誰就能掌控行業節奏。
英偉達的優勢,恰恰在“全棧協同設計”。從芯片(GPU、LPU、CPU)到系統(VeraRubin、AI工廠),再到軟件(CUDA-X、開源模型),甚至電力、冷卻、供應鏈,英偉達都在做整體優化。比如Blackwell架構的NVLink72,研發難度極大,黃仁勛在發布會上特意感謝團隊,但最終讓單機柜算力密度突破極限,能耗大幅降低。
這種全棧能力,讓英偉達跳出了“賣芯片”的單一邏輯。黃仁勛算過一筆賬:數據中心的電力是固定的,1吉瓦就是1吉瓦,每瓦性能直接轉化為收入。VeraRubin每瓦推理性能是上一代的10倍,意味著同樣電力,能賺10倍的錢。對企業來說,選英偉達的技術棧,就是選“更低成本、更高產出”,這是無法拒絕的誘惑。
更關鍵的是,英偉達正在構建**“AI工廠”**——把數據中心變成規模化生產高價值token的工廠。從訓練到推理,從模型到應用,全流程在英偉達的技術棧里跑,客戶不用再操心底層兼容性、優化問題,只需要專注業務。這種“一站式”的基礎設施,會讓行業越來越依賴英偉達的體系,最終形成“強者恒強”的局面。
四、從GPU到加速計算:英偉達的長期主義與終局思維
黃仁勛反復強調“英偉達是加速計算公司,不是GPU公司”,本質是終局思維——看清楚AI的未來,提前布局,不被眼前的產品定義邊界。
1993年創立英偉達時,他就預判通用CPU的局限性,提出“加速計算”,用專用芯片解決特定場景的計算難題。1999年定義GPU,2006年推出CUDA,2016年發布DGX-1AI工廠,2025年收購Groq做LPU……每一步,都是在“加速計算”的大框架下,不斷拓展邊界。
他從不擔心業務鋪得太開,因為英偉達始終有一套統一的理論:一邊是CUDA-X計算與軟件平臺,一邊是全棧垂直優化的計算系統公司,兩者結合,把“計算機”變成平臺,再集成到云廠商和OEM體系,最終構建AI工廠。看似做了很多事,其實都是在復制同一套方法——用全棧協同設計,打造繞不開的基礎設施。
對行業來說,這既是機遇也是挑戰。機遇是,英偉達的全棧技術降低了AI落地的門檻,讓更多企業能用上高效的AI能力;挑戰是,技術棧的主導權越來越集中,后來者想要突破,難度越來越大。
但黃仁勛很清醒:AI的競爭,最終是“玩法”的競爭。誰的技術棧被全行業采用,誰就能定義標準、主導未來。而英偉達的目標,就是成為那個“定義者”——不是靠壟斷,而是靠更好的效率、更低的成本、更全的能力,讓行業自愿選擇自己的體系。
五、AI的下一站,是全棧效率的時代
黃仁勛的“token之王”宣言,揭開了AI行業的新篇章。從拼算力到拼產出,從單一芯片到全棧協同,從GPU到加速計算,英偉達正在帶領行業進入一個更務實、更高效的時代。
未來,AI不會再是“算力怪獸”的獨角戲,而是全鏈路優化的綜合比拼。誰能把電力、芯片、軟件、模型、數據完美協同,把每一分資源都轉化成高價值token,誰就能在AI時代站穩腳跟。
而英偉達,已經用20年的CUDA積累、全棧的技術布局、清晰的終局思維,站在了這個時代的最前沿。它不再只是賣GPU的廠商,而是AI世界的基礎設施建造者——這,或許就是黃仁勛反復強調“加速計算”的真正深意。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.