文 | 深流研究所,作者 | 絳楓
2025年12月,黃仁勛做客Joe Rogan播客,承認(rèn)自己一直處于焦慮狀態(tài)。他說了一句用了三十多年的老話——"英偉達(dá)離倒閉永遠(yuǎn)只有30天",然后補了一句很少有人注意到的話:
"這不是口號,是真實感受,脆弱感和不確定感從未離開過,今天早上醒來的感覺和創(chuàng)業(yè)第一天沒有區(qū)別。"
那個月底,英偉達(dá)以約 200 億美元現(xiàn)金收購了 AI 芯片公司 Groq 的核心資產(chǎn)。
隨后的三個月,黃仁勛開始了他職業(yè)生涯中可能最密集的一輪公開露面。
2026年1月出席CES并發(fā)表演講,他宣布AI"正式接管物理世界";隨后飛往中國,在上海逛菜場、在深圳參加年會、拜訪供應(yīng)鏈。
2月,在美國加州總部附近的炸雞店,宴請30名SK海力士核心工程師;同月財報電話會上,提出"算力等于營收"。
3月,他極其罕見地發(fā)表了一篇萬字長文,隨后在GTC大會做了兩個多小時的主題演講,兩天后又坐在金融分析師面前開了一場閉門問答會;緊接著是All-In Podcast將近兩小時的長談;再然后是Lex Fridman播客兩個半小時的深度對話。
僅在GTC結(jié)束后的一周內(nèi),黃仁勛至少接受了四場獨立訪談。
一個年營收2159億美元、毛利率超過70%、芯片供不應(yīng)求的公司的CEO,為什么停不下來?
他在反復(fù)說什么?
如果把黃仁勛這三個月里所有公開發(fā)言放在一起看,一個很明顯的變化浮現(xiàn)出來:他不再只談GPU了。
過去幾年的GTC,舞臺上的核心永遠(yuǎn)是新一代GPU——多少個晶體管、多快的計算速度、比上一代強多少倍。這是英偉達(dá)的傳統(tǒng)節(jié)目。
但2026年的GTC不一樣。黃仁勛提了二十多次的詞不是GPU,是"AI工廠"。
在 CES 上,他說"計算行業(yè)的每一層技術(shù)堆棧都在被重新構(gòu)建",還判斷"所有 SaaS 公司都將變成 AaaS 公司"。在達(dá)沃斯他說的是:"這是人類歷史上規(guī)模最大的基礎(chǔ)設(shè)施建設(shè)。"在財報電話會上他說的是:"新的AI世界里,沒有算力就沒有token,沒有token就沒有收入。"
把這些話串在一起,你會發(fā)現(xiàn)他不是在做產(chǎn)品發(fā)布,而是在重新定義一件事——英偉達(dá)是什么。
不是一家賣GPU的公司,而是一家"AI工廠"。客戶不是在買芯片,是在買一套完整的推理生產(chǎn)系統(tǒng)——進(jìn)去的是電力,出來的是可以賣錢的token。GPU只是這座工廠的生產(chǎn)設(shè)備之一,而不是全部。
這個定義跟過去十年市場對英偉達(dá)的認(rèn)知完全不同。過去十年,英偉達(dá)就是GPU,GPU就是英偉達(dá)。它的股價跟GPU出貨量掛鉤,它的估值邏輯按芯片公司來打。
黃仁勛過去三個月反復(fù)強調(diào)英偉達(dá)的新角色,這實際上是在做一次大規(guī)模的認(rèn)知校準(zhǔn)——不是對內(nèi)部,是對華爾街、對客戶、對整個產(chǎn)業(yè)。他在說:你們對英偉達(dá)的理解需要更新了。
為什么是現(xiàn)在?
這個時間點不是隨機的。英偉達(dá)正站在一個由它創(chuàng)造,但也會被它顛覆的變化面前。
AI行業(yè)的算力需求正在發(fā)生一次結(jié)構(gòu)性的遷移:從訓(xùn)練轉(zhuǎn)向推理。
訓(xùn)練是造模型——花幾個月訓(xùn)完,一次性投入。推理是用模型——每一次ChatGPT回答問題、每一個AI agent執(zhí)行任務(wù)、每一段 AI 生成的視頻。推理是持續(xù)的、永不停歇的。黃仁勛在GTC上給了一個數(shù)字:兩年內(nèi),英偉達(dá)平臺上的token生成速率從2200萬增長到了7億,350倍。摩爾定律同期只能帶來1.5倍的提升。
推理是增長故事。但它有一個英偉達(dá)必須面對的事實:GPU對推理的效率,不如對訓(xùn)練。
一次大語言模型推理包含兩個階段。預(yù)填充——一次性處理用戶輸入的整段文字,數(shù)據(jù)量大、高度并行,GPU效率極高。解碼——逐字生成回復(fù),每生成一個token,要重新讀取模型全部參數(shù)但只做極少量計算。GPU的成千上萬個計算單元在解碼時大量空轉(zhuǎn),瓶頸不是算力不夠,而是數(shù)據(jù)搬運不夠快。
這不是性能問題,是架構(gòu)錯配,用一臺為大規(guī)模并行設(shè)計的機器去做逐步串行的活。
黃仁勛在 GTC 上釋放了一個重要信號:并不是所有高價值推理負(fù)載都該繼續(xù)由通用 GPU 獨立承擔(dān),部分場景需要引入專門針對 decode 優(yōu)化的硬件。
這也解釋了英偉達(dá)為什么要押注 Groq 的資產(chǎn)和其對應(yīng)的架構(gòu)能力。
Groq的LPU芯片架構(gòu)跟GPU幾乎完全相反:靜態(tài)調(diào)度、確定性延遲、500MB SRAM直接焊在芯片上。它在預(yù)填充和訓(xùn)練上完全不是GPU的對手。但在逐token解碼這個GPU較弱的環(huán)節(jié),LPU的內(nèi)存帶寬是150TB/秒,英偉達(dá)最新Rubin GPU是22TB/秒,將近7倍。
GTC上發(fā)布的Groq 3 LPX搭配Vera Rubin GPU,在高交互性推理場景下效率是純GPU方案的35倍。黃仁勛的建議配置是:如果你的工作負(fù)載主要是高吞吐的,100% GPU夠了。如果有大量編碼和高價值token生成需求,每1到4個Groq機架搭配1個GPU機架。
但光有兩種芯片不夠。你還需要一個東西來決定——每一個推理請求進(jìn)來時,預(yù)填充交給誰、解碼交給誰、緩存放哪里、帶寬怎么分。
這就是Dynamo。
從賣芯片到賣工廠
Dynamo是英偉達(dá)在GTC上跟Groq 3一起發(fā)布的。這個名字來自西門子在1866年發(fā)明的發(fā)電機。
它不是芯片,不是推理引擎,而是一套調(diào)度層軟件——英偉達(dá)稱之為"推理操作系統(tǒng)"。
AWS、Azure、Google Cloud、Oracle同時宣布采用。
理解Dynamo為什么重要,需要先看清英偉達(dá)過去三十年的商業(yè)模式。
1999年到2006年,英偉達(dá)賣游戲顯卡。2006年CUDA發(fā)布后,客戶從游戲玩家擴展到科研機構(gòu)和高性能計算中心。2012年AlexNet之后,客戶從科研機構(gòu)擴展到科技巨頭的AI數(shù)據(jù)中心。芯片越賣越貴——從幾百美元的GeForce到幾萬美元的H100,再到上百萬美元的GB200 NVL72機架——但英偉達(dá)的角色始終沒變:造芯片、賣芯片。客戶買回去怎么搭系統(tǒng)、怎么做調(diào)度,是客戶自己的事。
Dynamo改變了這一點。
有了Dynamo之后,客戶不只是買英偉達(dá)的GPU和Groq的LPU——它們的調(diào)度、協(xié)同、任務(wù)分配全都運行在英偉達(dá)的軟件上。英偉達(dá)不再只是賣零件,它開始提供整套工廠的運營系統(tǒng)。
如果把這件事對標(biāo)到PC時代,英偉達(dá)過去的角色更像英特爾——芯片很強,但客戶在芯片之上自建生態(tài)。Dynamo讓它開始向微軟的位置移動——不只提供算力,而是定義算力如何被調(diào)度和消費。
黃仁勛在GTC上展示了他設(shè)想的定價模型:AI推理服務(wù)分五級,從免費到每百萬token 150美元。這個分層只有在異構(gòu)調(diào)度(不同層級分配給不同芯片)的前提下才成立。Dynamo是實現(xiàn)這種分層的基礎(chǔ)設(shè)施。
他在達(dá)沃斯把AI比作"五層蛋糕"——能源、芯片、數(shù)據(jù)中心、模型、應(yīng)用。他在All-In Podcast上反復(fù)解釋"token工廠經(jīng)濟學(xué)"。
所有這些表述指向的是同一件事:英偉達(dá)想賣的不再是芯片,而是工廠。 不是一顆GPU,而是包含GPU、LPU、CPU、網(wǎng)絡(luò)處理器、調(diào)度軟件、定價體系在內(nèi)的完整推理生產(chǎn)系統(tǒng)。
從賣零件到賣工廠——這是英偉達(dá)三十年來商業(yè)模式的第一次質(zhì)變。
他以前賭過一次
黃仁勛在Lex Fridman播客上講了一段CUDA早年的故事,是他此前很少公開講的細(xì)節(jié)。
2006年CUDA發(fā)布時,英偉達(dá)做了一個決定:把CUDA放進(jìn)每一塊GeForce消費顯卡里。不管玩家需不需要通用計算,每塊顯卡都內(nèi)置CUDA模塊。
這個決定的代價是:每塊GeForce的成本增加了50%。當(dāng)時英偉達(dá)的毛利率只有35%。這筆支出幾乎吞掉了全部利潤。
市值從六七十億美元跌到了15億美元左右。
黃仁勛說他當(dāng)時去跟董事會解釋:消費者不會為CUDA買單,但如果CUDA能進(jìn)入工作站和超級計算機領(lǐng)域,也許能回收利潤。CUDA最終實現(xiàn)了這個"也許",但花了整整十年。
面對一個風(fēng)險高、回報周期長的決策,英偉達(dá)為什么還是做了?他在播客里給出的邏輯是:"計算平臺的核心是開發(fā)者,開發(fā)者跟著安裝基數(shù)走。"CUDA放進(jìn)GeForce,意味著全世界每一臺裝了英偉達(dá)顯卡的電腦都支持CUDA。開發(fā)者只要寫一套代碼就能在所有這些機器上運行。
這就是后來400多萬CUDA開發(fā)者、80%以上AI訓(xùn)練芯片市場份額的源頭。
現(xiàn)在,黃仁勛又做了一次類似的選擇。Dynamo是開源的——任何人都可以用。Groq 3 LPX從交易落地到產(chǎn)品公開亮相,只過了三個月。英偉達(dá)在推理還沒成為收入主力的時候就大舉投入:200億美元收購Groq、開發(fā)Dynamo、構(gòu)建異構(gòu)推理架構(gòu)。
在閉門會上,分析師問了一個直接的問題:推理在你的收入里占多少?黃仁勛沒有給出具體數(shù)字。他的2159億美元年營收里,大頭仍然是訓(xùn)練GPU。推理主導(dǎo)的那個未來,在自家的收入結(jié)構(gòu)里還不是主角。
但他在用三個月的密集露面向全世界傳遞一個信號:英偉達(dá)已經(jīng)在為那個未來全力押注了。
收獲掌聲,也直面質(zhì)疑
CUDA的賭注花了十年才回本。這一次會等多久,黃仁勛自己也不確定。但他不會停下來。
在這三個月的密集露面中,他一邊收獲掌聲,一邊直面質(zhì)疑。
GTC結(jié)束兩天后的閉門會上,針對黃仁勛力推的"token經(jīng)濟學(xué)",有分析師直接問他:推理在你的收入里到底占多少?All-In Podcast播客里,主持人David Sacks指出,英偉達(dá)50億美元一座的AI工廠比競爭對手貴了近一倍,也有人問"云廠商自研芯片會不會替代英偉達(dá)"。而在達(dá)沃斯上,全球媒體更是把話題對準(zhǔn)了"AI泡沫論"。
有媒體甚至把他過去一年的角色總結(jié)為五個字:超級銷售員。
這些質(zhì)疑來自不同場合,不同的人,實際都在追問黃仁勛同一個問題:你描繪的那個未來是真的嗎?還是你需要所有人相信它是真的?
黃仁勛很少回避質(zhì)疑,甚至?xí)鲃踊負(fù)簟K且粋€極度理性的人,傳記作者威特跟了他兩年,對他的評價是兇猛、無情、負(fù)責(zé)。然而,除了談?wù)撔袠I(yè)趨勢、公司愿景,黃仁勛最近也開始說起遺忘、無知、生死這類感性的話題。
過去三十年,他很少公開說過這些。如今,他會說"如果當(dāng)初知道創(chuàng)辦英偉達(dá)要面臨多少痛苦,我永遠(yuǎn)不會做"。他也會說"希望死在工作崗位上"。
為什么停不下來?他在最新的Lex Fridman的播客上說了十個字,算是他的人生信條:別被解雇,別無聊,別死掉。然后他補了一句:"這三件事每一件都是高風(fēng)險的。"
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.