網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

黃仁勛為什么停不下來？

2026-03-28 09:49:37　來源: 鈦媒體APP

北京舉報

分享至

文 | 深流研究所，作者 | 絳楓

2025年12月，黃仁勛做客Joe Rogan播客，承認(rèn)自己一直處于焦慮狀態(tài)。他說了一句用了三十多年的老話——"英偉達(dá)離倒閉永遠(yuǎn)只有30天"，然后補了一句很少有人注意到的話：

"這不是口號，是真實感受，脆弱感和不確定感從未離開過，今天早上醒來的感覺和創(chuàng)業(yè)第一天沒有區(qū)別。"

那個月底，英偉達(dá)以約 200 億美元現(xiàn)金收購了 AI 芯片公司 Groq 的核心資產(chǎn)。

隨后的三個月，黃仁勛開始了他職業(yè)生涯中可能最密集的一輪公開露面。

2026年1月出席CES并發(fā)表演講，他宣布AI"正式接管物理世界"；隨后飛往中國，在上海逛菜場、在深圳參加年會、拜訪供應(yīng)鏈。

2月，在美國加州總部附近的炸雞店，宴請30名SK海力士核心工程師；同月財報電話會上，提出"算力等于營收"。

3月，他極其罕見地發(fā)表了一篇萬字長文，隨后在GTC大會做了兩個多小時的主題演講，兩天后又坐在金融分析師面前開了一場閉門問答會；緊接著是All-In Podcast將近兩小時的長談；再然后是Lex Fridman播客兩個半小時的深度對話。

僅在GTC結(jié)束后的一周內(nèi)，黃仁勛至少接受了四場獨立訪談。

一個年營收2159億美元、毛利率超過70%、芯片供不應(yīng)求的公司的CEO，為什么停不下來？

他在反復(fù)說什么？

如果把黃仁勛這三個月里所有公開發(fā)言放在一起看，一個很明顯的變化浮現(xiàn)出來：他不再只談GPU了。

過去幾年的GTC，舞臺上的核心永遠(yuǎn)是新一代GPU——多少個晶體管、多快的計算速度、比上一代強多少倍。這是英偉達(dá)的傳統(tǒng)節(jié)目。

但2026年的GTC不一樣。黃仁勛提了二十多次的詞不是GPU，是"AI工廠"。

在 CES 上，他說"計算行業(yè)的每一層技術(shù)堆棧都在被重新構(gòu)建"，還判斷"所有 SaaS 公司都將變成 AaaS 公司"。在達(dá)沃斯他說的是："這是人類歷史上規(guī)模最大的基礎(chǔ)設(shè)施建設(shè)。"在財報電話會上他說的是："新的AI世界里，沒有算力就沒有token，沒有token就沒有收入。"

把這些話串在一起，你會發(fā)現(xiàn)他不是在做產(chǎn)品發(fā)布，而是在重新定義一件事——英偉達(dá)是什么。

不是一家賣GPU的公司，而是一家"AI工廠"。客戶不是在買芯片，是在買一套完整的推理生產(chǎn)系統(tǒng)——進(jìn)去的是電力，出來的是可以賣錢的token。GPU只是這座工廠的生產(chǎn)設(shè)備之一，而不是全部。

這個定義跟過去十年市場對英偉達(dá)的認(rèn)知完全不同。過去十年，英偉達(dá)就是GPU，GPU就是英偉達(dá)。它的股價跟GPU出貨量掛鉤，它的估值邏輯按芯片公司來打。

黃仁勛過去三個月反復(fù)強調(diào)英偉達(dá)的新角色，這實際上是在做一次大規(guī)模的認(rèn)知校準(zhǔn)——不是對內(nèi)部，是對華爾街、對客戶、對整個產(chǎn)業(yè)。他在說：你們對英偉達(dá)的理解需要更新了。

為什么是現(xiàn)在？

這個時間點不是隨機的。英偉達(dá)正站在一個由它創(chuàng)造，但也會被它顛覆的變化面前。

AI行業(yè)的算力需求正在發(fā)生一次結(jié)構(gòu)性的遷移：從訓(xùn)練轉(zhuǎn)向推理。

訓(xùn)練是造模型——花幾個月訓(xùn)完，一次性投入。推理是用模型——每一次ChatGPT回答問題、每一個AI agent執(zhí)行任務(wù)、每一段 AI 生成的視頻。推理是持續(xù)的、永不停歇的。黃仁勛在GTC上給了一個數(shù)字：兩年內(nèi)，英偉達(dá)平臺上的token生成速率從2200萬增長到了7億，350倍。摩爾定律同期只能帶來1.5倍的提升。

推理是增長故事。但它有一個英偉達(dá)必須面對的事實：GPU對推理的效率，不如對訓(xùn)練。

一次大語言模型推理包含兩個階段。預(yù)填充——一次性處理用戶輸入的整段文字，數(shù)據(jù)量大、高度并行，GPU效率極高。解碼——逐字生成回復(fù)，每生成一個token，要重新讀取模型全部參數(shù)但只做極少量計算。GPU的成千上萬個計算單元在解碼時大量空轉(zhuǎn)，瓶頸不是算力不夠，而是數(shù)據(jù)搬運不夠快。

這不是性能問題，是架構(gòu)錯配，用一臺為大規(guī)模并行設(shè)計的機器去做逐步串行的活。

黃仁勛在 GTC 上釋放了一個重要信號：并不是所有高價值推理負(fù)載都該繼續(xù)由通用 GPU 獨立承擔(dān)，部分場景需要引入專門針對 decode 優(yōu)化的硬件。

這也解釋了英偉達(dá)為什么要押注 Groq 的資產(chǎn)和其對應(yīng)的架構(gòu)能力。

Groq的LPU芯片架構(gòu)跟GPU幾乎完全相反：靜態(tài)調(diào)度、確定性延遲、500MB SRAM直接焊在芯片上。它在預(yù)填充和訓(xùn)練上完全不是GPU的對手。但在逐token解碼這個GPU較弱的環(huán)節(jié)，LPU的內(nèi)存帶寬是150TB/秒，英偉達(dá)最新Rubin GPU是22TB/秒，將近7倍。

GTC上發(fā)布的Groq 3 LPX搭配Vera Rubin GPU，在高交互性推理場景下效率是純GPU方案的35倍。黃仁勛的建議配置是：如果你的工作負(fù)載主要是高吞吐的，100% GPU夠了。如果有大量編碼和高價值token生成需求，每1到4個Groq機架搭配1個GPU機架。

但光有兩種芯片不夠。你還需要一個東西來決定——每一個推理請求進(jìn)來時，預(yù)填充交給誰、解碼交給誰、緩存放哪里、帶寬怎么分。

這就是Dynamo。

從賣芯片到賣工廠

Dynamo是英偉達(dá)在GTC上跟Groq 3一起發(fā)布的。這個名字來自西門子在1866年發(fā)明的發(fā)電機。

它不是芯片，不是推理引擎，而是一套調(diào)度層軟件——英偉達(dá)稱之為"推理操作系統(tǒng)"。

AWS、Azure、Google Cloud、Oracle同時宣布采用。

理解Dynamo為什么重要，需要先看清英偉達(dá)過去三十年的商業(yè)模式。

1999年到2006年，英偉達(dá)賣游戲顯卡。2006年CUDA發(fā)布后，客戶從游戲玩家擴展到科研機構(gòu)和高性能計算中心。2012年AlexNet之后，客戶從科研機構(gòu)擴展到科技巨頭的AI數(shù)據(jù)中心。芯片越賣越貴——從幾百美元的GeForce到幾萬美元的H100，再到上百萬美元的GB200 NVL72機架——但英偉達(dá)的角色始終沒變：造芯片、賣芯片。客戶買回去怎么搭系統(tǒng)、怎么做調(diào)度，是客戶自己的事。

Dynamo改變了這一點。

有了Dynamo之后，客戶不只是買英偉達(dá)的GPU和Groq的LPU——它們的調(diào)度、協(xié)同、任務(wù)分配全都運行在英偉達(dá)的軟件上。英偉達(dá)不再只是賣零件，它開始提供整套工廠的運營系統(tǒng)。

如果把這件事對標(biāo)到PC時代，英偉達(dá)過去的角色更像英特爾——芯片很強，但客戶在芯片之上自建生態(tài)。Dynamo讓它開始向微軟的位置移動——不只提供算力，而是定義算力如何被調(diào)度和消費。

黃仁勛在GTC上展示了他設(shè)想的定價模型：AI推理服務(wù)分五級，從免費到每百萬token 150美元。這個分層只有在異構(gòu)調(diào)度（不同層級分配給不同芯片）的前提下才成立。Dynamo是實現(xiàn)這種分層的基礎(chǔ)設(shè)施。

他在達(dá)沃斯把AI比作"五層蛋糕"——能源、芯片、數(shù)據(jù)中心、模型、應(yīng)用。他在All-In Podcast上反復(fù)解釋"token工廠經(jīng)濟學(xué)"。

所有這些表述指向的是同一件事：英偉達(dá)想賣的不再是芯片，而是工廠。 不是一顆GPU，而是包含GPU、LPU、CPU、網(wǎng)絡(luò)處理器、調(diào)度軟件、定價體系在內(nèi)的完整推理生產(chǎn)系統(tǒng)。

從賣零件到賣工廠——這是英偉達(dá)三十年來商業(yè)模式的第一次質(zhì)變。

他以前賭過一次

黃仁勛在Lex Fridman播客上講了一段CUDA早年的故事，是他此前很少公開講的細(xì)節(jié)。

2006年CUDA發(fā)布時，英偉達(dá)做了一個決定：把CUDA放進(jìn)每一塊GeForce消費顯卡里。不管玩家需不需要通用計算，每塊顯卡都內(nèi)置CUDA模塊。

這個決定的代價是：每塊GeForce的成本增加了50%。當(dāng)時英偉達(dá)的毛利率只有35%。這筆支出幾乎吞掉了全部利潤。

市值從六七十億美元跌到了15億美元左右。

黃仁勛說他當(dāng)時去跟董事會解釋：消費者不會為CUDA買單，但如果CUDA能進(jìn)入工作站和超級計算機領(lǐng)域，也許能回收利潤。CUDA最終實現(xiàn)了這個"也許"，但花了整整十年。

面對一個風(fēng)險高、回報周期長的決策，英偉達(dá)為什么還是做了？他在播客里給出的邏輯是："計算平臺的核心是開發(fā)者，開發(fā)者跟著安裝基數(shù)走。"CUDA放進(jìn)GeForce，意味著全世界每一臺裝了英偉達(dá)顯卡的電腦都支持CUDA。開發(fā)者只要寫一套代碼就能在所有這些機器上運行。

這就是后來400多萬CUDA開發(fā)者、80%以上AI訓(xùn)練芯片市場份額的源頭。

現(xiàn)在，黃仁勛又做了一次類似的選擇。Dynamo是開源的——任何人都可以用。Groq 3 LPX從交易落地到產(chǎn)品公開亮相，只過了三個月。英偉達(dá)在推理還沒成為收入主力的時候就大舉投入：200億美元收購Groq、開發(fā)Dynamo、構(gòu)建異構(gòu)推理架構(gòu)。

在閉門會上，分析師問了一個直接的問題：推理在你的收入里占多少？黃仁勛沒有給出具體數(shù)字。他的2159億美元年營收里，大頭仍然是訓(xùn)練GPU。推理主導(dǎo)的那個未來，在自家的收入結(jié)構(gòu)里還不是主角。

但他在用三個月的密集露面向全世界傳遞一個信號：英偉達(dá)已經(jīng)在為那個未來全力押注了。

收獲掌聲，也直面質(zhì)疑

CUDA的賭注花了十年才回本。這一次會等多久，黃仁勛自己也不確定。但他不會停下來。

在這三個月的密集露面中，他一邊收獲掌聲，一邊直面質(zhì)疑。

GTC結(jié)束兩天后的閉門會上，針對黃仁勛力推的"token經(jīng)濟學(xué)"，有分析師直接問他：推理在你的收入里到底占多少？All-In Podcast播客里，主持人David Sacks指出，英偉達(dá)50億美元一座的AI工廠比競爭對手貴了近一倍，也有人問"云廠商自研芯片會不會替代英偉達(dá)"。而在達(dá)沃斯上，全球媒體更是把話題對準(zhǔn)了"AI泡沫論"。

有媒體甚至把他過去一年的角色總結(jié)為五個字：超級銷售員。

這些質(zhì)疑來自不同場合，不同的人，實際都在追問黃仁勛同一個問題：你描繪的那個未來是真的嗎？還是你需要所有人相信它是真的？

黃仁勛很少回避質(zhì)疑，甚至?xí)鲃踊負(fù)簟Ｋ且粋€極度理性的人，傳記作者威特跟了他兩年，對他的評價是兇猛、無情、負(fù)責(zé)。然而，除了談?wù)撔袠I(yè)趨勢、公司愿景，黃仁勛最近也開始說起遺忘、無知、生死這類感性的話題。

過去三十年，他很少公開說過這些。如今，他會說"如果當(dāng)初知道創(chuàng)辦英偉達(dá)要面臨多少痛苦，我永遠(yuǎn)不會做"。他也會說"希望死在工作崗位上"。

為什么停不下來？他在最新的Lex Fridman的播客上說了十個字，算是他的人生信條：別被解雇，別無聊，別死掉。然后他補了一句："這三件事每一件都是高風(fēng)險的。"

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.