網易首頁 > 網易號 > 正文申請入駐

英偉達改賣Token？黃仁勛GTC后發聲：token就是AI新通貨，值錢的不是算力，是“每度電的智商

2026-03-22 10:18:48　來源: InfoQ

北京舉報

分享至

作者｜木子

“記住，英偉達是一家加速計算公司，而不是一家 GPU 公司！ ”

前幾天舉起“token 之王”獎牌的黃仁勛，在最近的一次采訪中這樣強調。

在他看來，目前的 AI 競賽，已經從拼算力變成拼產出，問題不再只是“算得有多快”，而是：能否迅速、便宜地做出高質量結果。

雖然 GPU 本質也算加速計算，但顯然它只“計算”這一環是遠遠不夠的，現在 AI 的新挑戰，早已外溢到數據搬運、內存、網絡和推理流程。整條鏈路都必須一起提速。

這就像木桶效應，只要鏈路里有一環慢，最終的產出就會被卡住。

該示意圖由 AI 生成

那最終的“產出”如何衡量？

一個簡單直接的方式就是看token，這個 AI 時代的“產出單位”。

黃仁勛直言道，你可以把 token 看作 AI 時代的核心貨幣，token 越聰明，你就能賣得越貴！

當然，這實際上并不是指 token 本身“聰明”，畢竟其本質只是文本單位，真正“聰明”的是生成這個 token 的模型。如果一個模型用更少的 token，就能一次性給出更準確、更有用的結果，那這些 token 的“價值”就更高。

在 GTC 上新亮相的 Groq LPU，就是英偉達針對“token 產出”給出的一個解法：他們收購了這家專注超低延遲推理芯片的公司，并共同推出了新的 Groq LPU。

它并不是用來取代 GPU，而是專門解決一個問題：如何在極低延遲下，更快地產生 token。

在 GTC 演講后，老黃接受了 Stratechery 創始人 Ben Thompson 的專訪，講清了三件更底層、更關鍵的事情：AI 的瓶頸在電力而非芯片，下一代推理將走向 GPU+LPU 的混合架構，而真正的競爭不在模型本身，而在技術棧的主導權。

他的核心觀點整理總結如下：

整個軟件世界都要加速：AI 開始直接使用人類的軟件工具，而這些系統必須整體加速，才能跟上 agent 的速度。低延遲決定 AI 賺錢能力。
從芯片到系統再到 AI 工廠，英偉達真正的目標不是賣算力，而是構建一整套技術棧：先自己做一遍，再開放出去，讓別人都在它這套體系里干活。
Transformer 不是終極架構：它在長記憶、物理規律和連續任務上已經不夠用了，下一代模型需要混合架構。
從語言到現實世界，AI 不再只是處理 token，而是要同時理解記憶、結構和連續動作。
當 agent 開始直接創收時，算力不再只有一種最優解，關鍵是誰能把每一分電力轉化成更多有價值的 token。
英偉達看起來在做很多事，本質上是在不斷復制同一套方法：用全棧協同設計，把“計算平臺”變成繞不開的基礎設施。
AI 推理的核心不再只是“更強”，而是在“更快（吞吐）”和“更聰明（價值）”之間做取舍。而英偉達正在用“拆分計算 + 混合架構”把這條曲線盡可能拉滿
AI 的真正瓶頸不是某一個環節，而是“全鏈條同時吃緊”；而在這種稀缺時代，誰掌控技術棧、提前布局供應鏈，誰就更有優勢。
但更深層的競爭不在電力或芯片，而是誰的“一套玩法”被全行業跟著用。

以下是本次訪談的全部重點內容，AI 前線在不改變原意的前提下進行了整理編輯。

1 AI 時代的 CUDA：從算力平臺到“全棧世界引擎”

主持人：我記得幾年前有人問過我：為什么英偉達每次在 GTC 能發這么多東西？我的理解是，本質上還是同一套 CUDA 和軟件體系，只是不斷針對不同行業做適配和擴展。而你今天講的，其實也是這個邏輯。只是相比過去幾次幾乎全是 AI 的主題，這次更像是一次“回到起點”的梳理。

所以我想問的是：為什么你現在要重新講 CUDA 這個故事？它的意義發生了什么變化？

黃仁勛：因為我們正在進入大量“全新的行業”，而且 AI 將開始使用工具。

當 AI 使用工具時，它用的其實是我們原本為人類打造的工具：它會用 Excel、用 Photoshop、用邏輯綜合工具、用 Synopsys、Cadence 的工具。

這些工具都必須被大幅加速，因為 AI 本身運行得非常快。數據庫也是一樣，必須被加速。

所以在這個時代，我們需要把整個世界的軟件盡可能加速，然后把它們交給 AI，讓 AI 以 agent 的方式去使用這些工具。

主持人：所以可以理解為，你們已經在一些行業做過這件事，現在要擴展到更多行業？

黃仁勛：對，多很多。比如數據處理。

主持人：這點其實有點出乎我意料。我沒想到你會以和 IBM 的合作作為開場。

黃仁勛：是的，這其實能說明問題。畢竟他們當年開啟了一切。

主持人：你上周（親自發了篇長文）寫到，AI 就像一個五層蛋糕：電力、芯片、基礎設施、模型和應用。

那么會不會有這樣的擔憂：外界之前越來越把你們局限在“芯片”這一層？所以現在有必要既提醒別人、也提醒你們自己，你們其實是一家縱向整合的公司而不只是做芯片的？

黃仁勛：我思考問題的方式不是從“我們不是什么”開始，而是從“我們需要成為什么”開始。

在當年，我們就意識到，加速計算是一個完整的全棧問題。你必須理解應用，才能去加速它。

我們意識到，我們必須理解應用本身，必須擁有開發者生態，還需要在算法開發方面具備非常強的能力，因為那些為 CPU 開發的舊算法，在 GPU 上表現并不好——我們必須重寫這些算法、重構這些算法，讓它們能夠被 GPU 加速。

但一旦做到這一點，你就可以獲得 50 倍、100 倍，甚至 10 倍的加速效果，因此這是完全值得的。

我認為，從一開始，我們就清楚地知道：“我們想做什么？以及實現它需要什么？”

現在，我們在建設 AI 工廠，我們在全球范圍內建設 AI 基礎設施。這遠遠不只是造芯片，當然，芯片非常重要，它是基礎。

主持人：對，這就像是一個完整的全棧，包括網絡、存儲，現在甚至還包括 CPU。

黃仁勛：現在你必須把所有這些整合到一起，構建成這種巨大的系統，比如一個千兆瓦級的工廠，大概需要 500 億到 600 億美元。在這 500 億到 600 億美元里，大約有 150 億到 170 億屬于基礎設施：土地、電力以及廠房外殼。剩下的則是計算、網絡、存儲等部分。

面對這種級別的投資，如果你不能幫助客戶建立起足夠的信心，讓他們相信自己能夠成功建成這樣的系統，那你根本沒有機會，沒有人會去冒險投入 500 億美元。

所以我認為，這里面的核心思想是：我們不僅要幫助客戶建造芯片，還要幫助他們構建系統；而在構建系統之后，不僅僅是系統，還要構建 AI 工廠。

AI 工廠內部包含大量軟件。不僅僅是我們的軟件，還有大量用于散熱管理、電力系統、冗余設計等等的軟件。

而現在很多系統其實是“過度設計”的，因為沒有人彼此溝通。當很多團隊彼此不溝通地去集成系統時，你就不得不在自己的那一部分進行過度設計。

但如果我們作為一個團隊協同工作，我們就能夠確保把系統推到極限——在同樣的電力下獲得更高吞吐，或者在相同吞吐下節省成本。

主持人：回到軟件這一點：你提到 Excel 并不是為 AI 設計的，但現在像 Claude 已經可以直接使用它了。那你們投入這些庫，是為了讓模型更好地完成這類任務？還是說，也是想減少對微軟或其他廠商的依賴，提供一種替代方案？

黃仁勛：SQL（結構化查詢語言，幫你從數據庫里查數據、改數據、分析數據）就是一個很好的例子。

SQL 是給人用的，我們也像其他人一樣在使用 SQL 系統，它是企業的“真實數據來源”。但現在，不僅僅是人會訪問 SQL 數據庫，還會有大量的 agent 來訪問它。

主持人：而且它們會快得多。

黃仁勛：它們必須快得多。所以第一件事就是，我們必須加速 SQL。這就是最直接的邏輯。

2 Transformer 不夠用了，AI 進入混合架構時代

主持人：說到模型，你提到語言模型只是其中一類。你在上周文章里也提到，真正最具變革性的進展，其實發生在蛋白質、化學、物理仿真、機器人和自動系統這些領域。

你之前還說過“萬物皆 token”。那你覺得，Transformer 會成為通用基礎架構嗎？還是說，這些方向還需要新的根本性突破？

黃仁勛：我們需要各種各樣的新模型。

比如，Transformer 的注意力機制是二次復雜度的，那如何支持長記憶？又怎么實現超長對話，而不讓 KV cache 隨時間不斷膨脹、變得低效甚至“失效”？

主持人：甚至需要整機架的固態硬盤來存 KV cache。

黃仁勛：是的。而且，即便你記錄了我們所有的對話，當你回頭去引用時，哪些部分是最重要的？

我們需要一種新的架構，能夠更好地處理注意力，并且能夠非常快地處理這些問題。

一方面，我們提出了一種Transformer + SSM 的混合架構，讓 Nemotron 3 能同時兼顧智能性和效率，這是一個方向。

另一個方向是具備“幾何感知”的模型。現實世界中很多結構是對稱的，模型不僅要生成“統計上合理”的結果，還要符合物理規律，比如對稱性，像 cuEquivariance 就是在解決這個問題。

此外，語言是離散的（token），而動作是連續的。現實任務往往同時包含這兩類信息，而Transformer 并不擅長同時處理離散與連續問題。

主持人：明白。

3 推理與編程

主持人：再引用你文章中的一句話：“在過去一年里，AI 跨越了一個重要門檻。模型已經足夠好，可以規模化應用；推理能力提升，幻覺減少，grounding 大幅改善。第一次，基于 AI 的應用開始真正產生經濟價值。”

這個變化具體是什么？我在想，今年顯然是 agent 的一年，但去年是推理能力的突破嗎？

黃仁勛：生成式 AI 本身是一個重大突破，但它會產生很多幻覺，所以我們必須讓它“ground”（落地、有理有據）。

實現 grounding，要靠推理、反思、檢索和搜索等能力，把 AI 和現實世界真正連接起來。沒有推理能力，這一切都無從談起；正是推理，讓生成式 AI 不再只是“會生成”，而是能變得更“落地”、更有依據。

一旦完成了 grounding，AI 就能進一步去理解問題、拆解問題，并把它分解成可執行的步驟。再往前走，下一階段就是工具使用。

這也解釋了為什么搜索服務一直很難收費：獲取信息當然重要，但光有信息，往往還不足以讓人付費。比如“哪里有家好餐廳”，這類答案有用，但價值還沒高到非付費不可——當然，也有人愿意為此買單，我自己也會。

但現在，AI 已經跨過了這個門檻：它不只是給你信息，而是開始真正替你做事。編程就是最典型的例子。

如果仔細看，編程其實并不完全等同于自然語言，它更像一種新的模態。你得教模型理解空格、縮進、符號這些東西。而且代碼也不能只靠逐 token 生成，你必須讓模型對整段代碼進行反思和校驗：結構是否合理、實現是否優化、能不能編譯通過。

它追求的不是“看起來大概率正確”，而是“最終能不能運行”。

主持人：對，要么能跑，要么不能。

黃仁勛：必須能跑，這一點很關鍵。所以，掌握這種“代碼模態”非常重要。

一旦做到這一點，變化就發生了：原本我們每年要花幾十萬美元請工程師寫代碼，而現在他們有了 coding assistant，他們可以把精力從逐行寫代碼，轉向思考架構；用更抽象的“規格說明”來描述軟件，而不是直接寫實現，這讓效率大幅提升。

時間也從寫代碼，轉向真正重要的事——解決問題和創新。

在我們公司，軟件工程師現在 100% 都在使用 coding agent。很多人已經很久沒手寫過一行代碼，但依然非常高效，而且同樣非常忙。

主持人：但會不會因為編程具備可驗證性，讓人們容易對 agent 的能力過度外推？AI 可以自我驗證、反復迭代，幾乎不需要人類介入，那其他領域沒法驗證怎么辦？

黃仁勛：不，AI 的核心不是“驗證”，而是“反思 + 迭代”。

比如設計房子或廚房，這些原本屬于建筑師或設計師的工作，現在普通人也可以借助 agent 來完成。你只需給出參考風格，它就能不斷對比效果與預期，不滿意就反復優化。

即便沒有明確的“對錯標準”，它依然可以持續迭代。事實上，越是偏概率、審美和主觀判斷的任務，AI 往往表現得更好。

4 CPU 的角色

主持人：隨著 agent 的出現，你一直強調加速計算，也經常“吐槽” CPU。但現在 CPU 又變得重要了，你們也在賣 CPU，這是什么感覺？

黃仁勛：毫無疑問，摩爾定律已經結束了。

加速計算并不是簡單的并行計算。30 年前有很多并行計算公司，最終只有英偉達存活下來，因為我們意識到，目標不是取代 CPU，而是加速應用。

我們從來不是反對 CPU，也不可能違背 Amdahl 定律——系統里總有一部分是無法被加速的。

因此，在我們的系統中，我們會選擇最好的、甚至最昂貴的 CPU。因為一旦 CPU 性能不夠強，就會拖慢那些價值數百萬美元的 GPU。

主持人：以前在分支預測（branch prediction）上，你擔心的是浪費 CPU 時間；現在你擔心的是浪費 GPU 時間。

黃仁勛：沒錯，絕不能讓 GPU 被浪費，更不能讓它空轉。因此我們始終選擇最好的 CPU，甚至自己做了 Grace，就是為了獲得更強的單線程性能和更快的數據傳輸。

所以，加速計算從來不是“反對 CPU”。我的基本判斷依然是：依賴通用計算、單純堆晶體管的那一套已經行不通了。但從本質上說，我們從來不是反 CPU 的。

不過，現在這些 agent 已經能進行工具調用（tool use）了，而它們想用的工具，其實都是為人類設計的，基本可以分為兩類：

第一類，是運行在數據中心里的工具，其中大部分是 SQL，本質上是各種數據庫相關系統。第二類，是個人電腦上的工具。

接下來，我們將看到AI 能夠學會“非結構化”的工具使用。

過去那種工具使用是結構化的，比如 CLI（命令行）、API，它們都是結構化接口：命令是明確的，參數是明確的，交互方式也是明確的。

但大量應用從一開始就沒有提供 CLI 或 API，這就需要 AI 具備多模態能力，以“非結構化”的方式去操作，比如瀏覽網頁、識別按鈕、操作下拉菜單，像人一樣一步步完成任務。

而這類工具使用，很大程度上依賴 PC。我們在兩端都有布局：一方面是強大的數據處理系統，另一方面，正如你所說，英偉達的 PC 也是全球性能最強的。

主持人：那面向 agent 的 CPU，和傳統 CPU 有什么不同？比如你們是否會部署一整機架的 Vera CPU？

黃仁勛：過去十年里的 CPU，基本都是為超大規模云計算（hyperscale cloud）設計的。而云廠商的變現方式，是按 CPU 核心數收費。

所以你會傾向于設計那種核心數盡可能多、可以出租的 CPU，至于單核性能，反而是次要的。

主持人：因為主要是在處理網頁延遲（web latency）。

黃仁勛：完全正確。所以過去的優化目標，其實是盡可能提升 CPU 實例數量，這也是為什么會出現動輒兩百、三百，甚至四百核心的 CPU。

但這類 CPU 的單核性能并不強。而在 agent 的工具調用場景下，一旦 GPU 需要等待 CPU 完成任務，真正關鍵的反而是盡可能強的單線程性能。

主持人：那只是速度問題嗎？還是說 CPU 本身也需要更高并行度，避免 cache miss 等問題？是不是整個執行流水線都需要變化？

黃仁勛：最重要的是單線程性能，同時 I/O 能力必須非常強。

因為現在是在數據中心環境下，會有大量單線程實例在運行，這會對 I/O 系統和內存控制器產生很大壓力。Vera 在“每核帶寬”和“整體帶寬”上，都是歷史上任何 CPU 的三倍。它的設計目標就是提供極高的 I/O 帶寬和內存帶寬，確保 CPU 永遠不會被“卡住”。

因為一旦 CPU 被限制住，就會拖慢一大堆 GPU。

主持人：那這個 Vera 機架雖然與 GPU 機架緊密連接，但在架構上仍然是解耦的嗎？也就是說，GPU 可以服務多個 Vera 核心，而不是一一綁定？

黃仁勛：是的。

主持人：明白了。那你們和 Intel 的合作，以及 NVLink，在這里是怎么發揮作用的？

黃仁勛：有些用戶接受 Arm 架構，但也有很多用戶——尤其是企業計算，依然需要 x86，因為他們有大量現有軟件棧，不愿意遷移。

所以 x86 依然非常重要。

主持人：x86 架構的生命力，會讓你感到意外嗎？

黃仁勛：不會。英偉達的 PC 依然是 x86，我們所有的工作站也是 x86。

5 引入 Groq：不是替代 GPU，而是補齊它

主持人：正如你今天在主題演講中提到的，你是“token 之王”。你在文章里也說過，從第一性原理來看，AI 的上限其實取決于能源。

如果是這樣的話，如果系統能產生多少 token，本質上受限于數據中心里的能源，那為什么還有公司要去和“token 之王”競爭？

黃仁勛：這會很難。因為光是造一顆芯片，就想取得非常顯著的效果，這是不現實的。即便是像 Groq 這樣的公司，如果不和我們的 Vera Rubin 搭配，也很難取得好的結果。

黃仁勛：如果你從整個推理（inference）的“能力邊界”來看，一方面你希望吞吐量盡可能高，另一方面你又希望每個 token 盡可能“聰明”——token 越聰明，你就可以收更高的價格。

一邊是最大化吞吐，一邊是最大化智能，希望每個 token 更“聰明”。這是一個非常難以平衡的問題。

主持人：我記得你去年有一頁 PPT 講到帕累托曲線（兩件事不能同時做到最優時，它們之間的權衡邊界）。

當時在介紹 Dynamo（英偉達提出的一套幫你在“速度 vs 智能”之間自動調度的 AI 推理系統）時，你說英偉達的 GPU 可以覆蓋整條曲線，用戶不用權衡，直接用你們的方案就行。但現在聽起來，你的意思是：其實并不能完全覆蓋？

黃仁勛：我們仍然比任何系統都更好地覆蓋了這條曲線。

但我們可以進一步擴展帕累托邊界，尤其是在極高 token 速率和極低延遲的區域。不過這樣做會降低整體吞吐。

不過，現在情況發生了變化：因為 coding agent 的出現，這些 AI agent 正在創造非常好的經濟價值，而且這些 agent 是綁定在人類身上的——這些人本身就非常有價值。

主持人：對，他們甚至比 GPU 還貴。

黃仁勛：沒錯。所以我希望給我的軟件工程師提供最高 token 速率的服務。如果 Anthropic 推出一個 Claude Code 的高階版本，能把編程效率提升 10 倍，我一定會付費，絕對會。

主持人：所以你是在為自己做這個產品？

黃仁勛：我覺得很多偉大的產品，都是因為你親身感受到一個痛點，并意識到市場會往這個方向走。

我們也希望我們的 coding agent 能快 10 倍。但在一個高吞吐系統中做到這一點非常困難，所以我們決定引入 Groq 的低延遲系統，然后進行協同運行、協同處理。

主持人：所以這是把 decode 和 prefill 分開處理嗎？

黃仁勛：我們甚至會把 decode 里的高計算量部分（高 FLOPS 部分），包括 attention，也拆分出來。

主持人：也就是說，你們甚至把拆分做到了 decode 這一層。

黃仁勛：是的，而這需要非常緊密的耦合，以及非常深度的軟件集成。

主持人：你們是怎么做到的？你說今年就會出貨，但這個合作也就是幾個月前才宣布的。

黃仁勛：其實我們很早就在做“解耦推理”（disaggregated inferencing）這件事了。Dynamo 是我們把這個想法公開的一次表達。

在我宣布 Dynamo 的那一天，其實我已經在思考：如何在異構基礎設施中，更細粒度地拆分推理任務？而 Groq 的架構，是我們這種思路的一個極端版本，他們自己其實走得很辛苦。

主持人：Dynamo 是一年前發布的，而 Groq 的事情大概是去年圣誕節前后才發生的。有沒有什么關鍵事件讓你決定要這么做？

黃仁勛：其實沒有。我們兩三年前就已經在思考“推理解耦”這個方向了。大概在宣布收購前六個月，我們就開始和 Groq 接觸，討論如何把 Grace Blackwell 和 Groq 結合起來。

我很喜歡他們的團隊。不過我們并不想要他們的云業務——他們有自己的業務，也做得很好，但那不是我們想要的部分。所以我們決定收購團隊、授權技術，然后在這個基礎架構上繼續演進。

主持人：所以這是一次“巧合”？或者說也不是巧合？

黃仁勛：可以說是“戰略性的偶然”。

主持人：OpenAI 現在也在和 Cerebras 合作（今年 1 月宣布的）。

黃仁勛：那完全是他們獨立做的，說實話我之前都不知道。不過這不會改變我們的決策。

我認為 Groq 的架構本來就是我會選擇的，它對我們來說更合理。

主持人：這是第一次有 ASIC 路線讓你覺得“這確實是本質上的不同”嗎？

黃仁勛：不是，Mellanox 才是。

我們把計算棧的一部分放進了 Mellanox 網絡里。如果沒有 Mellanox 的“網絡內計算”（in-network computing），NVLink 不可能做到現在的規模。

把軟件棧拆分，并放到最合適的位置執行，這是英偉達的專長。我們不執著于“計算必須在哪里發生”，我們只關心一件事：加速應用。

記住，英偉達是一家“加速計算公司”，而不是一家 GPU 公司。

主持人：你提到能源是關鍵約束。那么在客戶做采購決策時，是否可以簡單理解為：要么選傳統 GPU，要么選 Groq 這樣的 LPU 機架，本質就是看哪種方案能帶來更高收益？

黃仁勛：這取決于業務階段。如果還沒有成熟的企業級用例，大多數用戶仍是免費用戶（比如三分之二免費、三分之一付費），那引入 Groq 并不劃算，因為這樣成本更高，還會占用寶貴的電力資源。

主持人：而且還增加系統復雜度，占用服務器資源，也有機會成本。

黃仁勛：對，這些資源本可以用來服務更多免費用戶。

但如果是像 Anthropic 或 OpenAI 這樣的業務，比如 Codex 已經能帶來可觀收益，只是希望生成更多 token，那么引入這類加速器，就能顯著提升收入。

6 從算力稀缺到生態競爭

主持人：我們現在的瓶頸到底是電力、晶圓廠產能，還是別的什么？大家都在說供給不夠，真正的限制因素是什么？

黃仁勛：我覺得幾乎所有環節都接近瓶頸了。你很難把任何一個環節翻一倍。

主持人：因為你會撞上其他約束。

黃仁勛：對。

主持人：不過感覺美國在電力方面其實做得還不錯，可能比幾年前預期的要好，但現在看起來，芯片反而更像是主要瓶頸。

黃仁勛：我們的供應鏈規劃得還是比較充分的。我們早就為一個非常大的增長年份做了準備，而且明年也會是一個非常大的年份。我們的供應鏈里有幾百個合作伙伴，而且都是長期合作關系，所以在這方面我還是挺有信心的。

我不覺得我們現在的電力有“翻倍的富余”，也不覺得芯片供應有“翻倍的富余”，實際上沒有任何一項資源是有兩倍余量的。但從我目前看到的情況來看，從供應鏈角度，我們還是能夠支撐未來需求的。

如果說我最希望改善的一點，那就是土地、電力和廠房這些基礎設施能更快建設起來。

主持人：那是否可以這樣理解：在資源稀缺的情況下，英偉達反而是最大受益者？比如電力緊張時，你們的芯片更節能，利用效率更高；產能受限時，你們又提前鎖定了供應鏈，因此更有可能成為贏家？

黃仁勛：我們是這個領域里最大的公司之一，而且我們確實在規劃上做得很好。我們在供應鏈的上游和下游都做了布局，所以我認為我們為行業增長做了充分準備。

主持人：那從另一個角度看，如果無法進入中國市場，會不會成為一個風險？比如中國如果擁有充足的電力和芯片，即便是 7nm 的芯片，他們也可能逐步建立起一個生態，長期來看甚至能和 CUDA 競爭，這是不是你的擔憂？

黃仁勛：毫無疑問，我們需要讓美國的技術棧在中國存在。我從一開始就一直強調這一點，因為開源軟件一定會不斷涌現。

而且，沒有哪個國家在開源軟件上的貢獻比中國更大。同時我們也清楚，全球大約一半的 AI 研究人員來自中國，而且他們非常有創造力。像 DeepSeek、Kimi、Qwen 都不是普通技術，而是非常出色的成果——它們在模型架構以及整個 AI 技術棧上，都做出了獨特貢獻。

因此，這些公司必須被認真對待。

如果全球的技術體系是構建在美國技術棧之上的，那么當這些創新從中國擴散出來（而這幾乎是必然的，因為它們是開源的），無論流向美國本土、東南亞還是歐洲，美國技術棧都能夠承接并吸收這些成果。

主持人：上次我們聊的時候，特朗普政府剛剛禁止了 H20。你當時有沒有覺得驚訝，后來你居然能說服政府改變看法？那現在又被中國政府限制，你會更意外嗎？

黃仁勛：中國方面的限制我并不意外。因為中國當然希望發展自己的技術棧。

在我們退出那個市場的這段時間里，你也知道中國行業發展有多快。華為創下了歷史最佳業績，這是一家歷史非常悠久的公司，卻實現了創紀錄增長。同時還有五六家面向 AI 領域的芯片公司完成了 IPO。

我認為，我們需要在“美國技術領導力”和“地緣政治領導力”上更加有戰略性地思考。

AI 并不僅僅是模型，這是一個很深的誤解。正如我們一開始說的，AI 是一個“五層蛋糕”：基礎設施、芯片、平臺、模型、應用，我們必須在每一層都贏。

而我們現在的一些做法，其實正在削弱我們在這五個層面的領導能力。

我認為，一個非常糟糕的策略是：把整個技術棧從上到下打包、強行捆綁，讓所有公司都在一個整體體系里競爭。這樣的話，最終的上限會被最弱的一層限制。我們應該讓每一層都自由去競爭、去贏市場。

7 先做一套全棧，然后做成剛需平臺

主持人：在自動駕駛領域，你們既與多家車廠合作，也有自己的 Alpamayo 模型，同時還在向特斯拉供芯片。

你今天的演講中也提到了 OpenClaw；另一方面，像 Vera 這樣的芯片，其實很大程度上是由 agent 的發展驅動的，比如 Claude Code 和 OpenAI 的 Codex。

我想問的是，這背后是否有一個一致的邏輯：你們一方面為行業領先者提供芯片，另一方面迅速跟進其能力，并開放給更多競爭者，從而既擴大客戶基礎、不依賴頭部玩家，又借助“被甩下”的焦慮帶動整體需求？

黃仁勛：不是這樣的。

我們在很多領域本身就處于最前沿。從某種意義上說，我們在很多領域都是領導者。但我們從不把這些能力做成最終產品。

我們是一家“技術棧公司”。所以我們必須站在技術前沿，必須成為這個技術棧的世界領導者，但我們不是解決方案廠商，也不是服務提供商。這是第一點。

主持人：這種情況會一直這樣嗎？

黃仁勛：會，一直如此。沒有理由改變，而且我們也很樂意這樣做。我們創造這些技術，然后把它們開放給所有人。

主持人：不過挺有意思的是，你們現在的硬件產品里，一個機架可能包含三萬多個 SKU，而且越來越多由你們來定義，以便更高效地組裝和集成。那在軟件層面，是否也會走類似路徑？比如你提到的垂直整合和開源模型。

黃仁勛：我們會先“垂直地”把一整套東西做出來，然后再“水平地”開放出去，讓大家可以按需使用其中的任何部分。

主持人：前提是他們運行在英偉達芯片上？

黃仁勛：他們可以用任何他們想用的部分，不一定非要用全部英偉達芯片，也不一定要用全部英偉達軟件。

我們必須先做垂直整合、垂直優化，但完成之后，我們會開放源代碼，提供能力，讓大家自己決定怎么用。

主持人：那你覺得英偉達能一直在“前沿模型”這件事上保持競爭力嗎？畢竟像 Meta 似乎有點掉隊，而另一類替代方案，很多是中國模型。

黃仁勛：在那個領域“贏”對我們來說并不重要。

主持人：不是說一定要贏，而是說：需要有人提供開源的前沿模型。如果不是你們，那會是誰？

黃仁勛：總得有人去做開源模型，而英偉達在這方面確實有能力。而且，每次我們做開源模型，我們也能從中學到很多關于計算本身的東西。

主持人：那 Blackwell 當時是不是遇到了一些問題？我聽說訓練過程可能比以前更困難。

黃仁勛：Blackwell 的挑戰 100% 來自 NVLink 72，這部分工作非常艱難。那是我唯一一次在發布會上特意感謝大家和我們一起扛過來的。

主持人：我當時注意到你說那句話，非常真誠。

黃仁勛：是的，因為我們確實把大家“折騰”得夠嗆，但現在大家都很喜歡這個成果。

主持人：這是我們第二次線下交流。上次在臺北見你時，我的感覺是英偉達依然像一家“小公司”。你會擔心業務鋪得太開嗎？還是說你們依然有類似 CUDA 的“飛輪效應”——看似在做很多事，本質上是在不斷復用同一套方法？

黃仁勛：英偉達之所以能行動這么快，是因為我們始終有一套統一的理論。

這也是我的工作：明確什么是重要的，這些事情如何彼此關聯，并構建一個能夠高效執行的組織。

這套統一理論其實很簡單：一方面，我們擁有計算與軟件平臺，也就是 CUDA-X；另一方面，我們是一家計算系統公司，通過全棧的垂直優化和極致協同設計（co-design）來打造系統。

這個“計算機”本身就成為我們的平臺，我們再把它集成進各類云廠商和 OEM 體系中。現在，我們還在構建新的平臺：數據中心平臺，也就是 AI 工廠。

一旦理解了英偉達在做什么、以及如何去做，這一切就會變得清晰。而我在這次 keynote 中，其實也是在講這個故事。某種程度上，也是講給我們自己的員工聽。

https://stratechery.com/2026/an-interview-with- 英偉達 -ceo-jensen-huang-about-accelerated-computing/

聲明：本文為 InfoQ 前線整理，不代表平臺觀點，未經許可禁止轉載。

會議推薦

OpenClaw 出圈，“養蝦”潮狂熱，開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下，自托管 Agent 形態迅速普及：多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。

針對這一系列挑戰，在 4 月 16-18 日即將舉辦的 QCon 北京站上，我們特別策劃了「OpenClaw 生態實踐」專題，將聚焦一線實踐與踩坑復盤，分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系，最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.