![]()
作者 | 木子
“記住,英偉達是一家加速計算公司,而不是一家 GPU 公司! ”
前幾天舉起“token 之王”獎牌的黃仁勛,在最近的一次采訪中這樣強調。
![]()
在他看來,目前的 AI 競賽,已經從拼算力變成拼產出,問題不再只是“算得有多快”,而是:能否迅速、便宜地做出高質量結果。
雖然 GPU 本質也算加速計算,但顯然它只“計算”這一環是遠遠不夠的,現在 AI 的新挑戰,早已外溢到數據搬運、內存、網絡和推理流程。整條鏈路都必須一起提速。
這就像木桶效應,只要鏈路里有一環慢,最終的產出就會被卡住。
![]()
該示意圖由 AI 生成
那最終的“產出”如何衡量?
一個簡單直接的方式就是看token,這個 AI 時代的“產出單位”。
黃仁勛直言道,你可以把 token 看作 AI 時代的核心貨幣,token 越聰明,你就能賣得越貴!
當然,這實際上并不是指 token 本身“聰明”,畢竟其本質只是文本單位,真正“聰明”的是生成這個 token 的模型。 如果一個模型用更少的 token,就能一次性給出更準確、更有用的結果,那這些 token 的“價值”就更高。
在 GTC 上新亮相的 Groq LPU,就是英偉達針對“token 產出”給出的一個解法:他們收購了這家專注超低延遲推理芯片的公司,并共同推出了新的 Groq LPU。
它并不是用來取代 GPU,而是專門解決一個問題:如何在極低延遲下,更快地產生 token。
在 GTC 演講后,老黃接受了 Stratechery 創始人 Ben Thompson 的專訪,講清了三件更底層、更關鍵的事情:AI 的瓶頸在電力而非芯片,下一代推理將走向 GPU+LPU 的混合架構,而真正的競爭不在模型本身,而在技術棧的主導權。
他的核心觀點整理總結如下:
整個軟件世界都要加速:AI 開始直接使用人類的軟件工具,而這些系統必須整體加速,才能跟上 agent 的速度。低延遲決定 AI 賺錢能力。
從芯片到系統再到 AI 工廠,英偉達真正的目標不是賣算力,而是構建一整套技術棧:先自己做一遍,再開放出去,讓別人都在它這套體系里干活。
Transformer 不是終極架構:它在長記憶、物理規律和連續任務上已經不夠用了,下一代模型需要混合架構。
從語言到現實世界,AI 不再只是處理 token,而是要同時理解記憶、結構和連續動作。
當 agent 開始直接創收時,算力不再只有一種最優解,關鍵是誰能把每一分電力轉化成更多有價值的 token。
英偉達看起來在做很多事,本質上是在不斷復制同一套方法:用全棧協同設計,把“計算平臺”變成繞不開的基礎設施。
AI 推理的核心不再只是“更強”,而是在“更快(吞吐)”和“更聰明(價值)”之間做取舍。而英偉達正在用“拆分計算 + 混合架構”把這條曲線盡可能拉滿
AI 的真正瓶頸不是某一個環節,而是“全鏈條同時吃緊”;而在這種稀缺時代,誰掌控技術棧、提前布局供應鏈,誰就更有優勢。
但更深層的競爭不在電力或芯片,而是誰的“一套玩法”被全行業跟著用。
以下是本次訪談的全部重點內容,AI 前線在不改變原意的前提下進行了整理編輯。
1 AI 時代的 CUDA:從算力平臺到“全棧世界引擎”
主持人:我記得幾年前有人問過我:為什么英偉達每次在 GTC 能發這么多東西?我的理解是,本質上還是同一套 CUDA 和軟件體系,只是不斷針對不同行業做適配和擴展。而你今天講的,其實也是這個邏輯。只是相比過去幾次幾乎全是 AI 的主題,這次更像是一次“回到起點”的梳理。
所以我想問的是:為什么你現在要重新講 CUDA 這個故事?它的意義發生了什么變化?
黃仁勛:因為我們正在進入大量“全新的行業”,而且 AI 將開始使用工具。
當 AI 使用工具時,它用的其實是我們原本為人類打造的工具:它會用 Excel、用 Photoshop、用邏輯綜合工具、用 Synopsys、Cadence 的工具。
這些工具都必須被大幅加速,因為 AI 本身運行得非常快。數據庫也是一樣,必須被加速。
所以在這個時代,我們需要把整個世界的軟件盡可能加速,然后把它們交給 AI,讓 AI 以 agent 的方式去使用這些工具。
主持人:所以可以理解為,你們已經在一些行業做過這件事,現在要擴展到更多行業?
黃仁勛:對,多很多。比如數據處理。
主持人:這點其實有點出乎我意料。我沒想到你會以和 IBM 的合作作為開場。
黃仁勛:是的,這其實能說明問題。畢竟他們當年開啟了一切。
主持人:你上周(親自發了篇長文)寫到,AI 就像一個五層蛋糕:電力、芯片、基礎設施、模型和應用。
那么會不會有這樣的擔憂:外界之前越來越把你們局限在“芯片”這一層?所以現在有必要既提醒別人、也提醒你們自己,你們其實是一家縱向整合的公司而不只是做芯片的?
黃仁勛:我思考問題的方式不是從“我們不是什么”開始,而是從“我們需要成為什么”開始。
在當年,我們就意識到,加速計算是一個完整的全棧問題。你必須理解應用,才能去加速它。
我們意識到,我們必須理解應用本身,必須擁有開發者生態,還需要在算法開發方面具備非常強的能力,因為那些為 CPU 開發的舊算法,在 GPU 上表現并不好——我們必須重寫這些算法、重構這些算法,讓它們能夠被 GPU 加速。
但一旦做到這一點,你就可以獲得 50 倍、100 倍,甚至 10 倍的加速效果,因此這是完全值得的。
我認為,從一開始,我們就清楚地知道:“我們想做什么?以及實現它需要什么?”
現在,我們在建設 AI 工廠,我們在全球范圍內建設 AI 基礎設施。這遠遠不只是造芯片,當然,芯片非常重要,它是基礎。
主持人:對,這就像是一個完整的全棧,包括網絡、存儲,現在甚至還包括 CPU。
黃仁勛:現在你必須把所有這些整合到一起,構建成這種巨大的系統,比如一個千兆瓦級的工廠,大概需要 500 億到 600 億美元。在這 500 億到 600 億美元里,大約有 150 億到 170 億屬于基礎設施:土地、電力以及廠房外殼。剩下的則是計算、網絡、存儲等部分。
面對這種級別的投資,如果你不能幫助客戶建立起足夠的信心,讓他們相信自己能夠成功建成這樣的系統,那你根本沒有機會,沒有人會去冒險投入 500 億美元。
所以我認為,這里面的核心思想是:我們不僅要幫助客戶建造芯片,還要幫助他們構建系統;而在構建系統之后,不僅僅是系統,還要構建 AI 工廠。
AI 工廠內部包含大量軟件。不僅僅是我們的軟件,還有大量用于散熱管理、電力系統、冗余設計等等的軟件。
而現在很多系統其實是“過度設計”的,因為沒有人彼此溝通。當很多團隊彼此不溝通地去集成系統時,你就不得不在自己的那一部分進行過度設計。
但如果我們作為一個團隊協同工作,我們就能夠確保把系統推到極限——在同樣的電力下獲得更高吞吐,或者在相同吞吐下節省成本。
主持人:回到軟件這一點:你提到 Excel 并不是為 AI 設計的,但現在像 Claude 已經可以直接使用它了。那你們投入這些庫,是為了讓模型更好地完成這類任務?還是說,也是想減少對微軟或其他廠商的依賴,提供一種替代方案?
黃仁勛:SQL(結構化查詢語言,幫你從數據庫里查數據、改數據、分析數據)就是一個很好的例子。
SQL 是給人用的,我們也像其他人一樣在使用 SQL 系統,它是企業的“真實數據來源”。但現在,不僅僅是人會訪問 SQL 數據庫,還會有大量的 agent 來訪問它。
主持人:而且它們會快得多。
黃仁勛:它們必須快得多。所以第一件事就是,我們必須加速 SQL。這就是最直接的邏輯。
2 Transformer 不夠用了,AI 進入混合架構時代
主持人:說到模型,你提到語言模型只是其中一類。你在上周文章里也提到,真正最具變革性的進展,其實發生在蛋白質、化學、物理仿真、機器人和自動系統這些領域。
你之前還說過“萬物皆 token”。那你覺得,Transformer 會成為通用基礎架構嗎?還是說,這些方向還需要新的根本性突破?
黃仁勛:我們需要各種各樣的新模型。
比如,Transformer 的注意力機制是二次復雜度的,那如何支持長記憶?又怎么實現超長對話,而不讓 KV cache 隨時間不斷膨脹、變得低效甚至“失效”?
主持人:甚至需要整機架的固態硬盤來存 KV cache。
黃仁勛:是的。而且,即便你記錄了我們所有的對話,當你回頭去引用時,哪些部分是最重要的?
我們需要一種新的架構,能夠更好地處理注意力,并且能夠非常快地處理這些問題。
一方面,我們提出了一種Transformer + SSM 的混合架構,讓 Nemotron 3 能同時兼顧智能性和效率,這是一個方向。
另一個方向是具備“幾何感知”的模型。現實世界中很多結構是對稱的,模型不僅要生成“統計上合理”的結果,還要符合物理規律,比如對稱性,像 cuEquivariance 就是在解決這個問題。
此外,語言是離散的(token),而動作是連續的。現實任務往往同時包含這兩類信息,而Transformer 并不擅長同時處理離散與連續問題。
主持人:明白。
3 推理與編程
主持人:再引用你文章中的一句話:“在過去一年里,AI 跨越了一個重要門檻。模型已經足夠好,可以規模化應用;推理能力提升,幻覺減少,grounding 大幅改善。第一次,基于 AI 的應用開始真正產生經濟價值。”
這個變化具體是什么?我在想,今年顯然是 agent 的一年,但去年是推理能力的突破嗎?
黃仁勛:生成式 AI 本身是一個重大突破,但它會產生很多幻覺,所以我們必須讓它“ground”(落地、有理有據)。
實現 grounding,要靠推理、反思、檢索和搜索等能力,把 AI 和現實世界真正連接起來。沒有推理能力,這一切都無從談起;正是推理,讓生成式 AI 不再只是“會生成”,而是能變得更“落地”、更有依據。
一旦完成了 grounding,AI 就能進一步去理解問題、拆解問題,并把它分解成可執行的步驟。再往前走,下一階段就是工具使用。
這也解釋了為什么搜索服務一直很難收費:獲取信息當然重要,但光有信息,往往還不足以讓人付費。比如“哪里有家好餐廳”,這類答案有用,但價值還沒高到非付費不可——當然,也有人愿意為此買單,我自己也會。
但現在,AI 已經跨過了這個門檻:它不只是給你信息,而是開始真正替你做事。編程就是最典型的例子。
如果仔細看,編程其實并不完全等同于自然語言,它更像一種新的模態。你得教模型理解空格、縮進、符號這些東西。而且代碼也不能只靠逐 token 生成,你必須讓模型對整段代碼進行反思和校驗:結構是否合理、實現是否優化、能不能編譯通過。
它追求的不是“看起來大概率正確”,而是“最終能不能運行”。
主持人:對,要么能跑,要么不能。
黃仁勛:必須能跑,這一點很關鍵。所以,掌握這種“代碼模態”非常重要。
一旦做到這一點,變化就發生了:原本我們每年要花幾十萬美元請工程師寫代碼,而現在他們有了 coding assistant,他們可以把精力從逐行寫代碼,轉向思考架構;用更抽象的“規格說明”來描述軟件,而不是直接寫實現,這讓效率大幅提升。
時間也從寫代碼,轉向真正重要的事——解決問題和創新。
在我們公司,軟件工程師現在 100% 都在使用 coding agent。很多人已經很久沒手寫過一行代碼,但依然非常高效,而且同樣非常忙。
主持人:但會不會因為編程具備可驗證性,讓人們容易對 agent 的能力過度外推?AI 可以自我驗證、反復迭代,幾乎不需要人類介入,那其他領域沒法驗證怎么辦?
黃仁勛:不,AI 的核心不是“驗證”,而是“反思 + 迭代”。
比如設計房子或廚房,這些原本屬于建筑師或設計師的工作,現在普通人也可以借助 agent 來完成。你只需給出參考風格,它就能不斷對比效果與預期,不滿意就反復優化。
即便沒有明確的“對錯標準”,它依然可以持續迭代。事實上,越是偏概率、審美和主觀判斷的任務,AI 往往表現得更好。
4 CPU 的角色
主持人:隨著 agent 的出現,你一直強調加速計算,也經常“吐槽” CPU。但現在 CPU 又變得重要了,你們也在賣 CPU,這是什么感覺?
黃仁勛:毫無疑問,摩爾定律已經結束了。
加速計算并不是簡單的并行計算。30 年前有很多并行計算公司,最終只有英偉達存活下來,因為我們意識到,目標不是取代 CPU,而是加速應用。
我們從來不是反對 CPU,也不可能違背 Amdahl 定律——系統里總有一部分是無法被加速的。
因此,在我們的系統中,我們會選擇最好的、甚至最昂貴的 CPU。因為一旦 CPU 性能不夠強,就會拖慢那些價值數百萬美元的 GPU。
主持人:以前在分支預測(branch prediction)上,你擔心的是浪費 CPU 時間;現在你擔心的是浪費 GPU 時間。
黃仁勛:沒錯,絕不能讓 GPU 被浪費,更不能讓它空轉。因此我們始終選擇最好的 CPU,甚至自己做了 Grace,就是為了獲得更強的單線程性能和更快的數據傳輸。
所以,加速計算從來不是“反對 CPU”。我的基本判斷依然是:依賴通用計算、單純堆晶體管的那一套已經行不通了。但從本質上說,我們從來不是反 CPU 的。
不過,現在這些 agent 已經能進行工具調用(tool use)了,而它們想用的工具,其實都是為人類設計的,基本可以分為兩類:
第一類,是運行在數據中心里的工具,其中大部分是 SQL,本質上是各種數據庫相關系統。第二類,是個人電腦上的工具。
接下來,我們將看到AI 能夠學會“非結構化”的工具使用。
過去那種工具使用是結構化的,比如 CLI(命令行)、API,它們都是結構化接口:命令是明確的,參數是明確的,交互方式也是明確的。
但大量應用從一開始就沒有提供 CLI 或 API,這就需要 AI 具備多模態能力,以“非結構化”的方式去操作,比如瀏覽網頁、識別按鈕、操作下拉菜單,像人一樣一步步完成任務。
而這類工具使用,很大程度上依賴 PC。我們在兩端都有布局:一方面是強大的數據處理系統,另一方面,正如你所說,英偉達的 PC 也是全球性能最強的。
主持人:那面向 agent 的 CPU,和傳統 CPU 有什么不同?比如你們是否會部署一整機架的 Vera CPU?
黃仁勛:過去十年里的 CPU,基本都是為超大規模云計算(hyperscale cloud)設計的。而云廠商的變現方式,是按 CPU 核心數收費。
所以你會傾向于設計那種核心數盡可能多、可以出租的 CPU,至于單核性能,反而是次要的。
主持人:因為主要是在處理網頁延遲(web latency)。
黃仁勛:完全正確。所以過去的優化目標,其實是盡可能提升 CPU 實例數量,這也是為什么會出現動輒兩百、三百,甚至四百核心的 CPU。
但這類 CPU 的單核性能并不強。而在 agent 的工具調用場景下,一旦 GPU 需要等待 CPU 完成任務,真正關鍵的反而是盡可能強的單線程性能。
主持人:那只是速度問題嗎?還是說 CPU 本身也需要更高并行度,避免 cache miss 等問題?是不是整個執行流水線都需要變化?
黃仁勛:最重要的是單線程性能,同時 I/O 能力必須非常強。
因為現在是在數據中心環境下,會有大量單線程實例在運行,這會對 I/O 系統和內存控制器產生很大壓力。Vera 在“每核帶寬”和“整體帶寬”上,都是歷史上任何 CPU 的三倍。它的設計目標就是提供極高的 I/O 帶寬和內存帶寬,確保 CPU 永遠不會被“卡住”。
因為一旦 CPU 被限制住,就會拖慢一大堆 GPU。
主持人:那這個 Vera 機架雖然與 GPU 機架緊密連接,但在架構上仍然是解耦的嗎?也就是說,GPU 可以服務多個 Vera 核心,而不是一一綁定?
黃仁勛:是的。
主持人:明白了。那你們和 Intel 的合作,以及 NVLink,在這里是怎么發揮作用的?
黃仁勛:有些用戶接受 Arm 架構,但也有很多用戶——尤其是企業計算,依然需要 x86,因為他們有大量現有軟件棧,不愿意遷移。
所以 x86 依然非常重要。
主持人:x86 架構的生命力,會讓你感到意外嗎?
黃仁勛:不會。英偉達的 PC 依然是 x86,我們所有的工作站也是 x86。
5 引入 Groq:不是替代 GPU,而是補齊它
主持人:正如你今天在主題演講中提到的,你是“token 之王”。你在文章里也說過,從第一性原理來看,AI 的上限其實取決于能源。
如果是這樣的話,如果系統能產生多少 token,本質上受限于數據中心里的能源,那為什么還有公司要去和“token 之王”競爭?
黃仁勛:這會很難。因為光是造一顆芯片,就想取得非常顯著的效果,這是不現實的。即便是像 Groq 這樣的公司,如果不和我們的 Vera Rubin 搭配,也很難取得好的結果。
黃仁勛:如果你從整個推理(inference)的“能力邊界”來看,一方面你希望吞吐量盡可能高,另一方面你又希望每個 token 盡可能“聰明”——token 越聰明,你就可以收更高的價格。
一邊是最大化吞吐,一邊是最大化智能,希望每個 token 更“聰明”。這是一個非常難以平衡的問題。
主持人:我記得你去年有一頁 PPT 講到帕累托曲線(兩件事不能同時做到最優時,它們之間的權衡邊界)。
當時在介紹 Dynamo(英偉達提出的一套幫你在“速度 vs 智能”之間自動調度的 AI 推理系統)時,你說英偉達的 GPU 可以覆蓋整條曲線,用戶不用權衡,直接用你們的方案就行。但現在聽起來,你的意思是:其實并不能完全覆蓋?
黃仁勛:我們仍然比任何系統都更好地覆蓋了這條曲線。
但我們可以進一步擴展帕累托邊界,尤其是在極高 token 速率和極低延遲的區域。不過這樣做會降低整體吞吐。
不過,現在情況發生了變化:因為 coding agent 的出現,這些 AI agent 正在創造非常好的經濟價值,而且這些 agent 是綁定在人類身上的——這些人本身就非常有價值。
主持人:對,他們甚至比 GPU 還貴。
黃仁勛:沒錯。所以我希望給我的軟件工程師提供最高 token 速率的服務。如果 Anthropic 推出一個 Claude Code 的高階版本,能把編程效率提升 10 倍,我一定會付費,絕對會。
主持人:所以你是在為自己做這個產品?
黃仁勛:我覺得很多偉大的產品,都是因為你親身感受到一個痛點,并意識到市場會往這個方向走。
我們也希望我們的 coding agent 能快 10 倍。但在一個高吞吐系統中做到這一點非常困難,所以我們決定引入 Groq 的低延遲系統,然后進行協同運行、協同處理。
主持人:所以這是把 decode 和 prefill 分開處理嗎?
黃仁勛:我們甚至會把 decode 里的高計算量部分(高 FLOPS 部分),包括 attention,也拆分出來。
主持人:也就是說,你們甚至把拆分做到了 decode 這一層。
黃仁勛:是的,而這需要非常緊密的耦合,以及非常深度的軟件集成。
主持人:你們是怎么做到的?你說今年就會出貨,但這個合作也就是幾個月前才宣布的。
黃仁勛:其實我們很早就在做“解耦推理”(disaggregated inferencing)這件事了。Dynamo 是我們把這個想法公開的一次表達。
在我宣布 Dynamo 的那一天,其實我已經在思考:如何在異構基礎設施中,更細粒度地拆分推理任務?而 Groq 的架構,是我們這種思路的一個極端版本,他們自己其實走得很辛苦。
主持人:Dynamo 是一年前發布的,而 Groq 的事情大概是去年圣誕節前后才發生的。有沒有什么關鍵事件讓你決定要這么做?
黃仁勛:其實沒有。我們兩三年前就已經在思考“推理解耦”這個方向了。大概在宣布收購前六個月,我們就開始和 Groq 接觸,討論如何把 Grace Blackwell 和 Groq 結合起來。
我很喜歡他們的團隊。不過我們并不想要他們的云業務——他們有自己的業務,也做得很好,但那不是我們想要的部分。所以我們決定收購團隊、授權技術,然后在這個基礎架構上繼續演進。
主持人:所以這是一次“巧合”?或者說也不是巧合?
黃仁勛:可以說是“戰略性的偶然”。
主持人:OpenAI 現在也在和 Cerebras 合作(今年 1 月宣布的)。
黃仁勛:那完全是他們獨立做的,說實話我之前都不知道。不過這不會改變我們的決策。
我認為 Groq 的架構本來就是我會選擇的,它對我們來說更合理。
主持人:這是第一次有 ASIC 路線讓你覺得“這確實是本質上的不同”嗎?
黃仁勛:不是,Mellanox 才是。
我們把計算棧的一部分放進了 Mellanox 網絡里。如果沒有 Mellanox 的“網絡內計算”(in-network computing),NVLink 不可能做到現在的規模。
把軟件棧拆分,并放到最合適的位置執行,這是 英偉達 的專長。我們不執著于“計算必須在哪里發生”,我們只關心一件事:加速應用。
記住,英偉達 是一家“加速計算公司”,而不是一家 GPU 公司。
主持人:你提到能源是關鍵約束。那么在客戶做采購決策時,是否可以簡單理解為:要么選傳統 GPU,要么選 Groq 這樣的 LPU 機架,本質就是看哪種方案能帶來更高收益?
黃仁勛:這取決于業務階段。如果還沒有成熟的企業級用例,大多數用戶仍是免費用戶(比如三分之二免費、三分之一付費),那引入 Groq 并不劃算,因為這樣成本更高,還會占用寶貴的電力資源。
主持人:而且還增加系統復雜度,占用服務器資源,也有機會成本。
黃仁勛:對,這些資源本可以用來服務更多免費用戶。
但如果是像 Anthropic 或 OpenAI 這樣的業務,比如 Codex 已經能帶來可觀收益,只是希望生成更多 token,那么引入這類加速器,就能顯著提升收入。
6 從算力稀缺到生態競爭
主持人:我們現在的瓶頸到底是電力、晶圓廠產能,還是別的什么?大家都在說供給不夠,真正的限制因素是什么?
黃仁勛:我覺得幾乎所有環節都接近瓶頸了。你很難把任何一個環節翻一倍。
主持人:因為你會撞上其他約束。
黃仁勛:對。
主持人:不過感覺美國在電力方面其實做得還不錯,可能比幾年前預期的要好,但現在看起來,芯片反而更像是主要瓶頸。
黃仁勛:我們的供應鏈規劃得還是比較充分的。我們早就為一個非常大的增長年份做了準備,而且明年也會是一個非常大的年份。我們的供應鏈里有幾百個合作伙伴,而且都是長期合作關系,所以在這方面我還是挺有信心的。
我不覺得我們現在的電力有“翻倍的富余”,也不覺得芯片供應有“翻倍的富余”,實際上沒有任何一項資源是有兩倍余量的。但從我目前看到的情況來看,從供應鏈角度,我們還是能夠支撐未來需求的。
如果說我最希望改善的一點,那就是土地、電力和廠房這些基礎設施能更快建設起來。
主持人:那是否可以這樣理解:在資源稀缺的情況下,英偉達反而是最大受益者?比如電力緊張時,你們的芯片更節能,利用效率更高;產能受限時,你們又提前鎖定了供應鏈,因此更有可能成為贏家?
黃仁勛:我們是這個領域里最大的公司之一,而且我們確實在規劃上做得很好。我們在供應鏈的上游和下游都做了布局,所以我認為我們為行業增長做了充分準備。
主持人:那從另一個角度看,如果無法進入中國市場,會不會成為一個風險?比如中國如果擁有充足的電力和芯片,即便是 7nm 的芯片,他們也可能逐步建立起一個生態,長期來看甚至能和 CUDA 競爭,這是不是你的擔憂?
黃仁勛:毫無疑問,我們需要讓美國的技術棧在中國存在。我從一開始就一直強調這一點,因為開源軟件一定會不斷涌現。
而且,沒有哪個國家在開源軟件上的貢獻比中國更大。同時我們也清楚,全球大約一半的 AI 研究人員來自中國,而且他們非常有創造力。像 DeepSeek、Kimi、Qwen 都不是普通技術,而是非常出色的成果——它們在模型架構以及整個 AI 技術棧上,都做出了獨特貢獻。
因此,這些公司必須被認真對待。
如果全球的技術體系是構建在美國技術棧之上的,那么當這些創新從中國擴散出來(而這幾乎是必然的,因為它們是開源的),無論流向美國本土、東南亞還是歐洲,美國技術棧都能夠承接并吸收這些成果。
主持人:上次我們聊的時候,特朗普政府剛剛禁止了 H20。你當時有沒有覺得驚訝,后來你居然能說服政府改變看法?那現在又被中國政府限制,你會更意外嗎?
黃仁勛:中國方面的限制我并不意外。因為中國當然希望發展自己的技術棧。
在我們退出那個市場的這段時間里,你也知道中國行業發展有多快。華為創下了歷史最佳業績,這是一家歷史非常悠久的公司,卻實現了創紀錄增長。同時還有五六家面向 AI 領域的芯片公司完成了 IPO。
我認為,我們需要在“美國技術領導力”和“地緣政治領導力”上更加有戰略性地思考。
AI 并不僅僅是模型,這是一個很深的誤解。正如我們一開始說的,AI 是一個“五層蛋糕”:基礎設施、芯片、平臺、模型、應用,我們必須在每一層都贏。
而我們現在的一些做法,其實正在削弱我們在這五個層面的領導能力。
我認為,一個非常糟糕的策略是:把整個技術棧從上到下打包、強行捆綁,讓所有公司都在一個整體體系里競爭。這樣的話,最終的上限會被最弱的一層限制。我們應該讓每一層都自由去競爭、去贏市場。
7 先做一套全棧,然后做成剛需平臺
主持人:在自動駕駛領域,你們既與多家車廠合作,也有自己的 Alpamayo 模型,同時還在向特斯拉供芯片。
你今天的演講中也提到了 OpenClaw;另一方面,像 Vera 這樣的芯片,其實很大程度上是由 agent 的發展驅動的,比如 Claude Code 和 OpenAI 的 Codex。
我想問的是,這背后是否有一個一致的邏輯:你們一方面為行業領先者提供芯片,另一方面迅速跟進其能力,并開放給更多競爭者,從而既擴大客戶基礎、不依賴頭部玩家,又借助“被甩下”的焦慮帶動整體需求?
黃仁勛:不是這樣的。
我們在很多領域本身就處于最前沿。從某種意義上說,我們在很多領域都是領導者。但我們從不把這些能力做成最終產品。
我們是一家“技術棧公司”。所以我們必須站在技術前沿,必須成為這個技術棧的世界領導者,但我們不是解決方案廠商,也不是服務提供商。這是第一點。
主持人:這種情況會一直這樣嗎?
黃仁勛:會,一直如此。沒有理由改變,而且我們也很樂意這樣做。我們創造這些技術,然后把它們開放給所有人。
主持人:不過挺有意思的是,你們現在的硬件產品里,一個機架可能包含三萬多個 SKU,而且越來越多由你們來定義,以便更高效地組裝和集成。那在軟件層面,是否也會走類似路徑?比如你提到的垂直整合和開源模型。
黃仁勛:我們會先“垂直地”把一整套東西做出來,然后再“水平地”開放出去,讓大家可以按需使用其中的任何部分。
主持人:前提是他們運行在 英偉達 芯片上?
黃仁勛:他們可以用任何他們想用的部分,不一定非要用全部 英偉達 芯片,也不一定要用全部 英偉達 軟件。
我們必須先做垂直整合、垂直優化,但完成之后,我們會開放源代碼,提供能力,讓大家自己決定怎么用。
主持人:那你覺得 英偉達 能一直在“前沿模型”這件事上保持競爭力嗎?畢竟像 Meta 似乎有點掉隊,而另一類替代方案,很多是中國模型。
黃仁勛:在那個領域“贏”對我們來說并不重要。
主持人:不是說一定要贏,而是說:需要有人提供開源的前沿模型。如果不是你們,那會是誰?
黃仁勛:總得有人去做開源模型,而 英偉達 在這方面確實有能力。而且,每次我們做開源模型,我們也能從中學到很多關于計算本身的東西。
主持人:那 Blackwell 當時是不是遇到了一些問題?我聽說訓練過程可能比以前更困難。
黃仁勛:Blackwell 的挑戰 100% 來自 NVLink 72,這部分工作非常艱難。那是我唯一一次在發布會上特意感謝大家和我們一起扛過來的。
主持人:我當時注意到你說那句話,非常真誠。
黃仁勛:是的,因為我們確實把大家“折騰”得夠嗆,但現在大家都很喜歡這個成果。
主持人:這是我們第二次線下交流。上次在臺北見你時,我的感覺是 英偉達依然像一家“小公司”。你會擔心業務鋪得太開嗎?還是說你們依然有類似 CUDA 的“飛輪效應”——看似在做很多事,本質上是在不斷復用同一套方法?
黃仁勛:英偉達 之所以能行動這么快,是因為我們始終有一套統一的理論。
這也是我的工作:明確什么是重要的,這些事情如何彼此關聯,并構建一個能夠高效執行的組織。
這套統一理論其實很簡單:一方面,我們擁有計算與軟件平臺,也就是 CUDA-X;另一方面,我們是一家計算系統公司,通過全棧的垂直優化和極致協同設計(co-design)來打造系統。
這個“計算機”本身就成為我們的平臺,我們再把它集成進各類云廠商和 OEM 體系中。現在,我們還在構建新的平臺:數據中心平臺,也就是 AI 工廠。
一旦理解了 英偉達 在做什么、以及如何去做,這一切就會變得清晰。而我在這次 keynote 中,其實也是在講這個故事。某種程度上,也是講給我們自己的員工聽。
https://stratechery.com/2026/an-interview-with- 英偉達 -ceo-jensen-huang-about-accelerated-computing/
聲明:本文為 InfoQ 前線整理,不代表平臺觀點,未經許可禁止轉載。
會議推薦
OpenClaw 出圈,“養蝦”潮狂熱,開年 Agentic AI 這把火燒得不可謂不旺。在這一熱潮下,自托管 Agent 形態迅速普及:多入口對話、持久記憶、Skills 工具鏈帶來強大生產力。但這背后也暴露了工程化落地的真實難題——權限邊界與隔離運行、Skills 供應鏈安全、可觀測與可追溯、記憶分層與跨場景污染、以及如何把 Agent 納入團隊研發 / 運維流程并形成穩定收益。
針對這一系列挑戰,在 4 月 16-18 日即將舉辦的 QCon 北京站上,我們特別策劃了「OpenClaw 生態實踐」專題,將聚焦一線實踐與踩坑復盤,分享企業如何構建私有 Skills、制定安全護欄、搭建審計與回放機制、建立質量 / 效率指標體系,最終把自托管 Agent 從可用的 Demo 升級為可靠的生產系統。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.