網易首頁 > 網易號 > 正文申請入駐

英偉達正式發布LPU，CPU重磅更新：GPU不再是GTC唯一主角

2026-03-17 06:14:31　來源: 半導體行業觀察

上海舉報

分享至

英偉達首席執行官黃仁勛周一舉辦的GTC 2026上詳細闡述了他保持公司在人工智能熱潮中處于領先地位的愿景，他預測人工智能熱潮將在未來一年內產生價值 1 萬億美元的訂單積壓。

黃身穿標志性的黑色皮夾克，在加利福尼亞州圣何塞座無虛席的體育館里的舞臺上漫步了兩個多小時。他解釋了英偉達的處理器如何成為不可或缺的人工智能組件，并重點介紹了他認為將使公司保持領先地位的產品。

現年 63 歲的黃仁勛還談到了他近年來作為硅谷最具影響力的人物之一所一直宣揚的許多主題，包括他認為人工智能的發展仍處于起步階段的論點。

黃仁勛宣稱：“我們重新定義了計算，就像個人電腦革命和互聯網革命一樣。我們現在正處于一個全新平臺變革的開端。”

為了強調自己的觀點，黃仁勛預測，到今年年底，英偉達的芯片訂單積壓額將達到 1 萬億美元，是去年同期預測的兩倍。

為了迎接這個機會，他們在會上發布了多顆芯片和系統。

Nvidia Groq 3 LPU 正式亮相

在今天的GTC 主題演講中，黃仁勛透露了英偉達如何利用去年從 Groq 收購的知識產權來擴展 Rubin 的功能。Rubin 平臺現在包含一款新的芯片——英偉達 Groq 3 LPU，這是一款推理加速器，能夠增強這些系統以低延遲、大批量的方式交付令牌的能力，從而在人工智能模型的前沿實現高交互性。

與大多數依賴 HBM 作為工作內存層的 AI 加速器不同，每個 Groq 3 LPU 都集成了 500 MB 的 SRAM，這種內存也用于 CPU 和 GPU 的超高速緩存。雖然與每個 Rubin GPU 上容量高達 288GB 的 HBM4 相比，這顯得微不足道，但正如您所預期的，這塊 SRAM 可提供 150 TB/s 的帶寬，遠高于 HBM 的 22 TB/s。對于帶寬敏感型 AI 解碼操作而言，Groq 3 芯片帶寬的大幅提升為推理應用帶來了誘人的優勢。

反過來，英偉達將構建包含 256 個 Groq 3 LPU 的 Groq 3 LPX 機架。該機架提供 128GB 的 SRAM 和 40 PB/s 的推理加速帶寬，并通過每個機架 640 TB/s 的專用擴展接口將這些芯片連接起來。

英偉達將 Groq LPX 設想為 Rubin 的協處理器，據英偉達超大規模副總裁 Ian Buck 稱，它將提升“每個令牌上 AI 模型每一層”的解碼性能，并使 Rubin 能夠服務于人工智能的下一個前沿領域：多智能體系統，這些系統需要在推理數萬億個參數的模型的同時，在數百萬個token的上下文窗口中提供交互式性能。

隨著多智能體系統中的人工智能代理越來越多地與其他人工智能進行交互，而非與查看聊天機器人窗口的人類進行交流，對響應速度的要求也隨之改變。對人類而言看似合理的每秒token生成速率，對人工智能代理來說卻如同蝸牛爬行。在巴克所描述的未來多智能體系統中，Rubin GPU 和 Groq LPU 的組合將人工智能代理間通信的吞吐量從每秒 100 個token提升到每秒 1500 個token甚至更高。

Rubin平臺新增Groq 3 LPU，有望幫助其在低延遲推理領域抵御挑戰者。Cerebras公司憑借其晶圓級引擎，融合海量SRAM和計算資源，利用先進模型實現低延遲推理，該公司曾多次就Nvidia GPU在這方面的劣勢向Nvidia發起挑戰。包括OpenAI在內的眾多大型客戶已簽約使用Cerebras的計算能力，以利用該平臺優異的延遲特性來運行其部分尖端模型。

Buck 還暗示，Groq 3 LPU 的推出可能會導致 Rubin CPX 推理加速器的作用降低，他表示公司目前專注于將 Groq 3 LPX 機架與 Rubin 集成。雖然他沒有透露更多細節，但在如今內存資源緊張的環境下，這種重心轉移是合理的，因為這兩款芯片旨在提供類似的推理性能提升，而且 Groq LPU 不需要像每個 Rubin CPX 模塊那樣大量的 GDDR7 內存。

全新88核Vera CPU叫板AMD/Intel

在 GTC 2026 大會上，英偉達公布了其全新 88 核 Vera 數據中心 CPU 的更多細節，聲稱其性能比標準 CPU 提升了 50%，這得益于 Olympus 核心 IPC 提升 1.5 倍，以及英偉達所稱的創新高帶寬設計，該設計可提供市場上最快的單線程性能。該公司還發布了全新的 Vera CPU 機架架構，該架構將 256 個液冷 CPU 集成到一個機架中，專為以 CPU 為中心的工作負載而設計，據稱其 CPU 吞吐量提升了 6 倍，在智能 AI 工作負載中的性能提升了 2 倍。

Vera CPU 的演進及其與可部署機架級系統的集成，標志著英偉達正式進軍 CPU 直銷領域，成為傳統 CPU 市場中英特爾和 AMD 的有力競爭對手。更不用說，它還要與全球最大的超大規模數據中心運營商使用的各種定制 Arm 處理器展開競爭。此前，英偉達宣布Meta 將在其基礎設施中部署多代英偉達純 CPU 系統，因此這一舉措并不令人意外。英偉達還將繼續在其以 GPU 為中心的系統中使用這些 CPU，例如我們此前深入報道過的 Vera Rubin 平臺。

英偉達最初于 2022 年 GTC 大會上發布了第一代 Grace CPU，預示著該系列的持續發展最終將使其躋身更廣泛的 CPU 市場。新款處理器面向人工智能和通用應用場景，尤其側重于前者。英偉達不斷拓展其功能和目標市場，這將對 AMD 和英特爾在人工智能數據中心的插槽爭奪戰構成嚴峻挑戰。這些芯片現已全面投產，并將于今年下半年提供給英偉達的合作伙伴。接下來，我們將詳細了解這些新芯片及其機架級架構。

Nvidia 設計 Vera CPU 的目的是為了融合多方面的優勢，將超大規模云 CPU 的高核心數、游戲 CPU 的高單線程性能和移動芯片的能效相結合，從而加速智能 AI、訓練和推理工作負載中常見的 GPU 驅動任務，例如 Python 執行、SQL 查詢和代碼編譯。

總而言之，英偉達聲稱其沙箱性能比 x86 競爭對手高出 1.5 倍，每個核心的內存帶寬高出 3 倍，能效高出兩倍。為了實現這些目標，該公司設計了一款 88 核 144 線程的 CPU，比第一代 Grace 的 72 核有所增加。英偉達還聲稱，這些核心的每周期指令數 (IPC) 吞吐量提高了 1.5 倍，相對于其他競爭架構而言，這是一個巨大的代際飛躍，因為其他競爭架構通常每一代只有個位數或十幾個百分點的提升。在上一代 Grace 中，英偉達使用了現成的 Arm Neoverse 核心，但該公司明確指出 Vera 上的全新 Olympus 核心是“英偉達設計的”，這表明該公司對參考設計進行了定制修改。

Arm v9.2-A Olympus 內核采用空間多線程技術，通過避免對執行單元、緩存和寄存器文件等關鍵元素進行時間片輪換，從而在物理上隔離流水線的各個組件。這與其它同步多線程 (SMT) 實現中常見的標準時間片輪換機制截然不同，后者是指線程輪流使用資源。空間多線程通過在執行單元空閑時從其他線程拉取指令，從而提高指令級并行性 (ILP)、吞吐量和性能可預測性，確保資源得到充分利用。

實際上，這使得兩個線程能夠真正地在單個核心上同時運行，而標準的SMT實現中，線程實際上是輪流在單個核心上運行的。這自然對多租戶環境來說是一大優勢。

英偉達將所有 88 個核心排列在一個域中，因此不存在 NUMA 架構中常見的延遲問題，這與目前高核心數的 x86 競爭對手形成了鮮明對比。這顯著提升了延遲、可預測性、帶寬和可編程性。該公司尚未透露如何在保持每個核心足夠延遲的情況下實現這一壯舉的全部細節，但該芯片采用了新一代英偉達可擴展一致性架構 (SCF)，這是一種基于 Arm CMN-700 一致性網狀網絡的網狀拓撲結構，該網絡也用于Grace 的 Arm Neoverse 核心。Arm 在其最新設計中已升級到更新的 Neoverse CMN S3 網狀網絡，Vera 很可能采用了該設計或其變體。

網狀網絡能夠為所有核心提供令人印象深刻的內存吞吐量，尤其是在某些核心比其他核心更需要帶寬的情況下。Grace 架構支持 546 GB/s 的網狀內存吞吐量，平均每個核心 7.6 GB/s。Vera 架構在此基礎上翻了一番，帶寬達到 1.2 TB/s，這得益于 1.5TB SOCAMM LPPDDR5 內存模塊（容量提升 3 倍），在滿載情況下，平均每個核心可達 13.6 GB/s。更重要的是，當網狀網絡中的負載情況不一致時，該架構現在支持單個核心最高 80 GB/s 的吞吐量，這對帶寬密集型線程來說是一個顯著的提升。

執行路徑包括一個 10 寬的指令解碼單元、一個支持每個周期進行兩次分支預測的神經分支預測器、一個自定義的圖數據庫分析預取引擎和一個 PyTorch 優化的指令緩沖區。

該芯片全面支持機密計算，相比 Grace 芯片，這是一項顯著的進步，可實現完全保護的 CPU+GPU 域。該 CPU 還配備了 NVLink-C2C 芯片間接口，吞吐量高達 1.8 TB/s，是 Grace 芯片 900 GB/s 互連速度的兩倍，比 PCIe 6.0 快七倍。此外，它還支持雙處理器 (2P) 配置。

總體而言，Vera 支持現代數據中心處理器所期望的全套技術，包括 PCIe 6.0 和 CXL 3.1 支持，但其計算設計以帶寬和延遲為重點，使其在 AI 工作流程中具有獨特的優勢。

Grace 已成為許多英偉達 GPU+CPU 系統的基本構建模塊，包括一些地球上速度最快的 AI 超級計算機，但英偉達的擴展目標是利用 Vera 在純 CPU 機架中實現更廣泛的部署。

Vera CPU 機架通過 256 個液冷 Vera CPU、74 個 Bluefield-4 DPU 和 ConnectX SuperNIC 網絡來實現這一目標。該機架配備高達 400 TB 的 LPDDR5 內存，總內存吞吐量達 300 TB/s。這足以支持 45,056 個線程，據 Nvidia 稱，這些線程可同時支持 22,500 個獨立運行的 CPU 環境。

Nvidia 分享了各種工作負載的基準測試結果，聲稱在腳本編寫、編譯、數據分析、圖分析和 HPC 工作負載等方面，其性能比 Grace 提高了 1.8 倍到 2.2 倍。

人們自然會認為這套系統會部署在 Meta 公司，該公司最近宣布與英偉達合作開發純 CPU 系統，但英偉達表示，它還將向包括 Oracle、Coreweave、Nebius、阿里巴巴等在內的超大規模數據中心運營商提供 Vera CPU 機架系統。

眾多OEM和ODM廠商也將為更廣泛的市場提供單路和雙路服務器，以滿足各種應用場景的需求，其中包括戴爾、HPE、聯想、超微、富士康等行業巨頭。Vera CPU也將用于Nvidia HGX NVL8系統。

或許最重要的是，這些機架還將成為英偉達更廣泛的 Vera Rubin 平臺的組成部分，該平臺總共包含七款芯片，包括 Rubin GPU、用于機架級互連的 NVLink6 交換機、用于網絡連接的 ConnectX-9 SuperNIC、Bluefield 4 DPU、Spectrum-X 102.4T 共封裝光交換機和英偉達的 Groq 3 LPU。

Vera CPU 目前已全面投產，預計將于今年下半年開始交付。

發布 Vera Rubin 太空模塊

在GTC 2026大會上，英偉達還發布了Vera Rubin太空模塊，聲稱其在軌道推理工作負載方面的AI計算能力是H100的25倍。據悉，已有六家商業航天公司部署了該平臺。

根據英偉達官方新聞稿，Vera Rubin 空間模塊專為在太空直接運行 LLM 和高級基礎模型的軌道數據中心而設計，它采用緊密集成的 CPU-GPU 架構和高帶寬互連，旨在實時處理來自太空儀器的大量數據流。

其次是Nvidia IGX Thor，它面向任務關鍵型邊緣環境，支持實時AI處理、功能安全、安全啟動和自主運行。與此同時，Nvidia Jetson Orin則采用最小尺寸設計，面向對尺寸、重量和功耗（SWaP）有嚴格限制的衛星，用于機載視覺、導航和傳感器數據處理。

回到地球上，Nvidia 將RTX PRO 6000 Blackwell系列服務器版 GPU 定位為地理空間智能工作負載，聲稱在分析大型圖像存檔時，其性能比傳統的基于 CPU 的批處理系統提升高達 100 倍。

英偉達表示，目前有六家公司正在軌道和地面環境中使用其平臺：Aetherflux、Axiom Space、Kepler Communications、Planet Labs PBC、Sophia Space 和 Starcloud。其中，Kepler 已在其衛星星座中部署了 Jetson Orin，用于人工智能驅動的數據管理。“英偉達 Jetson Orin 將先進的人工智能直接引入我們的衛星，使我們能夠智能地管理和路由整個星座的數據，”該公司首席執行官 Mina Mitry 在英偉達的官方新聞稿中表示。

去年十月，亞馬遜和藍色起源創始人杰夫·貝佐斯預測，軌道上千兆瓦級數據中心還需要10到20年才能建成，他認為持續的太陽能發電和太空簡化的冷卻環境是其主要優勢。英偉達的六家合作伙伴之一Starcloud已經在建設其所謂的專用軌道數據中心，旨在運行軌道上的訓練和推理工作負載。

“太空計算，最后的疆界，已經到來，”黃仁勛說道，“人工智能在太空和地面系統中的處理，能夠實現實時感知、決策和自主性，將軌道數據中心轉變為發現的工具，將航天器轉變為自主導航系統。”

IGX Thor、Jetson Orin 和 RTX PRO 6000 Blackwell 服務器版現已上市。Vera Rubin 太空模塊尚未公布發布日期；英偉達表示將在“稍后”推出。

隨著這顆芯片的發布，Vera Rubin 成為英偉達迄今為止最具雄心的系統，它由五個機架系統中的七顆芯片組成。英偉達表示，與 x86 和 Hopper 相比，Vera Rubin 每秒可處理 7 億個token，而后者僅為 200 萬個。

英偉達的推理芯片危機

英偉達憑借其在人工智能芯片市場的主導地位，將其年收入從 2022 年的 270 億美元增長到去年的 2160 億美元——這一增長率使這家位于加利福尼亞州圣克拉拉的公司的市值達到了 4.5 萬億美元。

但自去年 10 月英偉達市值短暫突破 5 萬億美元大關以來，該公司一度火熱的股價已經降溫，原因是人們擔心人工智能的熱潮被過分夸大了。

“對于科技行業來說，這真是一段令人膽戰心驚的時期，”韋德布什證券分析師丹·艾夫斯表示。

即使英偉達在 2 月下旬發布的季度報告遠超分析師預期，且管理層也給出了樂觀的展望，但該公司股價仍比這些數據公布前下跌了 6%。

盡管分析師預計英偉達明年的收入將超過 3300 億美元，但隨著谷歌和 Facebook 的母公司 Meta Platforms 等其他科技巨頭試圖開發自己的處理器，該公司在人工智能芯片市場正面臨著第一個嚴峻的挑戰。

英偉達的潛在增長受到美國安全和貿易壁壘的制約，這些壁壘阻礙了該公司在中國銷售其先進芯片的能力。

黃仁勛設想，英偉達將繼續在人工智能領域發揮重要作用，通過持續滿足市場對驅動聊天機器人（如 OpenAI 的 ChatGPT 和谷歌的 Gemini）的芯片的狂熱需求，并擴大其在推理處理器新興市場的影響力。

一旦人工智能工具經過訓練，推理芯片就能讓這項技術運用所學到的知識并產生響應——無論是編寫文檔還是創建圖像——其效率都比構建大型語言模型時使用的處理器更高。

英偉達首席執行官黃仁勛一直以來都宣稱，2026年將是推理能力主導人工智能的一年。在3月4日的投資者大會上，他承認“我們現在看到的這種轉折點其實早已顯而易見，它本質上是人工智能使用文件、訪問文件和使用工具的能力。”

“推理轉折點已經到來，”黃仁勛強調。

英偉達目前面臨的挑戰是，其暢銷產品在推理計算方面的吸引力遠不如在訓練計算方面。用戶反映，其Grace Blackwell服務器能耗巨大，且內存不足，無法讓AI模型快速高效地回答用戶查詢。

“英偉達現在處境很尷尬，”風險投資家、麻省理工學院數字經濟計劃研究員保羅·凱德羅斯基表示。“很長一段時間以來，詹森一直說，‘我們不需要專用的獨立推理芯片，直接用Blackwell就行了。’但現在情況已經不同了，而且涌現出了很多新的競爭對手。”

凱德羅斯基認為，英偉達最近一個季度的毛利率高達73%，但由于兩個原因，其毛利率必然會下降。首先，推理計算的商業模式非常重視效率和降低最終產品的生產成本，而對于消費者而言，最終產品指的是人工智能工具。其背后的硬件成本不能太高，否則無論是直接銷售還是作為中間商銷售的公司都無法盈利。

其次，由于更多芯片公司找到了降低芯片購買和運營成本的方法，推理計算領域的競爭也更加激烈。英偉達憑借其硅芯片（相當于速度快、性能強、價格昂貴的法拉利跑車）成為首家市值4萬億美元的公司，但如今，世界需要的是普銳斯和特斯拉Model Y這樣的“家用轎車”。

“所有這些推理方面的東西對詹森來說都極具威脅，因為這一切都是以效率為導向的，”凱德羅斯基說。“他正拼命想辦法將這個系列拓展到推理領域。”

于是，為了幫助其順利過渡到推理領域，英偉達與市場專家 Groq 達成了一項數十億美元的授權協議，其中包括聘用該初創公司的頂尖工程師。

“英偉達不會將任何市場份額讓給谷歌或Meta，”艾夫斯說道，他認為英偉達的市值將在未來一年左右超過6萬億美元。

GPU不再是唯一主角

此外，還有其他跡象表明，英偉達正在將其重心從GPU轉向推理計算解決方案提供商。今年2月，Meta Platforms宣布將在其人工智能數據中心部署數千顆英偉達Vera CPU，這是英偉達人工智能系統首次大規模部署，且未使用GPU。人們越來越認識到，推理計算可以使用CPU完成，并不一定需要英偉達的旗艦芯片。

據《華爾街日報》報道，英偉達也計劃推出新的計算解決方案，該方案將采用多個獨立于GPU的CPU，類似于Meta的計劃。英特爾也計劃推出類似解決方案。

順便提一下，英特爾今天在圣何塞舉行的Nvidia GTC 2026 大會上宣布，其 Xeon 6 處理器將作為 Nvidia DGX Rubin NVL8 系統的主機 CPU，從而擴展了兩家公司此前在基于 DGX B300 Blackwell 的平臺上使用Xeon 6776P建立的 x86 合作關系。

DGX Rubin NVL8 是英偉達的下一代旗艦級 AI 服務器系統。在該配置中，主機 CPU 負責任務編排、內存管理、調度以及向 GPU 加速器傳輸數據。隨著推理工作負載向智能體 AI 和推理系統轉變，這些功能對單核性能和內存帶寬的要求越來越高。

回到GTC主題演講，黃仁勛將英偉達描述為“垂直整合但橫向開放”，這或許會引起美國聯邦貿易委員會的關注。無論如何，英偉達表示，鑒于其在加速計算領域的目標——向客戶提供完整的技術棧——“別無他法”。與此同時，他還將英偉達描述為“垂直整合但橫向開放”，這或許會引起美國聯邦貿易委員會的關注。無論如何，英偉達表示，鑒于其在加速計算領域的目標——向客戶提供完整的技術棧——“別無他法”。

在這次大會上，黃仁勛再次預告了下一代Feynman系統。該系統配備了全新的GPU、LPU、名為Rosa的全新CPU、Bluefield 5以及Kyber架構，并支持銅纜和CPO擴展。Feynman系統預計將于2028年發布。

在推理迅速崛起的當下，英偉達能否繼續壟斷市場，我們邊走邊看，但黃仁勛以及英偉達肯定充滿信心。

因為正如他所說，“摩爾定律已經失去了動力，加速計算讓我們能夠取得巨大的飛躍。”

大家怎么看啊？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.