公眾號記得加星標??,第一時間看推送不會錯過。
在 GPU 加速應用程序性能的早期——實際上從 2012 年 5 月的“開普勒”數據中心 GPU 到 2017 年 5 月的“伏特”——英偉達,這家全球最重要的科技公司,也是 GenAI 革命中硬件和系統軟件的絕對主導供應商,在發布路線圖方面做得非常出色。
但在2021年之前的幾年里,英偉達一直把產品路線圖折疊起來,放在聯合創始人兼首席執行官黃仁勛皮夾克左前內袋里。隨著人工智能時代(GenAI)的蓬勃發展從化學領域轉向核能領域,英偉達敏銳地意識到,在各方都在努力協調資金、土地、電力、冷卻和系統,以構建IT市場有史以來規模最大的基礎設施建設之際,每個人都需要一份真正意義上的路線圖,最好是未來幾年的規劃路線圖。第一份這樣的新時代路線圖于2023年底發布,并非黃仁勛在GTC大會上展示的幻燈片,而是在一份財務報告中。我們對這份路線圖進行了大量的編輯,添加了缺失的組件,例如一些GPU和DPU,并在各列中修正了正確的年份。但我們始終感激英偉達能夠清晰地展現其現狀和未來發展方向。我們收集了2021年至2023年間所有能找到的路線圖,并將它們整理到這篇文章中,供您參考。
2023年10月發布的路線圖也讓我們首次了解到英偉達為其人工智能系統組件制定的年度更新計劃。在這份2023年末的路線圖中,2025年的產品被命名為GX200、GX200NVL、X100和X40,這讓我一度以為他們會沿用游戲產品線的“Xavier”代號,但我們也承認“X”可能是一個變量。最終,2025年的產品被證實是黃仁勛在2024年6月臺北國際電腦展上詳細介紹的“Blackwell”GPU,而我們現在看到的路線圖樣式已經多次更新了。(對于我們這些上了年紀的人來說,字體可能有點小,所以你可能需要瞇著眼睛才能看清。)
英偉達在2024年6月公布了其到2027年的數據中心發展路線圖,當時我們首次了解到了“Vera”CV100 Arm服務器CPU和“Rubin”R200 GPU加速器。隨后,黃仁勛在去年的GTC大會上又公布了到2028年的數據中心發展路線圖。
在 2026 年 GTC 大會上,黃仁勛補充了 2026 年至 2028 年期間的一些技術細節,但他沒有談到未來可能推出的“Feynman Ultra”GPU,以及更新的 ConnectX-10 SmartNIC,甚至可能還有更新的 Groq LPU,這些產品也可能在當年推出。
英偉達在訓練方面占據絕對優勢,并且在推理方面也具備競爭力。
這些路線圖對于將英偉達技術轉化為運行人工智能訓練和推理系統的原始設備制造商 (OEM) 和原始設計制造商 (ODM) 至關重要,這些系統服務于全球絕大多數用戶。對于客戶而言,路線圖同樣重要,因為我們都知道,客戶會投資于路線圖,而不僅僅是購買單個產品。盡管人工智能計算引擎和網絡領域經歷了前所未有的爆發式增長,競爭異常激烈,但英偉達目前仍占據著絕對的市場份額,并且在未來許多年內仍將保持這一優勢。至于未來能持續多久,我們拭目以待。
如果你粗略估算一下(你知道我喜歡這么做),根據IDC和Gartner有限的數據,2025年服務器市場總規模將在4200億美元到4500億美元之間,其中約1900億美元的系統物料成本將作為收入流向英偉達。此外,OEM和ODM廠商銷售的、至少安裝了英偉達GPU(很可能還安裝了更多組件)的機器,在2025年的收入可能在2750億美元到3250億美元之間。這意味著基于英偉達技術的機器在整個系統市場中的份額將達到61%到77%左右。要想獲得更精確的估算,我們需要使用量子概率分布(你應該笑一笑),或者查看所有公有和私有服務器制造商的財務數據并進行匯總。
我想重點是,人工智能系統幾乎所有的利潤都流向了英偉達,其毛利潤、營業利潤和凈利潤都清楚地表明了這一點。
真是太棒了。
這就引出了黃仁勛在GTC主題演講中提出的2026年路線圖:
![]()
這一次,除了計算和網絡引擎的演進之外,“Oberon”和“Kyber”機架的演進也被明確地提及。
您還會注意到,Quantum InfiniBand 沒有被提及,這并不是因為英偉達停止了對 InfiniBand 的開發,而是因為英偉達并不期望 AI 工廠部署 InfiniBand,即使在某些情況下,運行較小集群的 HPC 中心甚至一些 AI 中心可能會選擇它。
此外,正如我們在之前對黃仁勛主題演講的報道中所指出的,去年九月發布的“Rubin”CPX長上下文和衰減處理引擎并未列入路線圖。Rubin CPX原計劃于今年年底交付,用于處理100萬個詞元或以上的AI上下文窗口,并輔助生成圖像模型(而非文字模型)的視頻。現在就斷言CPX將無法勝任此類工作負載可能還為時尚早。事實上,我們可能會看到Nvidia CPX和Groq LPU計算引擎的組合來處理這兩種推理任務——而Vera-Rubin計算復合體則不會參與其中。(Nvidia并未如此表態,但這是我的推測。)
Vera-Rubin 系統已準備就緒,將于 2026 年下半年按計劃進行批量出貨。Vera Arm 服務器 CPU 擁有 88 個定制的 Nvidia “Olympus” 核心,每個核心支持兩個線程,并配備 1.8 TB/秒的 NVLink 芯片間互連,可作為一個或多個“Rubin”R200 GPU 加速器之間的高速連接。正如我們去年所知,Rubin 由兩個光刻膠大小的 GPU 芯片組成,通過 NVLink C2C 端口連接在單個插槽內,配備 288 GB HBM4 顯存,其張量核心可提供 50 petaflops 的 FP4 性能,相比之下,“Blackwell”B200 為 10 petaflops,B300 為 15 petaflops。這些 B200 和 B300 GPU 配備 288 GB HBM3E 堆疊式顯存。預計 Rubin 將采用臺積電的 3 納米 N3E 或 N3P 工藝進行蝕刻。據我們所知,Oberon 機架式服務器將采用與 Blackwell 架構的 B200 和 B300 相同的 NVL72 機架式系統,配備 72 個 GPU 插槽和 36 個 CPU 插槽。(英偉達曾一度將這些服務器稱為 NVL144,因為他們統計的是 GPU 芯片的數量,而不是插槽的數量,這不僅讓自己感到困惑,也讓不少客戶感到困惑。)
與 Vera 和 Rubin 一樣,Groq LP30 將采用專用機架包裝,并配備標準的 Spectrum 以太網主干網(有時也稱為背板)。據我們所知,該以太網主干網未使用帶有共封裝光器件的 Spectrum-6 ASIC,但它可能在主干網中使用光器件,并在 Groq 芯片引出的芯片間連接器中使用銅線。
Nvidia 將此稱為 Oberon ETL256 配置,這意味著 256 個 Vera CPU 或 256 個 Groq LPU 可以連接到此背板。
今年推出的 Groq sleds ,每個sled有四個插槽,每個插槽裝有八個 LP30 ,它們的外觀如下:
![]()
一組LP30處理器機架被稱為Groq 3 LPX系統,它包含32個滑橇,總共擁有315 petaflops的FP8推理計算能力,256個芯片上配備128 GB的SRAM,總SRAM帶寬為40 PB/秒,Spectrum ETL背板上的總擴展帶寬為640 TB/秒。(同樣,目前尚不清楚這是移除CPO后的Spectrum-5還是Spectrum-6。我們懷疑是結構更簡單的Spectrum-5。)
今年晚些時候,用戶還可以將整架 Vera 服務器 CPU 集成到配備 ETL 主干網的 Oberon 機架中。(Meta Platforms 將成為這項技術的早期客戶。)計算一下,每個機架單元 (sled) 可容納 8 個 Vera CPU(可能是 4 個雙向 Vera-Vera 節點),一個 Vera ETL 機架可容納 32 個機架單元。這意味著總共有 256 個 CPU,22,528 個核心,512 TB 的主內存,以及 300 TB/s 的內存帶寬。
![]()
想必這款機架會被命名為 Vera CPX 機架,其中 CPX 是 Compute Processing Rack(計算處理機架)的縮寫(不要與 Rubin CPX 處理器混淆)。基于 BlueField-4 DPU 并運行來自十幾個合作伙伴的各種分布式存儲軟件棧的存儲機架被稱為 BlueField STX 機架,類似地,Spectrum-6 交換機機架則被稱為 Spectrum-5 SPX 機架。
或許在命名中加入“X”并不是個好主意。或許,它們應該分別叫做CPR、STX和SPR?命名很重要。它們都基于MGX模塊化服務器架構,而MGX并非中東那家私募股權公司,該公司目前正為全球眾多人工智能設施提供融資。
展望2027年,“Rubin Ultra”GPU(暫定名為R300)實際上只是將Rubin插槽內的GPU芯片數量從兩顆增加到四顆,并提供100 petaflops的FP4性能。英偉達計劃在新推出的“Kyber”機架中將插槽數量翻倍至144個,該機架將采用銅質中板,取代之前用于連接GPU插槽的數千根銅纜。英偉達將為這四顆Rubin GPU芯片配備16組HBM4E顯存,總容量為1TB,讀寫速度為32TB/s。(理論上,HBM4E顯存的讀寫速度可達64TB/s,我們不禁好奇英偉達為何降低了讀寫速度——或許是出于功耗和散熱方面的考慮。)
我們來簡單聊聊 NVLink 端口和 NVSwitch 內存互連技術。這兩個名稱最初出現的時間有點不一致,因為 2016 年隨“Pascal” P100 GPU 一同推出的 NVLink 1.0 并沒有交換機,而是使用網狀互連技術在 Pascal GPU 之間共享內存。端口和交換機的命名與 Blackwell B300 GPU(我記得是這樣)是同步的,之后芯片和端口的命名就保持一致了。例如:
![]()
NVSwitch 內存架構 ASIC 的增強方式有很多,但可以肯定的是,ASIC 的端口數(即基數)已經過低,我認為英偉達很有可能會開始考慮晶圓級 ASIC 設計,而不是芯片組設計。(仔細想想,他們甚至可能在未來的 Groq LPU 中也采用這種設計。)這些設計不必完全采用晶圓級,但這意味著要徹底消除所有芯片間的 C2C 互連,以及數據在芯片間通過 C2C 互連傳輸到相鄰芯片時所需的所有緩沖。(我們認為,神秘的網絡芯片初創公司 Eridu 已經在著手進行這項技術,而 Cerebras 也已經展示了它在并行計算方面的出色表現。)
簡而言之,Rubin GPU 上的 NVLink 6 端口的帶寬將比 NVLink 5 端口翻倍,達到 3,600 GB/秒,而 Rubin Ultra GPU 的帶寬將再次翻倍,考慮到 Rubin 和 Rubin Ultra 之間的性能翻倍以及 HBM4 內存帶寬幾乎翻了三倍,這是理所當然的。
在 Rubin 系列產品中,Spectrum-6 以太網 ASIC 將采用共封裝光器件,該系列 102.4 Tb/s 交換機也將支持 Rubin Ultra 系統的橫向擴展網絡需求。2027 年推出的 Rubin Ultra 產品線將采用 Groq LP35 芯片,該芯片將支持 NVFP4 格式的 FP4 浮點運算,從而與 Blackwell 和 Rubin GPU 的精度相匹配。2028 年,Rosa-Feynman 系統將搭載 Groq LP40 計算引擎,并為其添加 NVLink 端口,以便 Groq 引擎能夠與 Rosa Arm 服務器 CPU(以諾貝爾獎得主、醫學物理學家羅莎琳·薩斯曼·亞洛 (Rosalyn Sussman Yalow) 的名字命名,她開發了放射免疫分析法,用于檢測血液或組織中微量化學物質)和 Feynman GPU(以著名物理學家和邦戈鼓演奏家理查德·費曼 (Richard Feynman) 的名字命名)保持內存一致性。
您將在路線圖中看到,英偉達將在 2028 年為 NVLink 8 端口添加 CPO 功能,并且很可能也會在另一端的 NVSwitch ASIC 上添加 CPO 功能。雖然我們一直敦促計算引擎制造商在其設備上采用 CPO,但他們也可以在一端使用銅纜,另一端則使用采用 CPO 的多層交換機 ASIC 網絡。兩端都不需要采用 CPO。(英偉達在這張圖表中似乎對 NVSwitch 和 NVLink 的使用比較寬泛,因此請注意。)我們認為 NVSwitch 的 CPO 功能很有意義,因為它將允許構建快速、高帶寬的雙層 NVSwitch 網絡,從而為模型創建更大的 GPU 計算內存域。
Hopper GPU 的官方可擴展性為 8 個 GPU(采用內存鏈接),但非官方的可擴展性為使用兩層網絡時可達 256 個 GPU。Blackwell 的官方 GPU 內存域大小為 72 個 GPU,但理論上,通過多層 NVSwitch,可擴展至 576 個 GPU。Kyber 機架采用垂直滑槽設計,可容納兩倍數量的 GPU,并配備銅質背板,其機架級 GPU 域大小為 144 個 GPU。最終,隨著 NVSwitch 8 CPO(我知道圖表上寫的是 NVLink 8 CPO)的推出,單個機架的 GPU 容量仍將保持在 144 個,但在多層網絡(我們認為是兩層網絡,但如果不知道 NVSwitch 8 設備的基數,就無法確定)下,NVIDIA 的 GPU 域大小將達到 1152 個 GPU。
幾十年前,Cray 超級計算機的機架內采用銅質背板,并通過路由器引出光纖鏈路連接各個機架。我們推測英偉達也會采取類似的策略。原則始終是:能用銅線就用銅線,必須用光纖才行,這既是技術原則,也是經濟原則。但是,鑒于英偉達在人工智能系統投資中占據如此大的份額,如果說有什么工作負載能夠推動 CPO(計算產品)的產量增長,從而降低單價,那一定是 GenAI 推理;如果說有什么公司能夠推動這項工作并協調整個供應鏈,那也非英偉達莫屬。有人可能會說,只有英偉達才能做到這一點,如果它做到了,所有系統都將從中受益。
16 倍以上的 GPU 插槽數量,再加上 Feynman GPU 預期帶來的性能提升——英偉達只透露這一代芯片將采用芯片堆疊技術和定制 HBM 內存——將為 CPU-GPU 混合系統帶來巨大的吞吐量提升。
如果芯片堆疊僅用于SRAM緩存(這相對容易實現),那么仍然可以在一個插槽中添加更多2D GPU核心。英偉達可能會在Feynman架構中采用2納米或更小的工藝,這也意味著將采用全環柵極(GAA)晶體管和高數值孔徑EUV工藝,同時由于芯片高度只能減半,最大光刻尺寸將從858平方毫米縮小到429平方毫米。因此,無論Feynman架構最終如何,它都將在一個插槽中至少容納八個GPU芯片,而Rubin Ultra插槽中只有四個,并且利用工藝縮小來增加更多電路。
當然,英偉達也有可能在費曼芯片中同時集成SRAM和計算能力。如果真是這樣,那確實會非常有趣。
(來源:編譯自nextplatform)
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第4351內容,歡迎關注。
加星標??第一時間看推送
求推薦
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.