在GTC 2026大會上,英偉達一口氣推出三款全新系統(tǒng)——Groq LPX推理機架、Vera ETL256 CPU機架與STX存儲參考架構(gòu),將其產(chǎn)品版圖從GPU算力核心向低延遲推理、CPU編排與存儲層全面延伸,標志著英偉達正系統(tǒng)性地重構(gòu)AI基礎(chǔ)設(shè)施的定義邊界。
其中最受市場關(guān)注的是Groq LPX系統(tǒng)。這是英偉達以200億美元完成對Groq知識產(chǎn)權(quán)授權(quán)與核心團隊引進后,不到四個月內(nèi)推出的首款產(chǎn)品化成果。
LPX機架將Groq的LP30芯片與英偉達GPU深度整合,并引入"注意力與前饋網(wǎng)絡(luò)解耦"(Attention FFN Disaggregation,下稱AFD)技術(shù),在高交互推理場景中針對性地壓縮解碼延遲,為大規(guī)模推理系統(tǒng)開辟了此前不存在的優(yōu)化路徑。
與此同時,Vera ETL256將256顆CPU塞入單一液冷機架,以銅纜拓撲實現(xiàn)機架內(nèi)全互聯(lián),直接瞄準隨AI規(guī)模擴張而日益凸顯的CPU供給瓶頸;STX則通過標準化存儲參考架構(gòu),將英偉達的掌控范圍從算力層和網(wǎng)絡(luò)層正式延伸至存儲基礎(chǔ)設(shè)施層。
SemiAnalysis認為,三款系統(tǒng)共同指向同一個戰(zhàn)略信號:英偉達不再僅僅是GPU供應(yīng)商,而是在向全棧AI基礎(chǔ)設(shè)施平臺商演進,其觸角已覆蓋推理優(yōu)化、CPU密度、存儲編排等此前由其他廠商主導(dǎo)的領(lǐng)域,這將深刻影響整個AI硬件供應(yīng)鏈的競爭格局。
LPX與LP30:Groq架構(gòu)正式融入英偉達推理棧
英偉達與Groq之間的交易在結(jié)構(gòu)上被設(shè)計為知識產(chǎn)權(quán)授權(quán)與人才引進,而非傳統(tǒng)并購。英偉達由此幾乎即時獲得了Groq的全部IP和核心團隊,并在不到四個月內(nèi)推出基于Groq第三代LPU架構(gòu)的LP30芯片與LPX機架系統(tǒng)。
LP30采用三星SF4工藝,配備500MB片上SRAM,F(xiàn)P8精度下算力為1.2 PFLOPS,相較于Groq第一代LPU(230MB SRAM,750 TFLOPS INT8)實現(xiàn)了大幅提升,性能增長主要由制程節(jié)點從GF16遷移至SF4驅(qū)動。
LP30以單一整體裸片形式存在,無需先進封裝。值得關(guān)注的是,SF4工藝不擠占英偉達在臺積電N3上的稀缺產(chǎn)能配額,也不消耗同樣緊張的HBM資源,因此LPX系統(tǒng)代表的是真正意義上的增量產(chǎn)能與增量收入,據(jù)SemiAnalysis指出,這是競爭對手無法復(fù)制的差異化優(yōu)勢。
LPU的核心價值與天然局限
LPU架構(gòu)的競爭優(yōu)勢在于高帶寬SRAM與確定性流水線執(zhí)行機制,這使其在單用戶低延遲場景下具備GPU難以企及的首token生成速度。然而,高密度SRAM的代價是容量受限——權(quán)重加載后所剩空間極為有限,隨批量增大KV Cache迅速飽和,整體吞吐量顯著弱于GPU。
據(jù)SemiAnalysis分析,獨立部署的LPU系統(tǒng)在大規(guī)模token服務(wù)上并不經(jīng)濟,但在對延遲極度敏感的場景中可獲取可觀的溢價,這正是LPU在解耦解碼系統(tǒng)中的定位基礎(chǔ)。
![]()
AFD技術(shù):GPU與LPU的角色分工
AFD技術(shù)將大模型推理中的注意力計算(Attention)與前饋網(wǎng)絡(luò)計算(FFN)拆分至不同硬件。注意力計算因涉及動態(tài)KV Cache加載,天然適合GPU處理;FFN計算因其無狀態(tài)、可靜態(tài)調(diào)度的特性,與LPU確定性架構(gòu)高度契合。
在這一框架下,GPU專注處理注意力計算,HBM容量得以充分釋放用于KV Cache,提升系統(tǒng)可并發(fā)處理的token總量;LPU則承擔FFN計算,發(fā)揮其低延遲優(yōu)勢。GPU與LPU之間通過All-to-All集合通信完成token的分發(fā)與匯聚,并以乒乓流水線方式隱藏通信延遲。
此外,LPU也可在投機解碼(Speculative Decoding)框架中發(fā)揮作用,將草稿模型或多token預(yù)測(MTP)層部署至LPU,進一步降低單次解碼步驟的延遲開銷,通常可將每次解碼步驟的輸出token數(shù)提升至1.5至2倍。
![]()
LPX機架架構(gòu)
LPX機架由32個1U LPU計算托盤與2臺Spectrum-X交換機構(gòu)成。每個計算托盤搭載16塊LP30、2塊Altera FPGA(英偉達稱之為"Fabric Expansion Logic")、1顆Intel Granite Rapids主機CPU及1塊BlueField-4前端模塊。
FPGA在系統(tǒng)中承擔多重關(guān)鍵職能:將LPU的C2C協(xié)議轉(zhuǎn)換為以太網(wǎng)以接入Spectrum-X規(guī)模擴展網(wǎng)絡(luò),提供LPU與主機CPU之間的PCIe橋接,并為系統(tǒng)提供每塊最高256GB的DDR5擴展內(nèi)存用于KV Cache存儲。整個機架的規(guī)模擴展帶寬總計約640TB/s。
LPU模塊以"腹對腹"方式安裝于PCB板兩側(cè),上下各8塊,旨在縮短全互聯(lián)網(wǎng)格所需的X和Y方向走線長度。節(jié)點內(nèi)16塊LPU以全互聯(lián)Mesh拓撲相連,節(jié)點間通過銅纜背板互聯(lián),跨機架連接則通過前面板OSFP接口實現(xiàn)。
![]()
Vera ETL256:256顆CPU的密度極限
隨著AI工作負載對數(shù)據(jù)預(yù)處理、調(diào)度編排和強化學習驗證的需求持續(xù)攀升,CPU正成為制約GPU利用率的新瓶頸。強化學習場景尤為突出——CPU需要并行運行仿真環(huán)境、執(zhí)行代碼并對輸出進行驗證。GPU規(guī)模的擴張速度遠超CPU,使得維持GPU滿載所需的CPU集群規(guī)模不斷擴大。
英偉達的應(yīng)對方案是Vera ETL256,將256顆Vera CPU集成于單一機架,依賴液冷實現(xiàn)這一密度目標。
該系統(tǒng)的設(shè)計邏輯與NVL計算機架一脈相承:將算力密度提升至銅纜可覆蓋機架內(nèi)全部連接的臨界點,從而在主干網(wǎng)絡(luò)層面完全消除光收發(fā)器的需求。銅纜帶來的成本節(jié)約,足以抵消液冷引入的額外開銷。
具體而言,Vera ETL機架由32個計算托盤構(gòu)成,上下各16個,以4個1U MGX ETL交換托盤(基于Spectrum-6)為中軸對稱排列。這種對稱布局刻意壓縮各計算托盤與主干交換托盤之間的線纜長度差異,確保全部連接均處于銅纜可達范圍內(nèi)。
每個交換托盤的后向端口負責機架內(nèi)銅纜主干通信,32個前向OSFP接口則提供與POD其余節(jié)點的光纖連接。機架內(nèi)網(wǎng)絡(luò)采用Spectrum-X多平面拓撲,將200 Gb/s通道分布至四臺交換機,在單一網(wǎng)絡(luò)層內(nèi)實現(xiàn)256顆CPU的全互聯(lián)以太網(wǎng)連接,每個計算托盤承載8顆Vera CPU。
![]()
STX:英偉達向存儲層的系統(tǒng)性延伸
STX是英偉達在GTC 2026發(fā)布的存儲參考機架架構(gòu),與此前推出的CMX上下文存儲平臺配套,共同構(gòu)成英偉達向存儲基礎(chǔ)設(shè)施層滲透的完整布局。
STX在CMX基礎(chǔ)上進一步建立參考架構(gòu),精確規(guī)定一個集群中需要配置多少磁盤驅(qū)動器、Vera CPU、BF-4 DPU、CX-9網(wǎng)卡和Spectrum-X交換機。
每個STX機箱內(nèi)含2個BF-4單元,合計2顆Vera CPU、4塊CX-9網(wǎng)卡和4個SOCAMM模塊;整個STX機架共16個機箱,對應(yīng)32顆Vera CPU、64塊CX-9網(wǎng)卡和64個SOCAMM。
英偉達在發(fā)布STX的同時罕見地點名一批主要存儲廠商——包括DDN、Dell Technologies、HPE、IBM、NetApp、Supermicro及VAST Data等——表示上述廠商均將支持STX標準,延續(xù)了英偉達以行業(yè)背書強化參考架構(gòu)話語權(quán)的一貫做法。
![]()
據(jù)SemiAnalysis分析,BlueField-4、CMX與STX的組合,代表英偉達在完成算力層(GPU)與網(wǎng)絡(luò)層(Spectrum-X及NVLink)的主導(dǎo)地位之后,正在系統(tǒng)性地向存儲層、軟件層和基礎(chǔ)設(shè)施運營層推進。
三款新系統(tǒng)合力拓寬了英偉達的產(chǎn)品護城河,也意味著AI基礎(chǔ)設(shè)施供應(yīng)鏈中更大比例的市場份額將持續(xù)向英偉達集中。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.