據兩名知情人士周二向路透社透露,英偉達正在準備推出一款面向中國市場的Groq人工智能芯片。
英偉達去年底以 170 億美元收購了人工智能芯片初創公司 Groq,并在本周于加州圣何塞舉行的年度開發者大會上展示了一系列基于其芯片的新產品。
英偉達首席執行官黃仁勛表示,在獲得美國總統唐納德·特朗普政府的出口許可證和中國客戶的采購訂單后,該公司已重啟其 H200 芯片(目前旗艦芯片的前身)的生產。與此同時,英偉達也開始著手為中國市場開發芯片版本。
英偉達計劃利用Groq的芯片進行推理,即人工智能系統回答問題、編寫代碼或為用戶執行任務。在本周英偉達展示的產品中,該公司計劃將即將推出的Vera Rubin芯片(該芯片無法在中國銷售)與Groq芯片結合使用。
盡管英偉達在人工智能系統訓練市場占據主導地位,但在推理市場卻面臨著更為激烈的競爭。包括百度在內的多家中國人工智能巨頭,已經生產出自己的推理芯片。
一位消息人士告訴路透社,準備銷往中國的芯片并非降級版本,也不是專門為中國市場制造的。該消息人士稱,新版本可以適配其他系統,并補充說,Groq芯片預計將于5月上市。
英偉達終于承認為何斥資 200 億美元收購 Groq
作為一個行業,我們幾乎還沒完全適應融合機架級計算系統。這個概念其實已經存在十多年了,但直到現在才開始真正普及,因為人工智能可以承擔解耦的成本,而人工智能對延遲的敏感性又推動了這些解耦組件的緊密融合。
但對規模越來越大的 AI 超級計算機的需求促使英偉達將所有設備都組裝起來,隨著今年下半年即將交付的新一代系統,所有設備都將被組裝起來:Vera-Rubin 計算機架、Vera CPU 機架、Spectrum-X 機架、BlueField-4 STX 存儲機架,以及現在的 Groq LP30 低延遲推理機架。
去年12月底,英偉達斥資200億美元“收購”了Groq的大部分開發團隊,并獲得了其LPU數據流引擎的底層技術授權,用于人工智能推理。我們當時預期英偉達會迅速部署由前谷歌員工喬納森·羅斯(Jonathan Ross)開發的張量流處理器。羅斯在離開谷歌后,創建了一種完全可調度、可編程的張量處理單元。隨著GenAI(人工智能世代)的興起,這些處理器被更名為語言處理單元(LPU),但其架構并未改變。如今,英偉達正與三星合作,將第三代LP30芯片推向市場。英偉達聯合創始人兼首席執行官黃仁勛在GTC 2026大會的開幕主題演講中表示,該芯片將于今年下半年發布,很可能在第三季度。
英偉達沒有浪費任何時間,因為它根本沒有時間可以浪費。Groq原本有望在低延遲推理領域取得進展,就像Cerebras Systems和SambaNova Systems一樣,后者專注于超高帶寬SRAM內存而非相對較低的計算能力,從而在大量計算引擎上實現快速推理。在速度至關重要的領域,這些系統制造商以及數十家試圖大規模解決推理問題的初創公司,就像一群食人魚涌向亞馬遜河(指亞馬遜河,而非書商和云服務公司)里一頭肥牛。因此,英偉達不得不迅速行動……
因此,Vera以200億美元巨資收購了Groq。由于直接收購可能需要一到兩年的時間,而且可能無法通過全球反壟斷監管機構的審查,因此無法直接完成。于是,Groq被立即整合到Vera-Rubin平臺中。考慮到黃仁勛在主題演講中提到,低延遲、高價代幣的生成應該占人工智能集群計算量的25%左右,這個平臺或許應該被稱為Vera-Rubin-Groq平臺。
還記得英偉達在 2025 年 9 月預覽的Rubin CPX 大型上下文計算引擎嗎?它基于 Rubin 架構的變體,并配備了更便宜、更容易獲得的 GDDR7 顯存。
英偉達人工智能與高性能計算副總裁伊恩·巴克在GTC 2026大會前的一次電話會議上談到系統發布時表示:“我們發現了一個絕妙的想法,那就是將LPU和LPX集成到我們的Rubin平臺中,以優化解碼。這是我們目前的工作重點,我們很高興能將這項技術推向市場。”
換句話說,取消 Rubin CPX 項目。
黃仁勛將我們推測為“Rubin”R200 GPU加速器的設備,與我們推測為“Alan-3”Groq LP30推理加速器的設備并排放置。其中一臺是通用型動態調度計算引擎,它非常擅長批量處理大量推理任務,并通過HBM堆疊內存進行流水線式處理,延遲合理,并支持多個并發用戶。(這應該就是GPU。)另一臺則是一機架或更多機架相對較小的、專用于推理的、靜態調度的確定性計算引擎,它們協同工作,支持少量用戶(大多數情況下可能只有一個用戶),并將模型權重(而非數據)分布到其聚合SRAM中,使得隨著機器數量的增加,生成令牌的響應時間會相應縮短。GPU負責處理大量數據,而LPU則負責加速。它們可以與Dynamo推理堆棧協同工作,從而在不同的吞吐量和延遲范圍內提供更均衡的推理性能帕累托曲線。
以下是 R200 和 LP30 芯片的進給量和速度:
![]()
更全面的比較需要考慮這些系統的完整內存層次結構,包括主機處理器中的閃存和主內存,但您應該明白我的意思。此外,我們將性能歸一化到 FP8 浮點運算次數,這表明在相同的數據精度下,性能差距為 21 倍。如果您的 AI 工作負載的解碼部分可以利用 FP4 處理(這是一個相當大的假設),那么 R200 的理論峰值性能將是 LP30 的 42 倍。
但仔細看看GPU的復雜度,它與成本成正比——R200的大部分物料清單都將用于支付HBM4堆疊式內存以及將其連接到GPU所需的中介層的成本。因此,我們必須考慮到,這款速度型芯片的延遲不僅會低于普通芯片,而且在實現合理交互水平的情況下,每個令牌的成本也可能更低。
隨著我們從人類與聊天機器人互動過渡到自主人工智能系統之間相互對話,以更快的速度、更復雜的推理能力執行任務,并因此處理數量級更大的令牌,最需要考慮的是,類似 Groq、Cerebras 和 SambaNova 這樣的架構將變得更加重要。我們需要開發專門針對自主人工智能推理的 Google TPU 和 Amazon Trainium 的變體,在不犧牲內存容量的前提下,更好地平衡內存帶寬和計算能力。
我們將深入探討硬件方面的問題。請放心,目前我們只是在回顧黃仁勛和巴克闡述的策略,您需要重點關注的是兩條帕累托性能曲線,它們分別展示了先前、當前和未來一致性GPU內存域系統的性能,以及將Groq設計的LP30加入其中后的性能變化。目標是利用黃仁勛構想的推理領域中的推理核心,覆蓋從免費到高級的各種層級,這是一種合理的理解方式。
以下是 Hopper NVL8、Grace-Blackwell NVL72 和 Vera-Rubin NVL72 系統在吞吐量(每秒每兆瓦的令牌數)和交互性(每秒每個用戶的令牌數)方面的比較:
![]()
顯而易見,NVSwitch 帶來的更大共享 GPU 內存域有助于將性能曲線從 Hopper 拉長到 Blackwell,但隨著 Rubin GPU 的升級,內存、內存帶寬和計算能力的提升只能使性能曲線向上移動,而無法向右拉伸。Nvidia 最終會擴大內存域,但不會是在 2026 年的硬件世代。
現在,當您將 Groq LP30 添加到系統組合中時,就會發生這種情況:目標客戶群體是中高端客戶,隨著越來越多的 LP30 被添加到系統中進行推理,系統將逐步擴展到利潤非常豐厚的超高端客戶群體:
![]()
那么,這條驚人的曲線說明了什么呢?讓我用通俗易懂的方式解釋一下。如果你只是做一些對響應時間要求不高的簡單推理,比如聊天機器人與語速較慢的人類對話,或者幾個智能體幫助自動化各種人類工作,那么 Vera-Rubin 算法就足夠用了。但在智能體人工智能的世界里,需要生成的令牌數量極其龐大,而且令牌生成的延遲必須很低,才能保證大量的智能體完成任務——任何延遲都意味著損失金錢,還不如把這些錢燒掉,扔到數據中心或者紐約證券交易所——那么,絕對沒有人會選擇 CPU-GPU 混合系統來做這種解碼工作。
這就是為什么英偉達斥資 200 億美元收購了 Groq 的頂尖技術。
我現在只能說,AMD 與 Cerebras 的聯合創始人關系非常密切。
Vera-Rubin 架構指的是 88 核“Vera”CV100 Arm 服務器處理器,搭配定制的“Olympus”內核和“Rubin”R200 GPU 加速器,共有七種不同的芯片,構成五種不同類型的機架式系統,可以在 Vera-Rubin AI 超級計算機中進行混合搭配。
![]()
黃仁勛展示了 1 GW “Hopper” H100 GPU 容量與 X86 處理器搭配,并體現在 HGX NVL8 系統中(八個 GPU 在縱向網絡上共享內存,使用 InfiniBand 進行橫向擴展)與我們推測的 VR200 NVL72 機架級系統集群(GPU 的 72 路內存共享)的對比。
在這個對比中,只需一半數量的GPU就能實現13.3倍的AI處理性能提升。公平地說,H100只能將精度降低到FP8,而R200將支持FP4格式(就像之前的“Blackwell”GPU一樣)。因此,這13.3倍的性能提升中有兩倍來自于精度的降低。而且,FP4格式的應用并非僅限于基準測試——人們正在調整模型,以在將數據量(以及處理精度)減半的情況下,將結果的精度控制在FP8的幾個百分點以內。人們正在生產環境中進行這種權衡。
但問題在于,如果你只需要一半數量的GPU,但單價卻翻了三四倍,那么英偉達就能通過銷售至少兩倍的設備來大幅提升營收,但你的IT預算并不會減少。如果你的AI工作負載正在擴展——而這幾乎是必然的——那么你的IT預算也會增加。但其他所有部署AI的IT機構的預算也會增加,如今需求再次遠遠超過供應,迫使價格進一步上漲,從而推高英偉達的營收和利潤,使其遠超在不受限制的環境下可能達到的水平。
當推理之王真好。
![]()
但差點就成了推理之王的,是谷歌 TPU 的締造者、以及公認的更優秀的 Groq 架構的締造者喬納森·羅斯。羅斯剛剛收到了一份無法拒絕的收購要約,我認為 Cerebras 也很有可能收到類似的要約。英特爾錯失了收購 SambaNova Systems 的機會——但或許現在還有時間和資金達成交易。
(來源:內容來自半導體行業觀察綜合)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.