AI算力競賽進入“超節點時代”。
英偉達發布新一代Blackwell Ultra集群,華為推出384卡液冷超節點,沐曦、摩爾線程等國內玩家紛紛亮劍——一場圍繞“高帶寬、高密度、高能效”的超級計算架構之戰,正悄然改寫智算中心的游戲規則。
然而,在硬件堆砌的背后,一個更深層的挑戰浮出水面:如何讓成千上萬張GPU“像一顆芯片一樣工作”?
互聯,成為超節點效能的關鍵瓶頸。
在此背景下,國內首家推出超節點通用互聯芯粒的奇異摩爾,正試圖用一顆“小芯片”撬動千億級算力基建的互聯生態。
芯師爺獨家對話奇異摩爾聯合創始人、產品及解決方案副總裁祝俊東,深入解讀超節點的技術本質、行業痛點,以及國產互聯芯粒的破局之路。
![]()
![]()
奇異摩爾聯合創始人
產品及解決方案副總裁祝俊東
Q1
![]()
目前,超節點的概念非常火熱,包括英偉達、華為、中科曙光、摩爾線程、沐曦在內的多家頭部企業均推出相應方案。請問什么是超節點?您如何看待超節點的發展趨勢?
祝俊東:
近期,超節點概念火熱,相關會議增多,ODCC 舉辦了第一屆超節點大會,顯示出行業對超節點的關注度不斷提高。超節點其實沒有一個很明確的標準定義,更多是一個行業概念。這個概念最早是谷歌在大約五六年前提出的,他們稱之為“高帶寬域”(High Bandwidth Domain,HBD)。
簡單來說,超節點是指在智算集群中,將一定數量的計算單元(比如GPU或其他xPU)通過極高帶寬的網絡互聯在一起,形成一個內部通信效率遠高于外部互聯的算力單元。例如,一個由100張GPU組成的超節點,其內部互聯帶寬遠高于這100張GPU與集群中其他GPU之間的連接帶寬。在這樣一個超節點內部,因為互聯帶寬足夠高,這些GPU可以像一顆大的xPU一樣協同工作。
從形態上看,超節點通常表現為物理規模更大的機柜。例如華為推出的384卡超節點,就是一整排機柜;中科曙光、阿里等也有類似方案。這意味著服務器從容納幾個、十幾個計算單元,發展到可容納幾十甚至近百個計算單元,并且這些大服務器之間通過高帶寬緊密互聯。
所以,超節點可以理解為:將若干張GPU以極高帶寬互聯在一起,位置靠近,并能像一顆統一的計算單元那樣工作的技術架構。
Q2
![]()
現階段,超節點建設還存在哪些挑戰?
祝俊東:
超節點雖然從效能來看是一個非常好的解決方案,但也面臨多方面的挑戰:
首先是供電與散熱。超節點功耗非常高,傳統數據中心一個機柜約30kW,而超節點機柜可能達到60、70甚至100kW。這對數據中心的電力基礎設施和散熱系統都提出了更高要求,因此很多超節點方案-已經采用液冷散熱。
其次是連接密度與距離問題。超節點內部需要實現高速互聯,連接方式無論是通過背板還是線纜,密度都是一個挑戰。現在行業內在推動例如正交背板這類高密度連接方案。另外,隨著超節點規模擴大,例如達到512卡甚至1000卡,節點內距離變遠,傳統電纜無法滿足需求,必須引入光互聯。比如華為的384卡超節點,就已在節點內部使用光連接。
第三是協議與標準缺失。超節點內部互聯需要統一的協議支持,但目前這一領域還缺乏像以太網或傳統移動通信類似成熟的標準。這導致不同廠商之間的設備難以互聯互通,也影響了交換機和計算節點之間的對接方式。最近一兩年,行業里無論是國際還是國內,都出現了不少超節點相關的規范和標準倡議,比如SUE、OISA、ETH-X、UALink等,這些開放協議生態本身是一個積極的發展方向。
Q3
![]()
在目前的超節點互聯方案中,有芯粒(Chiplet)和IP兩種類型。相較而言,兩種技術路徑在效率、性能、成本等方面各有什么優勢?
祝俊東:
IP是一種比較傳統的實現方式,相當于購買一個功能模塊集成到芯片中。它的優勢是大家比較熟悉,集成起來相對容易。但不足之處是采購成本高,且與計算芯片綁定緊密,一旦互聯協議或標準發生變化,就需要重新設計芯片,迭代缺乏靈活性。
芯粒方案則是將互聯功能獨立做成一個單獨的芯片模塊,與計算芯粒通過先進的異構集成方式集成在一起。它的優勢主要體現在三方面:
一是提升計算性能。芯粒可以將更多芯片面積留給計算單元,從而提高算力。
二是迭代靈活。計算芯粒和互聯芯粒可以獨立升級。這樣即使未來超節點標準發生變化,也只需更新互聯芯粒,而不必改動計算芯粒,大大降低了迭代成本和周期。
三是降低研發門檻。采用芯粒方案,客戶在設計中不需要從頭開發互聯部分,可以直接使用成熟的互聯芯粒,從而縮短設計周期,降低前期投入。
Q4
![]()
奇異摩爾推出了Kiwi G2G IOD超節點互聯芯粒,也是業內首個針對這一行業痛點的系統性解決方案。該方案有哪些獨到優勢?奇異摩爾在AI網絡互聯方面還有哪些獨到技術?
祝俊東:
Kiwi G2G IOD是業界首個通用的超節點互聯芯粒。此前的互聯芯粒多是廠商自研自用,而我們提供的是開放、通用的解決方案。
奇異摩爾的優勢主要有以下幾點:
支持多協議且可編程。我們基于自研的HPDE高性能可編程架構,可以在同一顆芯粒上支持不同的互聯標準,并能通過更新來適應未來標準的演進,解決了標準快速迭代帶來的兼容性問題。
標準化接口與軟件支持。我們采用UCIe標準接口,并提供完整的軟件接口,客戶可以快速將芯粒集成到其產品中,降低集成難度。
![]()
此外,奇異摩爾是一家擁有橫跨AI基礎設施互聯全棧服務能力的硬科技企業。在Scale up超節點xPU間互聯,憑借我們在芯粒領域的豐富經驗,還能提供給客戶基于芯粒的參考設計、驗證與設計支持,幫助客戶降低研發門檻,加速產品落地。
在Scale Out網間互聯領域,我們面向運營商、云廠商、智算集群提供專為AI網絡定制的AI NIC,又名Kiwi SNIC 超級網卡,它具備高性能RDMA能力,可有效應對AI網絡中的擁塞、丟包等各種互聯挑戰。
![]()
Q5
![]()
AI時代,算法廠商、硬件廠商和云廠商之間的傳統分工邊界正在模糊,行業上下游跨界協同的案例越來越多。您如何看待這一行業趨勢?奇異摩爾是否有相應的案例可以分享?
祝俊東:
AI時代與云計算時代的一個很大不同,在于迭代速度極快,對軟硬件協同的要求非常高。傳統IDC那種清晰的分工模式正在被打破,算法、硬件、基礎設施必須更緊密地協作。
奇異摩爾作為硬件底層廠商,也積極與模型廠商、云廠商、 Infra廠商乃至交換機廠商開展交流和合作。例如,我們與多家模型廠商和云廠商共同探討模型發展趨勢對硬件和互聯的具體需求,比如Scale Up與Scale Out在不同場景下的優化方向等。
我們還會定期組織閉門技術沙龍,邀請產業鏈上下游伙伴一起研討技術趨勢與協同需求。這種跨層對話對推動整個AI基礎設施的迭代演進非常重要。
![]()
Q6
![]()
DeepSeek通過頂尖的全棧工程優化,證明大模型推理可以做到既強大又經濟,也間接帶動了AI推理市場的爆發。在您看來,相較于訓練,大模型推理對于芯片和網絡互聯的需求有什么變化,技術趨勢又將如何發展?
祝俊東:
DeepSeek的實踐表明,推理也可以通過大規模集群實現高性價比,這對整個AI推理市場的推動非常明顯。
推理與訓練在需求上有幾個明顯區別:
第一是對帶寬要求更高。推理超節點需要TB級的互聯帶寬,遠高于傳統PCIe的幾十GB水平。
第二是協議復雜度增加。隨著超節點規模擴大,互聯協議從點對點協議變為相對復雜的網絡協議,對網絡協議的處理和調度能力提出了更高要求。
第三是延遲敏感。大部分推理場景下,用戶對模型響應的第一個Token時間非常敏感,因此互聯延遲成為關鍵指標。
第四是存儲與數據調度更復雜。超節點之間需要高效共享KV Cache等數據,對統一存儲架構和跨節點數據調度提出了新要求。
同時,互聯方式正在發生轉變,光互聯正成為未來超節點的關鍵趨勢。隨著節點規模擴大,電互聯的距離限制凸顯,光互聯和新型網絡架構將成為必然選擇。
未來,推理集群的規模還可能進一步擴大,對互聯協議、網絡調度以及軟硬件協同都將提出更高要求。
![]()
從谷歌提出“高帶寬域”,到今天國產超節點方案百花齊放;從訓練主導到推理爆發,從電互聯到光互聯......超節點不僅是硬件的升級,更是整個AI基礎設施在架構、協議、生態上的系統性演進。
正如祝俊東所言,“超節點正在重新定義算力的組織方式”。在這場由效能驅動的競賽中,國產芯片企業能否在互聯層實現關鍵技術突破,將直接影響中國智算集群的競爭力與自主可控程度。
奇異摩爾推出的Kiwi G2G IOD互聯芯粒,正是這一進程中的一次重要嘗試。它不僅是技術產品,更是一種生態倡議——推動開放、通用、可迭代的互聯標準,助力國產AI算力走出“堆卡易,聯卡難”的困境。
未來已來,在這場沒有終點的算力長征中,互聯,或許正是下一個決勝之地。
本文內容資料源自公告及媒體公開報道,不構成任何投資建議,如有任何問題,敬請讀者與我們聯系info@gsi24.com。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.