![]()
新智元報道
編輯:桃子
【新智元導讀】在萬億級大模型橫行的時代,單純靠「堆芯片」已經玩不動了。中興交出了一份不一樣的答卷:跳出單一芯片的性能內卷,靠「系統級協同」重構智算底座。
當前AI大模型參數規模已突破萬億量級,單GPU芯片的物理功耗密度、互連帶寬與內存容量瓶頸,成為制約算力發展的核心問題,傳統「芯片堆砌」的算力建設模式,正面臨通信開銷劇增、算力利用率驟降的行業共性痛點。
隨著技術的快速演進和迭代,當前已經不是「一顆芯片決定算力」的時代,AI基礎設施的競爭正在由「單一芯片」轉向以「整機系統」為核心的競爭。
在各大GPU廠商聚焦芯片研發競賽的背景下,中興通訊從系統級協同架構出發,推出超節點技術,通過重構算力互聯體系,將數十至數百顆多廠家GPU邏輯整合為統一計算單元,實現了算力的系統級優化。
近期中興通訊發布的《中興通訊超節點白皮書》,不僅為突破單GPU芯片瓶頸提供了全新解決方案,更重塑了AI算力基礎設施的構建邏輯,其背后的技術創新與設計思路,對整個智算行業的發展都具有重要的參考意義。
核心底層邏輯
跳出GPU競賽,錨定系統級算力協同
面對單GPU芯片的性能瓶頸,行業內早已形成共識,即通過高速無損互聯技術將多顆GPU整合為邏輯上的「超級計算機」,是突破單芯片性能上限的核心技術路徑,中興超節點的底層設計邏輯,正是深度契合這一行業趨勢,跳出單芯片性能競賽的傳統思路,將核心發力點放在系統級的算力協同上。
從第三方視角來看,這一選擇既避開了GPU芯片研發的高壁壘、長周期競爭,又精準切中了當前算力建設的核心痛點——傳統模式的問題并非單芯片性能不足,而是多芯片協同的效率過低。
中興超節點并非GPU的簡單物理堆砌,而是融合多芯片、整機硬件、高速互聯與配套軟件的集成系統,其構建嚴格遵循四大核心前提,為系統級算力協同筑牢基礎:
一是芯片能力的均衡性,要求GPU的算力、顯存、互聯帶寬三者匹配,避免資源浪費;
二是互聯架構的有效性,超節點內任意GPU間的互聯帶寬達到機間互聯的8倍左右,兼顧通信效率、擴展性與場景適配性;
三是內存訪問的便捷性,所有GPU支持統一內存編址,兼容內存語義和消息語義,保障編程易用性與數據訪問效率;
四是架構擴展的原生性,且集群擴展后仍屬于高帶寬域,滿足算力按需配置的需求。
這四大前提的設計,讓中興超節點從底層就確立了「系統級算力最優」的目標,所有后續技術創新均圍繞這一核心展開。
硬件架構創新
OEX正交無背板互聯,重構GPU物理協同基礎
傳統GPU集群依賴Cable Tray線纜架構,存在信號損耗大、算力密度低、運維難度高、組網成本高的明顯短板,這也是制約多GPU協同效率的物理層關鍵問題。
中興超節點在硬件架構上的核心創新,就是推出了Orthogonal Electrical eXchange(OEX)正交無背板互聯交換架構,這一架構也于2025年成功入選ODCC「年度重大技術突破」案例,從第三方視角來看,這一創新實現了GPU物理互聯體系的底層重構,為高密度、高可靠性的GPU協同奠定了物理基礎。
![]()
圖1 OEX互聯示意圖
OEX架構的核心設計,是讓計算托盤與交換托盤實現垂直交叉物理直連,徹底摒棄傳統的高速線纜,通過正交連接器與單級交換拓撲構建無線纜的互聯體系,這一設計帶來的實際價值可通過白皮書的核心數據直觀體現:
在112G高速信號場景下,SerDes鏈路長度縮短30%以上,直接消除了線纜引入的6.5dB插損,讓端到端鏈路插損余量大于3dB,大幅降低了誤碼率,為TB級互聯帶寬提供了穩定的物理支撐;
無線纜設計直接釋放了機柜內部的寶貴空間,讓標準機柜可集成64/128卡甚至更多GPU,實現了單位空間算力密度的跨越式提升;
同時從根源上減少了線纜松動、老化導致的宕機風險,將系統故障修復時間MTTR從傳統的小時級縮短至分鐘級,完美適配AI大模型7×24小時不間斷訓練的高可靠性需求;
此外,交換板內集成參數面leaf交換,省去了傳統組網所需的leaf層級交換機、光模塊和光纖,在簡化系統架構的同時,顯著降低了組網的硬件成本與復雜度。
相較于行業內其他正交架構方案,中興OEX架構的無集中式背板設計,進一步降低了層間損耗與硬件復雜度,成為當前高密度GPU互聯的優質物理架構選擇。
![]()
圖2 OEX與Cable Tray方案對比
高速互聯技術創新
自研芯片+全維度優化,打通算力協同通信瓶頸
GPU間的高效互聯是系統級算力協同的核心支撐,傳統GPU集群的「通信卡脖子」問題,本質是互聯帶寬、時延、協議兼容性的多重限制,而中興通訊依托其在通信領域數十年的技術積累,從芯片、物理層、協議層、計算卸載、擴展性五個維度實現了高速互聯技術的全面創新,打造出適配AI算力需求的TB級通信通道,從第三方視角來看,這一系列創新將通信領域的技術優勢與智算需求深度結合,真正解決了多GPU協同通信的核心痛點。
在核心硬件上,中興自研大容量交換芯片,成為高速互聯的基石,該芯片實現了三大突破:
帶寬與時延躍升至TB級、百納秒級,滿足海量AI數據的高速傳輸;
拓撲架構從點對點升級為大規模全對等互聯,適配數十到數百顆GPU的協同計算;
全面兼容RDMA、CLink、OISA、Ethlink、SUE、UEC等國內外主流互聯協議,為后續多廠家GPU兼容埋下伏筆。
在物理層選型上,中興放棄了傳統PCIe總線,選擇以太網物理層,白皮書數據顯示,PCIe 5.0 x16雙向帶寬僅約128GB/s,而以太網SerDes主流速率已達112Gbps,224Gbps產品已進入商用階段,支持多通道靈活綁定,可輕松實現TB/s級端口帶寬,完美契合AI訓練對超高帶寬的需求。
在協議層,中興立足開放架構,既支持UALink、ESUN等國際主流開放協議,又積極參與工信部牽頭的CLink協議制定,推動國內算力互聯協議的統一,打破私有協議的生態壁壘。
同時,中興將在網計算技術深度集成至交換芯片,將GPU的高負載通信操作卸載至交換芯片完成,讓GPU專注核心計算,這一設計的優化效果十分顯著:
在傳統稠密模型訓練中,All-Reduce操作復雜度從O(logN)降至O(C),大幅減少節點間消息傳遞次數;
在MoE混合專家模型訓練中,Dispatch Multicast和Combine Reduce操作的分發時延下降20%-50%,歸約時延下降40%-60%以上,干線流量減少超30%,徹底解決了MoE模型通信開銷大的行業難題。
此外,中興從互聯協議、拓撲、物理形態、介質四個維度做Scale-Up可擴展性設計,預留GPU ID標識bit位滿足未來十萬級GPU集群尋址需求,采用線性無收斂擴展拓撲避免通信瓶頸,以機柜為單元做模塊化設計實現「即插即用」擴容,遵循「能銅盡銅,距遠用光」原則兼顧傳輸效率與成本,為算力的無限擴展提供了技術支撐。
功耗管理創新
液冷+高壓直流,適配高密度算力的能源需求
超節點的高密度GPU集成,必然帶來功耗的指數級增長,白皮書援引英偉達的數據顯示,GPU超節點機柜功耗已從2022年H100的50kW,提升至2025年GB300 NVL72的120-150kW,未來更將向600kW乃至兆瓦級演進,功耗與散熱問題成為高密度算力建設的必解難題。
從第三方視角來看,中興超節點并未簡單采用常規的散熱與供電方案,而是結合算力發展趨勢,打造了一套「前瞻布局、全維度適配」的功耗管理體系,從散熱和供電兩大維度實現創新,確保算力高效釋放的同時,實現能效最優。
在散熱方面,中興構建了全維度的液冷散熱體系,兼顧當前需求與未來趨勢:
當前階段采用單相冷板式液冷,這一方案是目前應用最廣泛、工程化最成熟的液冷技術,市場占有率超過70%-80%,可有效支撐百千瓦級機柜的散熱需求;
針對未來單芯片功耗突破2000W的趨勢,未來規劃硅基微通道冷板和兩相冷板液冷技術,硅基微通道冷板適配HBM堆疊、Chiplet等先進封裝的高熱流密度需求,兩相冷板液冷可在低流量下實現超高散熱效率;
同時兼容浸沒式液冷技術,為未來兆瓦級機柜的散熱需求提供解決方案。
液冷技術的全面應用,不僅解決了高密度算力的散熱問題,更推動數據中心從「算力導向」向「能效導向」轉型,契合綠色智算的行業發展趨勢。
在供電方面,中興突破傳統48V/54V供電體系的物理極限,采用HVDC高壓直流供電架構,主流演進方向為±400V DC和800V DC,這一設計帶來的優勢十分突出:同等功率下,電流可降低8-16倍,銅材用量減少40%-50%,為機柜內的計算與冷卻組件釋放關鍵空間;有效抑制傳輸熱損,整體端到端供電效率提升3%-5%,在電力成本占比30%-50%的智算中心,這一提升能帶來顯著的運營成本節約;可輕松支撐從當前100-150kW向250kW乃至1MW+級機柜的演進需求;減少中間能量變換層級,從根本上緩解功率因數校正與無功功率管理壓力。
該架構與OCP Diablo 400、英偉達800VDC等行業主流趨勢接軌,確保了供電體系的前瞻性與兼容性。
集群擴展創新:Nebula Matrix集群超節點,實現算力規模化平滑升級
單臺單體超節點的算力終究有限,面對萬億乃至十萬億參數大模型的訓練需求,算力的規模化擴展成為必然要求,而傳統算力集群的擴展往往面臨性能下降、成本激增、組網復雜等問題。
從第三方視角來看,中興超節點的一大亮點,就是構建了「單體超節點-集群超節點」的完整擴展體系,通過Nebula Matrix集群超節點實現算力從百卡到萬卡的平滑擴展,既滿足了超大規模算力需求,又實現了性能與成本的最優平衡。
中興Matrix集群超節點采用業界主流的「電交換+光互聯」技術路線,通過高性能電交換機實現機柜內GPU間的互聯,受銅纜傳輸距離限制,跨機柜場景則采用光纖介質完成互聯,這一路線依托電交換技術的高成熟度、高業務普適性,規避了全光交換技術門檻高、生態不完善、對業務適配要求高的問題,成為當前大規模集群超節點建設的最優選擇。
基于這一路線,中興現有Nebula X32單體超節點可靈活擴展為Nebula Matrix X256/800集群超節點,面向未來,依托更高密度的Nebula X128單體超節點,更可進一步擴展至X8192/16384的超大規模集群,充分滿足超大規模模型訓練的算力需求。
同時,中興創新提出Scale-Up與Scale-Out網絡融合設計,打破了傳統兩類網絡獨立組網的模式,Scale-Up網絡承載張量并行、專家并行等對帶寬和時延要求極高的通信流量,Scale-Out網絡承載數據并行、流水并行等對網絡性能要求相對較低的通信流量,融合后構建統一的超節點互聯網絡,既滿足了集群超節點內部的高性能互聯需求,又適配了集群間的常規互聯需求。
白皮書的模型測算顯示,這一融合架構相比獨立組網模式,能顯著降低總擁有成本(TCO),同時保障了集群部署和擴容的平滑性,讓用戶可根據算力需求按需擴展,真正實現了「算力靈活選擇,性能與成本最佳平衡」。
軟件棧創新
打造超節點「操作系統」,充分釋放硬件算力潛能
硬件是算力的物理基礎,而軟件是釋放硬件算力的核心支撐,再好的硬件架構,若缺乏適配的軟件體系,也無法將物理算力轉化為實際的有效算力。
從第三方視角來看,中興超節點的一大設計亮點,就是充分重視軟硬件的協同優化,打造了一套深度協同、全棧優化的軟件棧體系,將其定義為超節點的「操作系統」,實現了對硬件資源的統一調度、管理、優化與監控,確保物理層的所有創新都能轉化為實際的算力輸出。
這套軟件棧的創新體現在六大核心維度:
一是實現統一虛擬化資源池與智能編排,將超節點內的算力、內存、存儲資源抽象池化,根據AI訓練、推理等不同工作負載需求,動態彈性分配和隔離資源,支持多任務、多租戶環境下的共享與安全隔離;
二是做到極致通信優化與拓撲感知,通過深度優化的通信庫和運行時系統,自動識別最優數據傳輸路徑,結合計算與通信重疊、梯度壓縮等技術,將通信開銷隱藏于計算過程之中,提升系統整體效率;
三是支持異構計算統一調度與編譯器優化,實現CPU/GPU/DSA等異構單元的統一調度,通過算子融合、內核生成等方式提升單卡效率與跨芯片協同效率;
四是構建全棧可觀測性與智能運維體系,實現芯片-節點-集群的多級監控,實時可視化功耗、溫度、性能等指標,結合AI運維實現故障預測、根因分析,將故障定位時間從小時級縮短至分鐘級;
五是設置高可靠冗余機制,通過冗余算力節點與故障切換機制,避免單點故障導致的大模型訓練中斷,保障業務連續性;
六是引入「算力-電力」協同的綠色調度,結合任務優先級、功耗模型與實時電價,動態調整算力調度與芯片頻率,在保障服務水平協議(SLA)的前提下,平滑功率波動,降低能耗與運營成本。
此外,中興還打造了算力仿真平臺,為超節點的算力配置提供「數字孿生」推演能力,該平臺基于硬件參數、模型結構、算子實測數據,可模擬不同超節點形態下的訓練/推理性能,為用戶的硬件選型、并行策略設計提供科學依據。
白皮書以Qwen3-235B模型為例,通過算力仿真平臺得出結論:在2K卡的規模下,256卡超節點相比8卡服務器,訓練性能提升15%,這一結果能有效幫助用戶規避試錯成本,實現算力配置的最優選擇。
![]()
圖3 Qwen3-235B不同超節點形態最優切分下各部分耗時
多維度設計
實現多廠家GPU兼容,打破生態鎖定
在各大廠商紛紛構建封閉算力生態的背景下,中興超節點將多廠家GPU兼容作為核心創新點之一,這一設計不僅是其「繞開GPU瓶頸、另辟蹊徑」的重要體現,更契合了行業開放、融合、創新的發展趨勢。
從第三方視角來看,中興超節點并非簡單實現多廠家GPU的「接入」,而是通過硬件、芯片、協議、生態、集群五個維度的系統化設計,真正打破了單一GPU廠商的生態鎖定,為用戶提供了靈活的算力選擇,也推動了國產GPU生態的繁榮發展。
在硬件層,中興Nebula單體超節點的OEX正交架構采用高度組件化設計,將GPU適配的核心模塊獨立為UBB模組,針對不同廠家的GPU,用戶僅需更換UBB模組,無需對超節點的整體架構、交換托盤、供電散熱等核心部件做任何改動,即可實現「即插即用」的適配,大幅降低了多廠家GPU的集成門檻。
在芯片層,自研的大容量交換芯片成為多廠家GPU兼容的硬件核心,該芯片全面兼容國內外主流的GPU互聯協議,而目前國內外主流GPU廠商的產品均已適配這些通用協議,從底層解決了多廠家GPU的通信兼容問題,打造了「一次設計,多卡兼容」的通用互聯底座。
在協議層,中興不僅是現有互聯協議的適配者,更是行業標準的制定者,積極參與工信部牽頭的CLink協議制定,推動形成統一的國內算力互聯標準,同時其自研的OLink協議采用開放標準設計,向行業開放協議規范,讓各GPU廠商可輕松適配。
在生態層,中興秉持「開放解耦」的理念,全面開放OEX正交架構的機械與電氣接口規范,第三方GPU廠商只需按照該規范設計計算/交換托盤,即可實現與中興超節點的標準化接入,無需單獨定制;同時,中興已于2025年6月在ODCC網絡工作組成功立項《基于正交架構的超節點硬件系統》,推動超節點硬件的行業標準化,讓多廠家GPU的兼容從企業設計升級為行業規范。
在集群層,多廠家GPU的兼容能力更延伸至Nebula Matrix集群超節點,其Scale-Up/Scale-Out融合組網架構繼承了單體超節點的協議兼容和組件化適配能力,無論組成集群的各單體超節點搭載不同廠家GPU,還是同一超節點內混布多品牌GPU,都能通過自研大容量交換芯片的多協議支持、融合網絡的統一調度,實現跨機柜、跨品牌GPU的高帶寬、低時延協同,讓多廠家GPU的規模化組網成為現實。
小結
從第三方視角對中興超節點技術進行全面解讀后可以發現,中興通訊始終圍繞「做TCO最優算力系統級整合者」這一核心定位,跳出傳統的芯片研發競賽,從系統級協同架構出發,通過硬件架構、高速互聯、功耗管理、集群擴展、軟件棧、多廠家GPU兼容六大維度的全方位創新,成功繞開了單GPU芯片的性能瓶頸,拼出了AI算力的系統級最優解。
這份創新的價值,不僅體現在具體的技術指標提升上——白皮書數據顯示,MoE模型分發時延下降20%-50%、歸約時延下降40%-60%以上,更體現在對算力建設模式的重構上:中興超節點讓算力建設從「芯片堆疊」走向「協同釋放」,從「單一硬件性能競爭」走向「全棧系統優化」,并以此為核心打造了「AI工廠」,將AI開發從傳統的「手工作坊」升級為標準化、規模化、自動化的「現代化流水線」,為AI大模型的訓練與推理提供了高效的算力底座。
更重要的是,中興超節點的開放兼容設計,打破了單一廠商的生態鎖定,為用戶提供了靈活的GPU選擇,推動了智算行業的開放與融合。
正如中興超節點技術白皮書中所言,未來算力的競爭不再是「每秒浮點運算次數(FLOPS)」的競爭,而是「每瓦Token數」的競爭,中興超節點通過系統級的創新設計,實現了算力效率、擴展能力、生態兼容性的多重最優,不僅為自身在智算行業占據了一席之地,更為整個智算行業的發展提供了全新的思路與方向。
在AI大模型持續發展的背景下,中興超節點技術的落地與推廣,必將為千行百業的智能化升級提供堅實的算力支撐,推動智算基礎設施向更高效率、更綠色、更開放的方向演進。
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.