網易首頁 > 網易號 > 正文申請入駐

不拼GPU！中興扔出AI超節點，把token價格打下來

2026-03-27 21:37:17　來源: 新智元

北京舉報

分享至

新智元報道

編輯：桃子

【新智元導讀】在萬億級大模型橫行的時代，單純靠「堆芯片」已經玩不動了。中興交出了一份不一樣的答卷：跳出單一芯片的性能內卷，靠「系統級協同」重構智算底座。

當前AI大模型參數規模已突破萬億量級，單GPU芯片的物理功耗密度、互連帶寬與內存容量瓶頸，成為制約算力發展的核心問題，傳統「芯片堆砌」的算力建設模式，正面臨通信開銷劇增、算力利用率驟降的行業共性痛點。

隨著技術的快速演進和迭代，當前已經不是「一顆芯片決定算力」的時代，AI基礎設施的競爭正在由「單一芯片」轉向以「整機系統」為核心的競爭。

在各大GPU廠商聚焦芯片研發競賽的背景下，中興通訊從系統級協同架構出發，推出超節點技術，通過重構算力互聯體系，將數十至數百顆多廠家GPU邏輯整合為統一計算單元，實現了算力的系統級優化。

近期中興通訊發布的《中興通訊超節點白皮書》，不僅為突破單GPU芯片瓶頸提供了全新解決方案，更重塑了AI算力基礎設施的構建邏輯，其背后的技術創新與設計思路，對整個智算行業的發展都具有重要的參考意義。

核心底層邏輯

跳出GPU競賽，錨定系統級算力協同

面對單GPU芯片的性能瓶頸，行業內早已形成共識，即通過高速無損互聯技術將多顆GPU整合為邏輯上的「超級計算機」，是突破單芯片性能上限的核心技術路徑，中興超節點的底層設計邏輯，正是深度契合這一行業趨勢，跳出單芯片性能競賽的傳統思路，將核心發力點放在系統級的算力協同上。

從第三方視角來看，這一選擇既避開了GPU芯片研發的高壁壘、長周期競爭，又精準切中了當前算力建設的核心痛點——傳統模式的問題并非單芯片性能不足，而是多芯片協同的效率過低。

中興超節點并非GPU的簡單物理堆砌，而是融合多芯片、整機硬件、高速互聯與配套軟件的集成系統，其構建嚴格遵循四大核心前提，為系統級算力協同筑牢基礎：

一是芯片能力的均衡性，要求GPU的算力、顯存、互聯帶寬三者匹配，避免資源浪費；

二是互聯架構的有效性，超節點內任意GPU間的互聯帶寬達到機間互聯的8倍左右，兼顧通信效率、擴展性與場景適配性；

三是內存訪問的便捷性，所有GPU支持統一內存編址，兼容內存語義和消息語義，保障編程易用性與數據訪問效率；

四是架構擴展的原生性，且集群擴展后仍屬于高帶寬域，滿足算力按需配置的需求。

這四大前提的設計，讓中興超節點從底層就確立了「系統級算力最優」的目標，所有后續技術創新均圍繞這一核心展開。

硬件架構創新

OEX正交無背板互聯，重構GPU物理協同基礎

傳統GPU集群依賴Cable Tray線纜架構，存在信號損耗大、算力密度低、運維難度高、組網成本高的明顯短板，這也是制約多GPU協同效率的物理層關鍵問題。

中興超節點在硬件架構上的核心創新，就是推出了Orthogonal Electrical eXchange（OEX）正交無背板互聯交換架構，這一架構也于2025年成功入選ODCC「年度重大技術突破」案例，從第三方視角來看，這一創新實現了GPU物理互聯體系的底層重構，為高密度、高可靠性的GPU協同奠定了物理基礎。

圖1 OEX互聯示意圖

OEX架構的核心設計，是讓計算托盤與交換托盤實現垂直交叉物理直連，徹底摒棄傳統的高速線纜，通過正交連接器與單級交換拓撲構建無線纜的互聯體系，這一設計帶來的實際價值可通過白皮書的核心數據直觀體現：

在112G高速信號場景下，SerDes鏈路長度縮短30%以上，直接消除了線纜引入的6.5dB插損，讓端到端鏈路插損余量大于3dB，大幅降低了誤碼率，為TB級互聯帶寬提供了穩定的物理支撐；

無線纜設計直接釋放了機柜內部的寶貴空間，讓標準機柜可集成64/128卡甚至更多GPU，實現了單位空間算力密度的跨越式提升；

同時從根源上減少了線纜松動、老化導致的宕機風險，將系統故障修復時間MTTR從傳統的小時級縮短至分鐘級，完美適配AI大模型7×24小時不間斷訓練的高可靠性需求；

此外，交換板內集成參數面leaf交換，省去了傳統組網所需的leaf層級交換機、光模塊和光纖，在簡化系統架構的同時，顯著降低了組網的硬件成本與復雜度。

相較于行業內其他正交架構方案，中興OEX架構的無集中式背板設計，進一步降低了層間損耗與硬件復雜度，成為當前高密度GPU互聯的優質物理架構選擇。

圖2 OEX與Cable Tray方案對比

高速互聯技術創新

自研芯片+全維度優化，打通算力協同通信瓶頸

GPU間的高效互聯是系統級算力協同的核心支撐，傳統GPU集群的「通信卡脖子」問題，本質是互聯帶寬、時延、協議兼容性的多重限制，而中興通訊依托其在通信領域數十年的技術積累，從芯片、物理層、協議層、計算卸載、擴展性五個維度實現了高速互聯技術的全面創新，打造出適配AI算力需求的TB級通信通道，從第三方視角來看，這一系列創新將通信領域的技術優勢與智算需求深度結合，真正解決了多GPU協同通信的核心痛點。

在核心硬件上，中興自研大容量交換芯片，成為高速互聯的基石，該芯片實現了三大突破：

帶寬與時延躍升至TB級、百納秒級，滿足海量AI數據的高速傳輸；

拓撲架構從點對點升級為大規模全對等互聯，適配數十到數百顆GPU的協同計算；

全面兼容RDMA、CLink、OISA、Ethlink、SUE、UEC等國內外主流互聯協議，為后續多廠家GPU兼容埋下伏筆。

在物理層選型上，中興放棄了傳統PCIe總線，選擇以太網物理層，白皮書數據顯示，PCIe 5.0 x16雙向帶寬僅約128GB/s，而以太網SerDes主流速率已達112Gbps，224Gbps產品已進入商用階段，支持多通道靈活綁定，可輕松實現TB/s級端口帶寬，完美契合AI訓練對超高帶寬的需求。

在協議層，中興立足開放架構，既支持UALink、ESUN等國際主流開放協議，又積極參與工信部牽頭的CLink協議制定，推動國內算力互聯協議的統一，打破私有協議的生態壁壘。

同時，中興將在網計算技術深度集成至交換芯片，將GPU的高負載通信操作卸載至交換芯片完成，讓GPU專注核心計算，這一設計的優化效果十分顯著：

在傳統稠密模型訓練中，All-Reduce操作復雜度從O(logN)降至O(C)，大幅減少節點間消息傳遞次數；

在MoE混合專家模型訓練中，Dispatch Multicast和Combine Reduce操作的分發時延下降20%-50%，歸約時延下降40%-60%以上，干線流量減少超30%，徹底解決了MoE模型通信開銷大的行業難題。

此外，中興從互聯協議、拓撲、物理形態、介質四個維度做Scale-Up可擴展性設計，預留GPU ID標識bit位滿足未來十萬級GPU集群尋址需求，采用線性無收斂擴展拓撲避免通信瓶頸，以機柜為單元做模塊化設計實現「即插即用」擴容，遵循「能銅盡銅，距遠用光」原則兼顧傳輸效率與成本，為算力的無限擴展提供了技術支撐。

功耗管理創新

液冷+高壓直流，適配高密度算力的能源需求

超節點的高密度GPU集成，必然帶來功耗的指數級增長，白皮書援引英偉達的數據顯示，GPU超節點機柜功耗已從2022年H100的50kW，提升至2025年GB300 NVL72的120-150kW，未來更將向600kW乃至兆瓦級演進，功耗與散熱問題成為高密度算力建設的必解難題。

從第三方視角來看，中興超節點并未簡單采用常規的散熱與供電方案，而是結合算力發展趨勢，打造了一套「前瞻布局、全維度適配」的功耗管理體系，從散熱和供電兩大維度實現創新，確保算力高效釋放的同時，實現能效最優。

在散熱方面，中興構建了全維度的液冷散熱體系，兼顧當前需求與未來趨勢：

當前階段采用單相冷板式液冷，這一方案是目前應用最廣泛、工程化最成熟的液冷技術，市場占有率超過70%-80%，可有效支撐百千瓦級機柜的散熱需求；

針對未來單芯片功耗突破2000W的趨勢，未來規劃硅基微通道冷板和兩相冷板液冷技術，硅基微通道冷板適配HBM堆疊、Chiplet等先進封裝的高熱流密度需求，兩相冷板液冷可在低流量下實現超高散熱效率；

同時兼容浸沒式液冷技術，為未來兆瓦級機柜的散熱需求提供解決方案。

液冷技術的全面應用，不僅解決了高密度算力的散熱問題，更推動數據中心從「算力導向」向「能效導向」轉型，契合綠色智算的行業發展趨勢。

在供電方面，中興突破傳統48V/54V供電體系的物理極限，采用HVDC高壓直流供電架構，主流演進方向為±400V DC和800V DC，這一設計帶來的優勢十分突出：同等功率下，電流可降低8-16倍，銅材用量減少40%-50%，為機柜內的計算與冷卻組件釋放關鍵空間；有效抑制傳輸熱損，整體端到端供電效率提升3%-5%，在電力成本占比30%-50%的智算中心，這一提升能帶來顯著的運營成本節約；可輕松支撐從當前100-150kW向250kW乃至1MW+級機柜的演進需求；減少中間能量變換層級，從根本上緩解功率因數校正與無功功率管理壓力。

該架構與OCP Diablo 400、英偉達800VDC等行業主流趨勢接軌，確保了供電體系的前瞻性與兼容性。

集群擴展創新：Nebula Matrix集群超節點，實現算力規模化平滑升級

單臺單體超節點的算力終究有限，面對萬億乃至十萬億參數大模型的訓練需求，算力的規模化擴展成為必然要求，而傳統算力集群的擴展往往面臨性能下降、成本激增、組網復雜等問題。

從第三方視角來看，中興超節點的一大亮點，就是構建了「單體超節點-集群超節點」的完整擴展體系，通過Nebula Matrix集群超節點實現算力從百卡到萬卡的平滑擴展，既滿足了超大規模算力需求，又實現了性能與成本的最優平衡。

中興Matrix集群超節點采用業界主流的「電交換+光互聯」技術路線，通過高性能電交換機實現機柜內GPU間的互聯，受銅纜傳輸距離限制，跨機柜場景則采用光纖介質完成互聯，這一路線依托電交換技術的高成熟度、高業務普適性，規避了全光交換技術門檻高、生態不完善、對業務適配要求高的問題，成為當前大規模集群超節點建設的最優選擇。

基于這一路線，中興現有Nebula X32單體超節點可靈活擴展為Nebula Matrix X256/800集群超節點，面向未來，依托更高密度的Nebula X128單體超節點，更可進一步擴展至X8192/16384的超大規模集群，充分滿足超大規模模型訓練的算力需求。

同時，中興創新提出Scale-Up與Scale-Out網絡融合設計，打破了傳統兩類網絡獨立組網的模式，Scale-Up網絡承載張量并行、專家并行等對帶寬和時延要求極高的通信流量，Scale-Out網絡承載數據并行、流水并行等對網絡性能要求相對較低的通信流量，融合后構建統一的超節點互聯網絡，既滿足了集群超節點內部的高性能互聯需求，又適配了集群間的常規互聯需求。

白皮書的模型測算顯示，這一融合架構相比獨立組網模式，能顯著降低總擁有成本（TCO），同時保障了集群部署和擴容的平滑性，讓用戶可根據算力需求按需擴展，真正實現了「算力靈活選擇，性能與成本最佳平衡」。

軟件棧創新

打造超節點「操作系統」，充分釋放硬件算力潛能

硬件是算力的物理基礎，而軟件是釋放硬件算力的核心支撐，再好的硬件架構，若缺乏適配的軟件體系，也無法將物理算力轉化為實際的有效算力。

從第三方視角來看，中興超節點的一大設計亮點，就是充分重視軟硬件的協同優化，打造了一套深度協同、全棧優化的軟件棧體系，將其定義為超節點的「操作系統」，實現了對硬件資源的統一調度、管理、優化與監控，確保物理層的所有創新都能轉化為實際的算力輸出。

這套軟件棧的創新體現在六大核心維度：

一是實現統一虛擬化資源池與智能編排，將超節點內的算力、內存、存儲資源抽象池化，根據AI訓練、推理等不同工作負載需求，動態彈性分配和隔離資源，支持多任務、多租戶環境下的共享與安全隔離；

二是做到極致通信優化與拓撲感知，通過深度優化的通信庫和運行時系統，自動識別最優數據傳輸路徑，結合計算與通信重疊、梯度壓縮等技術，將通信開銷隱藏于計算過程之中，提升系統整體效率；

三是支持異構計算統一調度與編譯器優化，實現CPU/GPU/DSA等異構單元的統一調度，通過算子融合、內核生成等方式提升單卡效率與跨芯片協同效率；

四是構建全棧可觀測性與智能運維體系，實現芯片-節點-集群的多級監控，實時可視化功耗、溫度、性能等指標，結合AI運維實現故障預測、根因分析，將故障定位時間從小時級縮短至分鐘級；

五是設置高可靠冗余機制，通過冗余算力節點與故障切換機制，避免單點故障導致的大模型訓練中斷，保障業務連續性；

六是引入「算力-電力」協同的綠色調度，結合任務優先級、功耗模型與實時電價，動態調整算力調度與芯片頻率，在保障服務水平協議（SLA）的前提下，平滑功率波動，降低能耗與運營成本。

此外，中興還打造了算力仿真平臺，為超節點的算力配置提供「數字孿生」推演能力，該平臺基于硬件參數、模型結構、算子實測數據，可模擬不同超節點形態下的訓練/推理性能，為用戶的硬件選型、并行策略設計提供科學依據。

白皮書以Qwen3-235B模型為例，通過算力仿真平臺得出結論：在2K卡的規模下，256卡超節點相比8卡服務器，訓練性能提升15%，這一結果能有效幫助用戶規避試錯成本，實現算力配置的最優選擇。

圖3 Qwen3-235B不同超節點形態最優切分下各部分耗時

多維度設計

實現多廠家GPU兼容，打破生態鎖定

在各大廠商紛紛構建封閉算力生態的背景下，中興超節點將多廠家GPU兼容作為核心創新點之一，這一設計不僅是其「繞開GPU瓶頸、另辟蹊徑」的重要體現，更契合了行業開放、融合、創新的發展趨勢。

從第三方視角來看，中興超節點并非簡單實現多廠家GPU的「接入」，而是通過硬件、芯片、協議、生態、集群五個維度的系統化設計，真正打破了單一GPU廠商的生態鎖定，為用戶提供了靈活的算力選擇，也推動了國產GPU生態的繁榮發展。

在硬件層，中興Nebula單體超節點的OEX正交架構采用高度組件化設計，將GPU適配的核心模塊獨立為UBB模組，針對不同廠家的GPU，用戶僅需更換UBB模組，無需對超節點的整體架構、交換托盤、供電散熱等核心部件做任何改動，即可實現「即插即用」的適配，大幅降低了多廠家GPU的集成門檻。

在芯片層，自研的大容量交換芯片成為多廠家GPU兼容的硬件核心，該芯片全面兼容國內外主流的GPU互聯協議，而目前國內外主流GPU廠商的產品均已適配這些通用協議，從底層解決了多廠家GPU的通信兼容問題，打造了「一次設計，多卡兼容」的通用互聯底座。

在協議層，中興不僅是現有互聯協議的適配者，更是行業標準的制定者，積極參與工信部牽頭的CLink協議制定，推動形成統一的國內算力互聯標準，同時其自研的OLink協議采用開放標準設計，向行業開放協議規范，讓各GPU廠商可輕松適配。

在生態層，中興秉持「開放解耦」的理念，全面開放OEX正交架構的機械與電氣接口規范，第三方GPU廠商只需按照該規范設計計算/交換托盤，即可實現與中興超節點的標準化接入，無需單獨定制；同時，中興已于2025年6月在ODCC網絡工作組成功立項《基于正交架構的超節點硬件系統》，推動超節點硬件的行業標準化，讓多廠家GPU的兼容從企業設計升級為行業規范。

在集群層，多廠家GPU的兼容能力更延伸至Nebula Matrix集群超節點，其Scale-Up/Scale-Out融合組網架構繼承了單體超節點的協議兼容和組件化適配能力，無論組成集群的各單體超節點搭載不同廠家GPU，還是同一超節點內混布多品牌GPU，都能通過自研大容量交換芯片的多協議支持、融合網絡的統一調度，實現跨機柜、跨品牌GPU的高帶寬、低時延協同，讓多廠家GPU的規模化組網成為現實。

小結

從第三方視角對中興超節點技術進行全面解讀后可以發現，中興通訊始終圍繞「做TCO最優算力系統級整合者」這一核心定位，跳出傳統的芯片研發競賽，從系統級協同架構出發，通過硬件架構、高速互聯、功耗管理、集群擴展、軟件棧、多廠家GPU兼容六大維度的全方位創新，成功繞開了單GPU芯片的性能瓶頸，拼出了AI算力的系統級最優解。

這份創新的價值，不僅體現在具體的技術指標提升上——白皮書數據顯示，MoE模型分發時延下降20%-50%、歸約時延下降40%-60%以上，更體現在對算力建設模式的重構上：中興超節點讓算力建設從「芯片堆疊」走向「協同釋放」，從「單一硬件性能競爭」走向「全棧系統優化」，并以此為核心打造了「AI工廠」，將AI開發從傳統的「手工作坊」升級為標準化、規模化、自動化的「現代化流水線」，為AI大模型的訓練與推理提供了高效的算力底座。

更重要的是，中興超節點的開放兼容設計，打破了單一廠商的生態鎖定，為用戶提供了靈活的GPU選擇，推動了智算行業的開放與融合。

正如中興超節點技術白皮書中所言，未來算力的競爭不再是「每秒浮點運算次數（FLOPS）」的競爭，而是「每瓦Token數」的競爭，中興超節點通過系統級的創新設計，實現了算力效率、擴展能力、生態兼容性的多重最優，不僅為自身在智算行業占據了一席之地，更為整個智算行業的發展提供了全新的思路與方向。

在AI大模型持續發展的背景下，中興超節點技術的落地與推廣，必將為千行百業的智能化升級提供堅實的算力支撐，推動智算基礎設施向更高效率、更綠色、更開放的方向演進。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.