打破NVLink壟斷，華為這個“大殺器”即將開源

2025-08-29 08:18:32　來源: EEWorld電子工程世界

北京舉報

分享至

今年的Hot Chips 2025廠商依然大秀肌肉，其中最值得關注的，莫過于華為推出的UB-Mesh技術，該技術旨在通過單一協(xié)議統(tǒng)一AI數(shù)據(jù)中心內(nèi)外部節(jié)點的所有互聯(lián)，并用單一協(xié)議取代PCIe、CXL、NVLink和TCP/IP協(xié)議。

華為處理器部門海思半導體首席科學家廖恒表示:“下個月我們將召開一次會議，宣布UB-Mesh協(xié)議將像免費許可證一樣向所有人開放。這是一項非常新的技術；我們看到不同陣營正在競相推進標準化工作。根據(jù)我們在實際系統(tǒng)部署方面的成功程度以及合作伙伴和客戶的需求，我們可以討論將其轉(zhuǎn)化為某種標準。”

隨著UB-Mesh免費開放，NVLink的壟斷地位是否會受到動搖？

華為的UB-Mesh，到底是啥？

事實上，華為的UB-Mesh早在今年三月底就已亮相。當時，華為發(fā)布了昇騰CloudMatrix 384超節(jié)點，采用UB互聯(lián)完成了384顆NPU的互聯(lián)。之所以采用UB互聯(lián)，是因為諸如LLM訓練等方面，要在NPU之間頻繁交換數(shù)據(jù)，所以要有強大的NPU間通信能力。

而在本次Hot Chips上，華為透露了更多細節(jié)。根據(jù)華為的介紹，雖然用于訓練和推理的 AI 數(shù)據(jù)中心應該像一個大型固有并行處理器一樣運行，但它們由單獨的機架、服務器、CPU、GPU、內(nèi)存、SSD、NIC 、交換機和其他組件組成，這些組件使用不同的總線和協(xié)議相互聯(lián)接，如UPI、PCIe、CXL、RoCE、NVLink、UALink、TCP/IP和即將推出的超級以太網(wǎng)。協(xié)議轉(zhuǎn)換需要電力，增加延遲和成本，并引入潛在的故障點，所有這些因素都可以在擁有數(shù)百萬個處理器的千兆瓦級數(shù)據(jù)中心中進行災難性擴展。

但是華為卻不同，華為的思路則是“一統(tǒng)天下”，提出了UB-Mesh的統(tǒng)一框架，使任何端口無需轉(zhuǎn)換即可與任何其他端口通信。這種簡單性減少了轉(zhuǎn)換延遲，簡化了設計，并且仍然在需要時留出了通過以太網(wǎng)運行的空間，從本質(zhì)上將整個數(shù)據(jù)中心轉(zhuǎn)換為UB-Mesh 連接的相干超級節(jié)點。

華為將這種數(shù)據(jù)中心規(guī)模的AI架構(gòu)定義為SuperNode，將多達1,000,000個處理器（CPU、GPU、NPU）、池內(nèi)存、SSD、NIC和交換機統(tǒng)一到一個系統(tǒng)中，并將每芯片帶寬從100 Gbps上升到10 Tbps（1.25 TB/s，超出了PCIe 8.0設置的范圍），時延從微秒減少到~150 ns，整體設計從異步DMA轉(zhuǎn)向同步加載/存儲語義。允許靈活地重復使用所有高速SERDES連接，甚至支持通過以太網(wǎng)運行以實現(xiàn)向后兼容性。

當然，統(tǒng)一到單一的協(xié)議里，談何容易，華為認為這會引發(fā)從銅纜（仍連接在機架內(nèi)）到可插拔光鏈路的轉(zhuǎn)變，不過光纖的錯誤率遠高于電氣連接。為了解決這個問題，華為提出了鏈路級重試機制、光模塊內(nèi)的備用通道以及將控制器連接到多個模塊的交叉設計。

從拓撲上來看，UB-Mesh 采用混合網(wǎng)絡拓撲結(jié)構(gòu)。其頂層基于CLOS架構(gòu)，用于連接整個數(shù)據(jù)中心大廳中的各個機架；而在每個機架內(nèi)部，則通過多維網(wǎng)格網(wǎng)絡互聯(lián)數(shù)十個節(jié)點。這種混合設計旨在避免傳統(tǒng)方案在系統(tǒng)規(guī)模擴展至數(shù)萬甚至數(shù)十萬個節(jié)點時，所面臨的高昂成本問題。

成本方面，華為提供的數(shù)據(jù)顯示，傳統(tǒng)互聯(lián)架構(gòu)的成本往往隨節(jié)點數(shù)量呈線性增長，甚至可能超過人工智能加速器（如NVIDIA H100或B200）本身的價格。而UB-Mesh以亞線性方式擴展成本，實現(xiàn)在增加容量的同時，不會同比增加開支。

為什么都想替代NVLink

英偉達的GPU之所以能夠在數(shù)據(jù)中賣的那么好，其實不光是因為本身算力強大，更重要的便是其互聯(lián)技術——NVLink和NVSwitch。

打個比方說，每個GPU都是單兵作戰(zhàn)，但是用NVLink把GPU和GPU、GPU和CPU連在一起，就能發(fā)揮出更大的作用。過去，這種連接都是靠PCIe，就是我們家里主機那種一個一個插槽，而NVLink就是為了突破PCIe瓶頸而誕生的一種技術。

NVLink這種GPU和GPU互聯(lián)或者NPU和NPU互聯(lián)在業(yè)界有一種專業(yè)叫法——Scale Up（向上/垂直擴展），與之相對，還有Scale Out（橫向/水平擴展）的概念。

Scale Up互聯(lián)可以粗暴理解“芯片之間的互聯(lián)”，是做更大芯片擴展的服務器，是內(nèi)存和顯存共享訪問的語義，特點是極低延遲和大帶寬，規(guī)模在柜內(nèi)，可擴展為多柜到百芯片級，是獨立Fabric連接，完全不同于以太網(wǎng)。Scale Up是超節(jié)點內(nèi)部，采用GPU直出技術。

Scale Out互聯(lián)是“服務器之間是基于網(wǎng)卡+交換機的集群互聯(lián)”，可以簡單粗暴理解成“卡之間的互聯(lián)”，是以太網(wǎng)協(xié)議，規(guī)模在萬級以上，普適的互聯(lián)。它是在計算集群內(nèi)部，利用外置網(wǎng)卡技術，通過橫向擴展機柜的數(shù)目，實現(xiàn)到數(shù)萬甚至數(shù)十萬張卡的互聯(lián)。

所以，NVLink的價值就在這里，傳統(tǒng)PCIe總線在GPU間數(shù)據(jù)傳輸中已成為性能瓶頸。NVLink提供更高帶寬和更低延遲，極大加速GPU間通信，這樣GPU的性能才不會有任何浪費，尤其適合AI訓練和科學計算。目前，NVLink已經(jīng)發(fā)展到了第五代。

圖源丨鮮棗課堂

當然，這還沒有結(jié)束。英偉達還研究出了NVSwitch，它是專為NVLink網(wǎng)絡設計的交換芯片，用于實現(xiàn)多GPU之間的高速互聯(lián)。它允許多個GPU通過交換芯片直接通信，克服了早期NVLink只能在有限數(shù)量GPU間直連的限制。通過“NVLink + NVSwitch”的組合，實現(xiàn)了單機內(nèi)多GPU的高效互聯(lián)。

圖源丨鮮棗課堂

雖然NVLink是真的強，但封閉是它的“原罪”，在一定程度上制約了技術的持續(xù)演進與效能優(yōu)化潛力，等于是把客戶完全“套牢”了。而且，過于壟斷勢必會降低自己產(chǎn)業(yè)鏈的韌性，廠商就會被綁死在英偉達這棵樹上了。

因此，為了對抗擺脫現(xiàn)在這種狀態(tài)，行業(yè)現(xiàn)在開始通過成立聯(lián)盟，制定公開的協(xié)議標準，逐漸替代NVLink。

此時，所有人都開放了標準，英偉達說沒壓力是不可能的，所以在今年5月，英偉達宣布開放對NVLink協(xié)議和驅(qū)動該協(xié)議的物理傳輸（PHY）的訪問。這意味著，第三方的CPU和GPU也能上NVLink了。

在生態(tài)逐漸發(fā)生轉(zhuǎn)變的過程中，NVLink也在逐漸撕開口子，但競爭者目前正在一個接著一個地走上臺前。

NVLink的挑戰(zhàn)者，走上臺前

挑戰(zhàn)者一：UALink，一群供應商的聯(lián)盟。

UALink是走得比較快的一種開放協(xié)議，AMD是其中核心的存在。

去年10月28日，AMD、AWS、谷歌和思科等九家巨頭宣布正式成立UALink聯(lián)盟（Ultra Accelerator Link Consortium，簡稱UALink聯(lián)盟），主推AI服務器Scale UP互連協(xié)議——UALink。而今，博通中途退出，開始大力推廣自家的Scale-Up Ethernet（SUE）技術，新增AWS、Astera兩家公司。目前，UALink聯(lián)盟已公開邀請新成員加入，國內(nèi)已有盛科、聯(lián)想、瀾起科技、聯(lián)動等公司加入成為貢獻者成員。

之所以提到AMD，是因為UALink的技術核心主要來自AMD。考慮到針對終態(tài)進行設計，以及共同對抗行業(yè)壟斷的目的，AMD將其迭代多年的Infinity Fabric協(xié)議貢獻出來，促成UALink聯(lián)盟的成立，希望在更多行業(yè)伙伴的助力下，持續(xù)發(fā)揮原生為GPU互連場景設計的優(yōu)勢，使其成為行業(yè)的開放標準。

今年4月，UA Link 1.0標準正式發(fā)布。UALink 1.0規(guī)范定義了一種高速、低延遲的互連，支持每通道200 GT/s的最大雙向數(shù)據(jù)速率，可配置為 x1、x2 或 x4，四通道鏈路在發(fā)射和接收方向上都能實現(xiàn)高達800 GT/s。一個 UALink 系統(tǒng)支持多達1024個加速器（GPU、NPU或其他），這些加速器通過UALink交換機連接，每個加速器分配一個端口和一個10位唯一標識符，用于精確路由。UALink電纜長度針對<4米進行了優(yōu)化，可在64B/640B有效負載下實現(xiàn)<1 μs的往返延遲。這些鏈路支持跨一到四個機架的確定性性能。

UALink協(xié)議棧包括四個硬件優(yōu)化層：物理層、數(shù)據(jù)鏈路層、事務層和協(xié)議層。物理層使用標準以太網(wǎng)組件（例如 200GBASE-KR1/CR1），并包括通過 FEC 減少延遲的修改；數(shù)據(jù)鏈路層將來自事務層的64字節(jié)flit打包為640字節(jié)單元，應用CRC和可選的重試邏輯，該層還處理設備間消息傳遞并支持UART風格的固件通信；事務層實現(xiàn)壓縮尋址，簡化數(shù)據(jù)傳輸，在實際工作負載下協(xié)議效率高達 95%，還支持直接內(nèi)存作，例如加速器之間的讀取、寫入和原子事務，從而保持本地和遠程內(nèi)存空間之間的順序。

UALink還集成多項數(shù)據(jù)中心級功能，包括硬件加密（UALinkSec）、多租戶隔離、虛擬化分區(qū)，以及通過標準接口（如PCIe和以太網(wǎng)）進行統(tǒng)一管理。

相比封閉的專用方案，UALink 強調(diào)開放生態(tài)，由多家供應商共同推進設備和交換機的研發(fā)，更重要的是，UALink在加速器、交換芯片、Retimer等互連技術上保持中立立場，不偏向特定廠商，目標是建立開放創(chuàng)新的技術生態(tài)系統(tǒng)。

UALink預計首款產(chǎn)品將在12~18個月內(nèi)推向市場。值得注意的是，在UALink 1.0標準誕生之前，新思科技就推出了UALink的IP解決方案。新思的UALink IP 解決方案將提供每通道高達200 Gbps的帶寬和內(nèi)存共享功能，以擴展（向上）加速器連接。

挑戰(zhàn)者二：華為UB-Mesh，用單一協(xié)議解決一切。

剛剛提到的華為UB-Mesh即將在下個月宣布開源。華為的UB在業(yè)界一直被很看好。

通過華為此前的論文來看，UB-Mesh架構(gòu)采用低基數(shù)交換機聚合四路接口，以無阻塞的方式管理跨機架連接。通過橫向擴展2D的full mesh結(jié)構(gòu)下的四個機架，形成4D層級互聯(lián)。四個機架形成的pod總規(guī)模可達1024個NPU。

也就是說，在大規(guī)模集群中，UB-Mesh能夠?qū)崿F(xiàn)1024張NPU的全互聯(lián)，這么來看，數(shù)量和上面的NVLink 1.0相當。不過，UB-Mesh還可以可通過super pod擴展至8000張NPU，這是一個非常驚人的數(shù)字。

不過，把計算、內(nèi)存和網(wǎng)絡資源進行動態(tài)池化與統(tǒng)一在一起訪問，好是好，但是非常以來光技術，這可能引發(fā)出更多其他挑戰(zhàn)。更多細節(jié)，可能需要華為之后的進一步披露。

挑戰(zhàn)者三：博通的以太網(wǎng)方案SUE。

英偉達有NVLink和開放的NV，AMD走了UALink的路，博通想出了另一條路——以太網(wǎng)，也就是SUE。

博通認為這是對英偉達和AMD的一種還擊，因為以太網(wǎng)的好處就是更開放。

根據(jù)博通的說法，SUE架構(gòu)雖非由第三方組織制定的標準，但由于其基于以太網(wǎng)規(guī)范設計，能夠與當前數(shù)據(jù)中心廣泛采用的以太網(wǎng)交換機芯片生態(tài)系統(tǒng)兼容。“我們編寫了規(guī)格書并公開發(fā)布在網(wǎng)絡上，任何人都可以自由采用。市場上以太網(wǎng)交換機芯片供應商眾多，SUE的開放規(guī)格可以說是實現(xiàn)了多方共贏。”而且，SUE對所有公司開放使用，無需像NVLink那樣必須獲得英偉達的授權(quán)。

今年6月，博通更新Scale Up Ethernet（SUE）規(guī)范。SUE在多XPU系統(tǒng)中提供XPU間的通信。每個SUE實例可配置為1、2 或4個端口，實現(xiàn)200G、400G、800G等多種速率，并可在全交換或網(wǎng)狀拓撲中構(gòu)建大規(guī)模XPU集群。

SUE提供了包括類AXI接口、通用命令/響應事務、多流量類別映射、數(shù)據(jù)包級可靠傳輸、嚴格/無序兩種排序模式及負載均衡等功能，其協(xié)議棧支持操作打包、低延遲FEC、鏈路層重試（LLR）及多種流控機制（如PFC和CBFC）。通過采用優(yōu)化報頭格式（如AFH Gen 1/2）和標準以太網(wǎng)兼容封裝，SUE在提升傳輸效率和降低延遲的同時，保持了與現(xiàn)有以太網(wǎng)生態(tài)的兼容性，形成一個開放、可擴展的互聯(lián)解決方案。

總之，博通對SUE框架的優(yōu)化是多維度的。以太網(wǎng)研究本身應用時間也長，繼續(xù)沿用以太網(wǎng)無疑是非常具有吸引力的。所以，博通這個最初積極參與了UALink的開發(fā)工作的廠商，隨著項目的推進，博通可能是突然發(fā)現(xiàn)以太網(wǎng)“尚能飯否”，所以對UALink的態(tài)度發(fā)生了轉(zhuǎn)變。

挑戰(zhàn)者四：PCIe說，再給我一次機會。

從NVLink到UALink再到SUE，可以說，PCIe是“萬人嫌”，誰都嫌它不夠快，瓶頸太多。PCIe SIG組織好像也急了，從2022年正式發(fā)布PCIe 6.0，到今天，急不可耐地直接啟動了PCIe 8.0規(guī)范，把PCIe 8.0提上日程。

根據(jù)PCIe SIG的計劃，2028年實現(xiàn)256 GT/s的速率和x16雙向1 TB/s帶寬。

此外，為了確保PCIe 8.0 互連的可靠性、可用的信噪比、一致的性能、可接受的信號損失、信號完整性和電源效率，PCI-SIG 現(xiàn)在正在審查一種新的互連技術，同時保持與上一代 PCIe 實現(xiàn)的向后兼容性。該規(guī)范還將引入?yún)f(xié)議增強功能以優(yōu)化帶寬使用，以及提高電源效率的方法。

PCIe 8.0強確實是強，但是的確是有點倉促了：目前市場上PCIe 6.0產(chǎn)品仍處于部署初期階段，大多集中在數(shù)據(jù)中心級別硬件中，PCI-SIG計劃在2025年上半年完成PCIe 7.0規(guī)范，并隨后于2028年發(fā)布PCIe 8.0規(guī)范。按照時間來看，三年翻一倍速度也是PCIe的老傳統(tǒng)了，但是真的要用到產(chǎn)業(yè)里，怎么也得2030年了。

不過PCIe本來就很重要，PCIe 8.0肯定是大勢所趨了。

挑戰(zhàn)者五：不同廠商的私有協(xié)議。

除了上述的開放協(xié)議和PCIe，一些廠商還在使用自己的私有協(xié)議。

AWS自己的AI芯片用自己的私有協(xié)議NeuronLink實現(xiàn)橫向擴展，通過增加交換托盤提升整體互連能力。該方案的底層基于PCIe Gen協(xié)議構(gòu)建，例如NeuronLink V3版本使用PCIe Gen5.0作為物理層，每個通道單向傳輸速率可達32Gbit/s，并通過多通道聚合實現(xiàn)高帶寬通信。在具體部署中，亞馬遜的Trn2-Ultra64超級服務器在機柜間采用AEC（有源光纜）進行連接，機柜內(nèi)部則使用DAC（直接連接銅纜）。

谷歌方面，自己的TPU才采用自己的私有互連協(xié)議ICI，該協(xié)議具備高度可編程性，使軟件能夠靈活適應運行時的復雜需求，在機柜內(nèi)部，組件之間通過DAC（直連銅纜）進行連接；而在機柜之間，則采用OCS（光電路交換機）實現(xiàn)高速光交換。

TPU v4的互聯(lián)拓撲采用三維環(huán)面（3D Torus）結(jié)構(gòu)，以4×4×4的方式將芯片組織成立方體形態(tài)。每個機架部署64顆TPU v4芯片和16臺CPU主機，機柜內(nèi)不同托盤間的TPU通過DAC互聯(lián)。在此基礎上，Google使用OCS光交換技術將64個這樣的立方體連接在一起，最終構(gòu)建出包含4096個TPU的TPU v4超級計算機系統(tǒng)。

戰(zhàn)爭的號角打響了

從UALink到博通的以太網(wǎng)的SUE到PCIe 8.0再到華為UB-Mesh，NVLink的競爭者越來越多，一個更為開放的生態(tài)正在建立。而對英偉達來說，這或許也不是什么壞消息，畢竟這種開放的生態(tài)英偉達也可以加入，而且英偉達本身也希望開放生態(tài)。只不過，可能以后就不會像私有協(xié)議那樣具備壟斷性了。

而對于國內(nèi)的GPU和NPU的玩家來說，華為的UB-Mesh以及UB-Switch或許是另一種可行之路。

參考文獻

[1]Tom's Hardware：https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-to-open-source-its-ub-mesh-data-center-scale-interconnect-soon-details-technical-aspects-one-interconnect-to-rule-them-all-is-designed-to-replace-everything-from-pcie-to-tcp-ip

[2]Tom's Hardware：https://www.tomshardware.com/tech-industry/ualink-has-nvidias-nvlink-in-the-crosshairs-final-specs-support-up-to-1-024-gpus-with-200-gt-s-bandwidth

[3]親愛的數(shù)據(jù)：https://mp.weixin.qq.com/s/gaQFoYZvoIb9PReuN2gH3w

[4]鮮棗課堂：https://mp.weixin.qq.com/s/gkm23FxWCTR4UFZYJ3onEw

[5]SDNLAB：https://mp.weixin.qq.com/s/FqdyqbnvAu5QWXfKIVOMEQ

[6]Saniffer：https://mp.weixin.qq.com/s/CHDE29zbphqccLFeF8BEeA

[7]傅里葉的貓：https://mp.weixin.qq.com/s/ShLeHFWdtIv_L718JNsTIA

歡迎將我們設為“星標”，這樣才能第一時間收到推送消息。

關注EEWorld旗下訂閱號：“汽車開發(fā)圈”

回復“DS”領取《DeepSeek:從入門到精通》完整版資料

掃碼添加小助手回復“進群”

和電子工程師們面對面交流經(jīng)驗

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.