今年的Hot Chips 2025廠商依然大秀肌肉,其中最值得關注的,莫過于華為推出的UB-Mesh技術,該技術旨在通過單一協(xié)議統(tǒng)一AI數(shù)據(jù)中心內(nèi)外部節(jié)點的所有互聯(lián),并用單一協(xié)議取代PCIe、CXL、NVLink和TCP/IP協(xié)議。
華為處理器部門海思半導體首席科學家廖恒表示:“下個月我們將召開一次會議,宣布UB-Mesh協(xié)議將像免費許可證一樣向所有人開放。這是一項非常新的技術;我們看到不同陣營正在競相推進標準化工作。根據(jù)我們在實際系統(tǒng)部署方面的成功程度以及合作伙伴和客戶的需求,我們可以討論將其轉(zhuǎn)化為某種標準。”
隨著UB-Mesh免費開放,NVLink的壟斷地位是否會受到動搖?
華為的UB-Mesh,到底是啥?
事實上,華為的UB-Mesh早在今年三月底就已亮相。當時,華為發(fā)布了昇騰CloudMatrix 384超節(jié)點,采用UB互聯(lián)完成了384顆NPU的互聯(lián)。之所以采用UB互聯(lián),是因為諸如LLM訓練等方面,要在NPU之間頻繁交換數(shù)據(jù),所以要有強大的NPU間通信能力。
![]()
而在本次Hot Chips上,華為透露了更多細節(jié)。根據(jù)華為的介紹,雖然用于訓練和推理的 AI 數(shù)據(jù)中心應該像一個大型固有并行處理器一樣運行,但它們由單獨的機架、服務器、CPU、GPU、內(nèi)存、SSD、NIC 、交換機和其他組件組成,這些組件使用不同的總線和協(xié)議相互聯(lián)接,如UPI、PCIe、CXL、RoCE、NVLink、UALink、TCP/IP和即將推出的超級以太網(wǎng)。協(xié)議轉(zhuǎn)換需要電力,增加延遲和成本,并引入潛在的故障點,所有這些因素都可以在擁有數(shù)百萬個處理器的千兆瓦級數(shù)據(jù)中心中進行災難性擴展。
但是華為卻不同,華為的思路則是“一統(tǒng)天下”,提出了UB-Mesh的統(tǒng)一框架,使任何端口無需轉(zhuǎn)換即可與任何其他端口通信。這種簡單性減少了轉(zhuǎn)換延遲,簡化了設計,并且仍然在需要時留出了通過以太網(wǎng)運行的空間,從本質(zhì)上將整個數(shù)據(jù)中心轉(zhuǎn)換為UB-Mesh 連接的相干超級節(jié)點。
![]()
華為將這種數(shù)據(jù)中心規(guī)模的AI架構(gòu)定義為SuperNode,將多達1,000,000個處理器(CPU、GPU、NPU)、池內(nèi)存、SSD、NIC和交換機統(tǒng)一到一個系統(tǒng)中,并將每芯片帶寬從100 Gbps上升到10 Tbps(1.25 TB/s,超出了PCIe 8.0設置的范圍),時延從微秒減少到~150 ns,整體設計從異步DMA轉(zhuǎn)向同步加載/存儲語義。允許靈活地重復使用所有高速SERDES連接,甚至支持通過以太網(wǎng)運行以實現(xiàn)向后兼容性。
當然,統(tǒng)一到單一的協(xié)議里,談何容易,華為認為這會引發(fā)從銅纜(仍連接在機架內(nèi))到可插拔光鏈路的轉(zhuǎn)變,不過光纖的錯誤率遠高于電氣連接。為了解決這個問題,華為提出了鏈路級重試機制、光模塊內(nèi)的備用通道以及將控制器連接到多個模塊的交叉設計。
![]()
從拓撲上來看,UB-Mesh 采用混合網(wǎng)絡拓撲結(jié)構(gòu)。其頂層基于CLOS架構(gòu),用于連接整個數(shù)據(jù)中心大廳中的各個機架;而在每個機架內(nèi)部,則通過多維網(wǎng)格網(wǎng)絡互聯(lián)數(shù)十個節(jié)點。這種混合設計旨在避免傳統(tǒng)方案在系統(tǒng)規(guī)模擴展至數(shù)萬甚至數(shù)十萬個節(jié)點時,所面臨的高昂成本問題。
成本方面,華為提供的數(shù)據(jù)顯示,傳統(tǒng)互聯(lián)架構(gòu)的成本往往隨節(jié)點數(shù)量呈線性增長,甚至可能超過人工智能加速器(如NVIDIA H100或B200)本身的價格。而UB-Mesh以亞線性方式擴展成本,實現(xiàn)在增加容量的同時,不會同比增加開支。
![]()
為什么都想替代NVLink
英偉達的GPU之所以能夠在數(shù)據(jù)中賣的那么好,其實不光是因為本身算力強大,更重要的便是其互聯(lián)技術——NVLink和NVSwitch。
打個比方說,每個GPU都是單兵作戰(zhàn),但是用NVLink把GPU和GPU、GPU和CPU連在一起,就能發(fā)揮出更大的作用。過去,這種連接都是靠PCIe,就是我們家里主機那種一個一個插槽,而NVLink就是為了突破PCIe瓶頸而誕生的一種技術。
NVLink這種GPU和GPU互聯(lián)或者NPU和NPU互聯(lián)在業(yè)界有一種專業(yè)叫法——Scale Up(向上/垂直擴展),與之相對,還有Scale Out(橫向/水平擴展)的概念。
Scale Up互聯(lián)可以粗暴理解“芯片之間的互聯(lián)”,是做更大芯片擴展的服務器,是內(nèi)存和顯存共享訪問的語義,特點是極低延遲和大帶寬,規(guī)模在柜內(nèi),可擴展為多柜到百芯片級,是獨立Fabric連接,完全不同于以太網(wǎng)。Scale Up是超節(jié)點內(nèi)部,采用GPU直出技術。
Scale Out互聯(lián)是“服務器之間是基于網(wǎng)卡+交換機的集群互聯(lián)”,可以簡單粗暴理解成“卡之間的互聯(lián)”,是以太網(wǎng)協(xié)議,規(guī)模在萬級以上,普適的互聯(lián)。它是在計算集群內(nèi)部,利用外置網(wǎng)卡技術,通過橫向擴展機柜的數(shù)目,實現(xiàn)到數(shù)萬甚至數(shù)十萬張卡的互聯(lián)。
![]()
所以,NVLink的價值就在這里,傳統(tǒng)PCIe總線在GPU間數(shù)據(jù)傳輸中已成為性能瓶頸。NVLink提供更高帶寬和更低延遲,極大加速GPU間通信,這樣GPU的性能才不會有任何浪費,尤其適合AI訓練和科學計算。目前,NVLink已經(jīng)發(fā)展到了第五代。
![]()
![]()
圖源丨鮮棗課堂
當然,這還沒有結(jié)束。英偉達還研究出了NVSwitch,它是專為NVLink網(wǎng)絡設計的交換芯片,用于實現(xiàn)多GPU之間的高速互聯(lián)。它允許多個GPU通過交換芯片直接通信,克服了早期NVLink只能在有限數(shù)量GPU間直連的限制。通過“NVLink + NVSwitch”的組合,實現(xiàn)了單機內(nèi)多GPU的高效互聯(lián)。
![]()
圖源丨鮮棗課堂
雖然NVLink是真的強,但封閉是它的“原罪”,在一定程度上制約了技術的持續(xù)演進與效能優(yōu)化潛力,等于是把客戶完全“套牢”了。而且,過于壟斷勢必會降低自己產(chǎn)業(yè)鏈的韌性,廠商就會被綁死在英偉達這棵樹上了。
因此,為了對抗擺脫現(xiàn)在這種狀態(tài),行業(yè)現(xiàn)在開始通過成立聯(lián)盟,制定公開的協(xié)議標準,逐漸替代NVLink。
此時,所有人都開放了標準,英偉達說沒壓力是不可能的,所以在今年5月,英偉達宣布開放對NVLink協(xié)議和驅(qū)動該協(xié)議的物理傳輸(PHY)的訪問。這意味著,第三方的CPU和GPU也能上NVLink了。
在生態(tài)逐漸發(fā)生轉(zhuǎn)變的過程中,NVLink也在逐漸撕開口子,但競爭者目前正在一個接著一個地走上臺前。
NVLink的挑戰(zhàn)者,走上臺前
挑戰(zhàn)者一:UALink,一群供應商的聯(lián)盟。
UALink是走得比較快的一種開放協(xié)議,AMD是其中核心的存在。
去年10月28日,AMD、AWS、谷歌和思科等九家巨頭宣布正式成立UALink聯(lián)盟(Ultra Accelerator Link Consortium,簡稱UALink聯(lián)盟),主推AI服務器Scale UP互連協(xié)議——UALink。而今,博通中途退出,開始大力推廣自家的Scale-Up Ethernet(SUE)技術,新增AWS、Astera兩家公司。目前,UALink聯(lián)盟已公開邀請新成員加入,國內(nèi)已有盛科、聯(lián)想、瀾起科技、聯(lián)動等公司加入成為貢獻者成員。
之所以提到AMD,是因為UALink的技術核心主要來自AMD。考慮到針對終態(tài)進行設計,以及共同對抗行業(yè)壟斷的目的,AMD將其迭代多年的Infinity Fabric協(xié)議貢獻出來,促成UALink聯(lián)盟的成立,希望在更多行業(yè)伙伴的助力下,持續(xù)發(fā)揮原生為GPU互連場景設計的優(yōu)勢,使其成為行業(yè)的開放標準。
今年4月,UA Link 1.0標準正式發(fā)布。UALink 1.0規(guī)范定義了一種高速、低延遲的互連,支持每通道200 GT/s的最大雙向數(shù)據(jù)速率,可配置為 x1、x2 或 x4,四通道鏈路在發(fā)射和接收方向上都能實現(xiàn)高達800 GT/s。一個 UALink 系統(tǒng)支持多達1024個加速器(GPU、NPU或其他),這些加速器通過UALink交換機連接,每個加速器分配一個端口和一個10位唯一標識符,用于精確路由。UALink電纜長度針對<4米進行了優(yōu)化,可在64B/640B有效負載下實現(xiàn)<1 μs的往返延遲。這些鏈路支持跨一到四個機架的確定性性能。
![]()
UALink協(xié)議棧包括四個硬件優(yōu)化層:物理層、數(shù)據(jù)鏈路層、事務層和協(xié)議層。物理層使用標準以太網(wǎng)組件(例如 200GBASE-KR1/CR1),并包括通過 FEC 減少延遲的修改;數(shù)據(jù)鏈路層將來自事務層的64字節(jié)flit打包為640字節(jié)單元,應用CRC和可選的重試邏輯,該層還處理設備間消息傳遞并支持UART風格的固件通信;事務層實現(xiàn)壓縮尋址,簡化數(shù)據(jù)傳輸,在實際工作負載下協(xié)議效率高達 95%,還支持直接內(nèi)存作,例如加速器之間的讀取、寫入和原子事務,從而保持本地和遠程內(nèi)存空間之間的順序。
![]()
UALink還集成多項數(shù)據(jù)中心級功能,包括硬件加密(UALinkSec)、多租戶隔離、虛擬化分區(qū),以及通過標準接口(如PCIe和以太網(wǎng))進行統(tǒng)一管理。
相比封閉的專用方案,UALink 強調(diào)開放生態(tài),由多家供應商共同推進設備和交換機的研發(fā),更重要的是,UALink在加速器、交換芯片、Retimer等互連技術上保持中立立場,不偏向特定廠商,目標是建立開放創(chuàng)新的技術生態(tài)系統(tǒng)。
UALink預計首款產(chǎn)品將在12~18個月內(nèi)推向市場。值得注意的是,在UALink 1.0標準誕生之前,新思科技就推出了UALink的IP解決方案。新思的UALink IP 解決方案將提供每通道高達200 Gbps的帶寬和內(nèi)存共享功能,以擴展(向上)加速器連接。
![]()
挑戰(zhàn)者二:華為UB-Mesh,用單一協(xié)議解決一切。
剛剛提到的華為UB-Mesh即將在下個月宣布開源。華為的UB在業(yè)界一直被很看好。
通過華為此前的論文來看,UB-Mesh架構(gòu)采用低基數(shù)交換機聚合四路接口,以無阻塞的方式管理跨機架連接。通過橫向擴展2D的full mesh結(jié)構(gòu)下的四個機架,形成4D層級互聯(lián)。四個機架形成的pod總規(guī)模可達1024個NPU。
也就是說,在大規(guī)模集群中,UB-Mesh能夠?qū)崿F(xiàn)1024張NPU的全互聯(lián),這么來看,數(shù)量和上面的NVLink 1.0相當。不過,UB-Mesh還可以可通過super pod擴展至8000張NPU,這是一個非常驚人的數(shù)字。
![]()
不過,把計算、內(nèi)存和網(wǎng)絡資源進行動態(tài)池化與統(tǒng)一在一起訪問,好是好,但是非常以來光技術,這可能引發(fā)出更多其他挑戰(zhàn)。更多細節(jié),可能需要華為之后的進一步披露。
挑戰(zhàn)者三:博通的以太網(wǎng)方案SUE。
英偉達有NVLink和開放的NV,AMD走了UALink的路,博通想出了另一條路——以太網(wǎng),也就是SUE。
博通認為這是對英偉達和AMD的一種還擊,因為以太網(wǎng)的好處就是更開放。
根據(jù)博通的說法,SUE架構(gòu)雖非由第三方組織制定的標準,但由于其基于以太網(wǎng)規(guī)范設計,能夠與當前數(shù)據(jù)中心廣泛采用的以太網(wǎng)交換機芯片生態(tài)系統(tǒng)兼容。“我們編寫了規(guī)格書并公開發(fā)布在網(wǎng)絡上,任何人都可以自由采用。市場上以太網(wǎng)交換機芯片供應商眾多,SUE的開放規(guī)格可以說是實現(xiàn)了多方共贏。”而且,SUE對所有公司開放使用,無需像NVLink那樣必須獲得英偉達的授權(quán)。
今年6月,博通更新Scale Up Ethernet(SUE)規(guī)范。SUE在多XPU系統(tǒng)中提供XPU間的通信。每個SUE實例可配置為1、2 或4個端口,實現(xiàn)200G、400G、800G等多種速率,并可在全交換或網(wǎng)狀拓撲中構(gòu)建大規(guī)模XPU集群。
SUE提供了包括類AXI接口、通用命令/響應事務、多流量類別映射、數(shù)據(jù)包級可靠傳輸、嚴格/無序兩種排序模式及負載均衡等功能,其協(xié)議棧支持操作打包、低延遲FEC、鏈路層重試(LLR)及多種流控機制(如PFC和CBFC)。通過采用優(yōu)化報頭格式(如AFH Gen 1/2)和標準以太網(wǎng)兼容封裝,SUE在提升傳輸效率和降低延遲的同時,保持了與現(xiàn)有以太網(wǎng)生態(tài)的兼容性,形成一個開放、可擴展的互聯(lián)解決方案。
![]()
總之,博通對SUE框架的優(yōu)化是多維度的。以太網(wǎng)研究本身應用時間也長,繼續(xù)沿用以太網(wǎng)無疑是非常具有吸引力的。所以,博通這個最初積極參與了UALink的開發(fā)工作的廠商,隨著項目的推進,博通可能是突然發(fā)現(xiàn)以太網(wǎng)“尚能飯否”,所以對UALink的態(tài)度發(fā)生了轉(zhuǎn)變。
挑戰(zhàn)者四:PCIe說,再給我一次機會。
從NVLink到UALink再到SUE,可以說,PCIe是“萬人嫌”,誰都嫌它不夠快,瓶頸太多。PCIe SIG組織好像也急了,從2022年正式發(fā)布PCIe 6.0,到今天,急不可耐地直接啟動了PCIe 8.0規(guī)范,把PCIe 8.0提上日程。
根據(jù)PCIe SIG的計劃,2028年實現(xiàn)256 GT/s的速率和x16雙向1 TB/s帶寬。
![]()
此外,為了確保PCIe 8.0 互連的可靠性、可用的信噪比、一致的性能、可接受的信號損失、信號完整性和電源效率,PCI-SIG 現(xiàn)在正在審查一種新的互連技術,同時保持與上一代 PCIe 實現(xiàn)的向后兼容性。該規(guī)范還將引入?yún)f(xié)議增強功能以優(yōu)化帶寬使用,以及提高電源效率的方法。
PCIe 8.0強確實是強,但是的確是有點倉促了:目前市場上PCIe 6.0產(chǎn)品仍處于部署初期階段,大多集中在數(shù)據(jù)中心級別硬件中,PCI-SIG計劃在2025年上半年完成PCIe 7.0規(guī)范,并隨后于2028年發(fā)布PCIe 8.0規(guī)范。按照時間來看,三年翻一倍速度也是PCIe的老傳統(tǒng)了,但是真的要用到產(chǎn)業(yè)里,怎么也得2030年了。
不過PCIe本來就很重要,PCIe 8.0肯定是大勢所趨了。
![]()
挑戰(zhàn)者五:不同廠商的私有協(xié)議。
除了上述的開放協(xié)議和PCIe,一些廠商還在使用自己的私有協(xié)議。
AWS自己的AI芯片用自己的私有協(xié)議NeuronLink實現(xiàn)橫向擴展,通過增加交換托盤提升整體互連能力。該方案的底層基于PCIe Gen協(xié)議構(gòu)建,例如NeuronLink V3版本使用PCIe Gen5.0作為物理層,每個通道單向傳輸速率可達32Gbit/s, 并通過多通道聚合實現(xiàn)高帶寬通信。在具體部署中,亞馬遜的Trn2-Ultra64超級服務器在機柜間采用AEC(有源光纜)進行連接,機柜內(nèi)部則使用DAC(直接連接銅纜)。
谷歌方面,自己的TPU才采用自己的私有互連協(xié)議ICI,該協(xié)議具備高度可編程性,使軟件能夠靈活適應運行時的復雜需求,在機柜內(nèi)部,組件之間通過DAC(直連銅纜)進行連接;而在機柜之間,則采用OCS(光電路交換機)實現(xiàn)高速光交換。
TPU v4的互聯(lián)拓撲采用三維環(huán)面(3D Torus)結(jié)構(gòu),以4×4×4的方式將芯片組織成立方體形態(tài)。每個機架部署64顆TPU v4芯片和16臺CPU主機,機柜內(nèi)不同托盤間的TPU通過DAC互聯(lián)。在此基礎上,Google使用OCS光交換技術將64個這樣的立方體連接在一起,最終構(gòu)建出包含4096個TPU的TPU v4超級計算機系統(tǒng)。
戰(zhàn)爭的號角打響了
從UALink到博通的以太網(wǎng)的SUE到PCIe 8.0再到華為UB-Mesh,NVLink的競爭者越來越多,一個更為開放的生態(tài)正在建立。而對英偉達來說,這或許也不是什么壞消息,畢竟這種開放的生態(tài)英偉達也可以加入,而且英偉達本身也希望開放生態(tài)。只不過,可能以后就不會像私有協(xié)議那樣具備壟斷性了。
而對于國內(nèi)的GPU和NPU的玩家來說,華為的UB-Mesh以及UB-Switch或許是另一種可行之路。
參考文獻
[1]Tom's Hardware:https://www.tomshardware.com/tech-industry/artificial-intelligence/huawei-to-open-source-its-ub-mesh-data-center-scale-interconnect-soon-details-technical-aspects-one-interconnect-to-rule-them-all-is-designed-to-replace-everything-from-pcie-to-tcp-ip
[2]Tom's Hardware:https://www.tomshardware.com/tech-industry/ualink-has-nvidias-nvlink-in-the-crosshairs-final-specs-support-up-to-1-024-gpus-with-200-gt-s-bandwidth
[3]親愛的數(shù)據(jù):https://mp.weixin.qq.com/s/gaQFoYZvoIb9PReuN2gH3w
[4]鮮棗課堂:https://mp.weixin.qq.com/s/gkm23FxWCTR4UFZYJ3onEw
[5]SDNLAB:https://mp.weixin.qq.com/s/FqdyqbnvAu5QWXfKIVOMEQ
[6]Saniffer:https://mp.weixin.qq.com/s/CHDE29zbphqccLFeF8BEeA
[7]傅里葉的貓:https://mp.weixin.qq.com/s/ShLeHFWdtIv_L718JNsTIA
歡迎將我們設為“星標”,這樣才能第一時間收到推送消息。
關注EEWorld旗下訂閱號:“汽車開發(fā)圈”
回復“DS”領取《DeepSeek:從入門到精通》完整版資料
掃碼添加小助手回復“進群”
和電子工程師們面對面交流經(jīng)驗
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.