過去幾年,大模型競賽不斷刷新人們對(duì)算力規(guī)模的認(rèn)知。從最初的百卡集群,到如今動(dòng)輒萬卡、數(shù)萬卡的訓(xùn)練系統(tǒng),AI基礎(chǔ)設(shè)施正在經(jīng)歷一次堪比高性能計(jì)算發(fā)展的結(jié)構(gòu)性躍遷。
![]()
很多業(yè)內(nèi)人士最初以為,大模型訓(xùn)練的核心變量只是GPU數(shù)量。但真正參與過大型訓(xùn)練平臺(tái)建設(shè)的工程師們往往會(huì)得出另一個(gè)結(jié)論:決定系統(tǒng)效率的,不只是算力芯片,而是整個(gè)集群的互聯(lián)網(wǎng)絡(luò);在百卡時(shí)代,網(wǎng)絡(luò)只是一個(gè)配套組件,而到了萬卡時(shí)代,則變成了決定系統(tǒng)上限的關(guān)鍵變量。
在這一背景下,高速互聯(lián)網(wǎng)絡(luò)開始成為AI基礎(chǔ)設(shè)施的核心競爭力之一。但事實(shí)卻是,長期以來,全球高端AI集群普遍采用InfiniBand架構(gòu),而在國內(nèi),隨著AI算力規(guī)模持續(xù)擴(kuò)大,一條被業(yè)內(nèi)稱為“國產(chǎn)IB路線”的技術(shù)路徑正在逐漸形成。令人驚喜的是,隨著國產(chǎn)原生RDMA網(wǎng)絡(luò)scaleFabric的發(fā)布以及萬卡集群的落地運(yùn)行,這一技術(shù)路徑已經(jīng)從實(shí)驗(yàn)室走向真實(shí)應(yīng)用。
模型訓(xùn)練走向萬卡規(guī)模,網(wǎng)絡(luò)互聯(lián)決定成敗
如果把大模型訓(xùn)練比作一條高速公路,那么GPU就是車輛,而高速互聯(lián)網(wǎng)絡(luò)則是道路系統(tǒng)。當(dāng)車輛數(shù)量只有幾十輛時(shí),道路并不會(huì)成為問題,但當(dāng)車流量上升到成千上萬時(shí),路網(wǎng)結(jié)構(gòu)就會(huì)直接決定整體效率。具體到AI訓(xùn)練系統(tǒng),這種所謂的“交通壓力”則來自于分布式訓(xùn)練機(jī)制。
眾所周知,如今的大模型幾乎全部采用分布式并行訓(xùn)練,模型參數(shù)被拆分到大量計(jì)算節(jié)點(diǎn)上,每一輪訓(xùn)練都需要在不同節(jié)點(diǎn)之間同步梯度數(shù)據(jù),而隨著模型規(guī)模擴(kuò)大和并行度提升,節(jié)點(diǎn)之間的數(shù)據(jù)交換量呈指數(shù)級(jí)增長。
![]()
例如在一些超大規(guī)模訓(xùn)練任務(wù)中,網(wǎng)絡(luò)通信時(shí)間甚至?xí)嫉秸w訓(xùn)練時(shí)間的30%—50%,這意味著,如果沒有一套極低延遲、極高帶寬且能實(shí)現(xiàn)“無損”傳輸?shù)幕ヂ?lián)架構(gòu),花費(fèi)巨資建設(shè)的萬卡集群本質(zhì)上只是一個(gè)效率低下的“算力黑洞”。
事實(shí)是,很多工程師在第一次接觸萬卡集群時(shí)都會(huì)遇到類似問題,主要體現(xiàn)在GPU算力明明充足,但訓(xùn)練效率卻遠(yuǎn)低于預(yù)期,最終排查發(fā)現(xiàn),瓶頸往往不在計(jì)算,而是通信。
對(duì)此,某AI基礎(chǔ)設(shè)施架構(gòu)師強(qiáng)調(diào),他們?cè)缙谠谝粋€(gè)萬卡訓(xùn)練平臺(tái)上做測試時(shí),GPU利用率一度只有40%左右。團(tuán)隊(duì)最初懷疑是訓(xùn)練框架問題,后來通過網(wǎng)絡(luò)分析工具才發(fā)現(xiàn),節(jié)點(diǎn)之間的大量AllReduce通信被網(wǎng)絡(luò)延遲拖慢,導(dǎo)致GPU大量時(shí)間在等待數(shù)據(jù)。
![]()
正是上述這種對(duì)連接性的極致追求,直接催生了對(duì)RDMA(遠(yuǎn)程直接內(nèi)存訪問)網(wǎng)絡(luò)技術(shù)的剛性需求。
RDMA允許服務(wù)器之間直接訪問彼此內(nèi)存,而不需要經(jīng)過操作系統(tǒng)和CPU的數(shù)據(jù)拷貝,從而顯著降低延遲并提高帶寬利用率,同時(shí)憑借低延遲和無損傳輸特性,已經(jīng)成為大型算力中心的基礎(chǔ)設(shè)施核心。而在在過去二十多年里,InfiniBand一直是這一領(lǐng)域的主導(dǎo)技術(shù)。據(jù)高性能計(jì)算榜單統(tǒng)計(jì),全球約60%的超級(jí)計(jì)算機(jī)系統(tǒng)都采用InfiniBand互聯(lián)架構(gòu)。
但隨之而來的挑戰(zhàn)是,當(dāng)AI訓(xùn)練規(guī)模從幾千卡走向數(shù)萬卡時(shí),傳統(tǒng)網(wǎng)絡(luò)體系開始逐漸接近設(shè)計(jì)邊界。最典型的表現(xiàn)就是規(guī)模擴(kuò)展能力。例如InfiniBand的地址空間設(shè)計(jì)限制其單子網(wǎng)規(guī)模大約在五萬卡以內(nèi),而隨著AI模型規(guī)模不斷膨脹,越來越多的算力中心開始規(guī)劃十萬卡級(jí)甚至更大規(guī)模的訓(xùn)練平臺(tái),這使得傳統(tǒng)IB架構(gòu)在擴(kuò)展性上逐漸逼近極限。
與此同時(shí),國內(nèi)算力基礎(chǔ)設(shè)施建設(shè)還面臨另一個(gè)現(xiàn)實(shí)問題,即InfiniBand產(chǎn)業(yè)鏈長期由海外廠商主導(dǎo),從高速SerDes IP到交換芯片、網(wǎng)卡設(shè)備都高度集中在少數(shù)廠商手中。而在算力逐漸成為國家級(jí)基礎(chǔ)設(shè)施的背景下,這種依賴顯然難以持續(xù)。
正是在這樣需求背景的推動(dòng)下,國內(nèi)開始探索自主RDMA網(wǎng)絡(luò)技術(shù),一條被業(yè)內(nèi)稱為“國產(chǎn)IB”的路線逐漸形成。
從追趕到重新定義萬卡網(wǎng)絡(luò),國產(chǎn)IB路線的自主突圍
在很多工程師看來,國產(chǎn)IB并非簡單復(fù)制InfiniBand,而是在吸收其核心理念的基礎(chǔ)上,為AI訓(xùn)練場景重新設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)。換言之,以scaleFabric為代表的國產(chǎn)原生RDMA網(wǎng)絡(luò),其目標(biāo)非常明確,那就是構(gòu)建一套能夠支撐超大規(guī)模AI集群的高速互聯(lián)系統(tǒng),并實(shí)現(xiàn)從底層芯片到軟件棧的完整自主研發(fā)。
![]()
與市面上許多基于商用IP授權(quán)或成熟以太網(wǎng)方案進(jìn)行改良的路徑不同,scaleFabric選擇了從最底層的112G SerDes IP開始,到交換芯片、網(wǎng)卡硬件,再到ScaleOS網(wǎng)絡(luò)協(xié)議棧的全棧自研路徑。盡管這種“推倒重來”的做法在初期固然艱難,但在進(jìn)入萬卡實(shí)戰(zhàn)階段后,其爆發(fā)出的技術(shù)紅利讓一線架構(gòu)師們感到振奮。
以系統(tǒng)核心的兩顆自研芯片為例,一顆400G RDMA網(wǎng)卡芯片以及一顆高性能交換芯片,均基于自主研發(fā)的112G SerDes技術(shù),實(shí)現(xiàn)高速信號(hào)傳輸和低誤碼率通信。而在實(shí)際性能指標(biāo)上,這套系統(tǒng)已經(jīng)達(dá)到國際主流水平。其中網(wǎng)卡單端口帶寬達(dá)到400Gbps,實(shí)測帶寬接近397Gbps,端到端通信延遲約0.9微秒,交換機(jī)轉(zhuǎn)發(fā)延遲約260納秒。這意味著,在基礎(chǔ)通信能力上,國產(chǎn)RDMA網(wǎng)絡(luò)已經(jīng)能夠與當(dāng)前主流的NDR InfiniBand系統(tǒng)處于同一量級(jí)。
但真正體現(xiàn)技術(shù)差異的地方,則在于其面向萬卡集群的架構(gòu)設(shè)計(jì)。
首先是擴(kuò)展能力的重新設(shè)計(jì)。通過對(duì)網(wǎng)絡(luò)地址空間和協(xié)議結(jié)構(gòu)的優(yōu)化,國產(chǎn)RDMA網(wǎng)絡(luò)可以支持超過11萬卡的單子網(wǎng)規(guī)模,大約是傳統(tǒng)InfiniBand系統(tǒng)上限的2.3倍,這為未來十萬卡級(jí)AI集群提供了更大的擴(kuò)展空間。
其次是并發(fā)通信能力。在大規(guī)模訓(xùn)練中,網(wǎng)絡(luò)需要同時(shí)維護(hù)大量通信連接,連接數(shù)量直接影響系統(tǒng)并發(fā)能力。而國產(chǎn)RDMA網(wǎng)卡的QP數(shù)量達(dá)到85萬以上,遠(yuǎn)高于傳統(tǒng)IB網(wǎng)卡水平,使系統(tǒng)能夠支持更多并行通信任務(wù),尤其在面對(duì)超大規(guī)模AI集群的密集全對(duì)全(All-to-All)通信場景時(shí),展現(xiàn)出極強(qiáng)的吞吐韌性,確保了在萬卡規(guī)模下,網(wǎng)絡(luò)連接不會(huì)因?yàn)橘Y源耗盡而產(chǎn)生崩潰。
最后的關(guān)鍵創(chuàng)新是網(wǎng)絡(luò)無損機(jī)制。在工程師看來,AI訓(xùn)練集群最怕的不是帶寬不足,而是丟包。因?yàn)橐坏┌l(fā)生丟包,RDMA就需要重新傳輸數(shù)據(jù),這在萬卡規(guī)模下極易引發(fā)性能雪崩。針對(duì)于此,傳統(tǒng)以太網(wǎng)方案通常依賴PFC機(jī)制保證無損,但這種方式在大規(guī)模環(huán)境中容易引發(fā)擁塞風(fēng)暴。為解決這一問題,國產(chǎn)IB方案提出了iLossless智能無損網(wǎng)絡(luò),并結(jié)合SuperTunnel通信優(yōu)化體系,從應(yīng)用層、傳輸層和網(wǎng)絡(luò)層三個(gè)維度優(yōu)化通信效率。例如系統(tǒng)可以自動(dòng)識(shí)別AllReduce通信模式,根據(jù)拓?fù)鋭?dòng)態(tài)調(diào)度帶寬,并通過硬件卸載減少CPU參與,從而提升整體通信效率。
所謂事實(shí)勝于雄辯。從目前已披露的信息來看,scaleFabric網(wǎng)絡(luò)在部分萬卡集群中已連續(xù)穩(wěn)定運(yùn)行超過數(shù)月,在輻照材料分子動(dòng)力學(xué)軟件模擬等場景中,當(dāng)集群從千卡擴(kuò)展到萬卡時(shí),并行效率依然能維持在80%–86%的區(qū)間;在堆芯流體力學(xué)軟件的復(fù)雜測試中,通信開銷從約50%壓縮到10%左右,這些數(shù)據(jù)無疑為“真無損”提供了初步工程層面的支撐。
當(dāng)然,從客觀的角度,我們也必須正視差距。畢竟國際頂尖方案在生態(tài)成熟度、全球化部署的驗(yàn)證廣度以及與CUDA軟件棧的底層融合上,仍具有深厚的壁壘。相較之下,國產(chǎn)方案目前仍處于從“跑通”向“跑好”的關(guān)鍵跨越期。
盡管如此,國產(chǎn)IB在更高的端口密度、更低的整體組網(wǎng)成本以及更大的網(wǎng)絡(luò)規(guī)模擴(kuò)展能力已經(jīng)展現(xiàn)出明顯的優(yōu)勢。
更重要的是,由于scaleFabric擁有完整IP自主權(quán),它能夠支持更加靈活的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。例如在自動(dòng)駕駛等對(duì)Checkpoint寫入頻率要求極高的訓(xùn)練場景中,系統(tǒng)可以定制化分配存儲(chǔ)I/O帶寬與計(jì)算同步帶寬。而在不少工程師眼中,這種“可定義網(wǎng)絡(luò)”的能力,正是國產(chǎn)高性能網(wǎng)絡(luò)在真實(shí)應(yīng)用中實(shí)現(xiàn)彎道超車的重要基礎(chǔ)。
重塑AI基座,國產(chǎn)IB路線的當(dāng)下與未來
當(dāng)我們把視線從具體的芯片參數(shù)移開,審視scaleFabric對(duì)于中國AI基礎(chǔ)設(shè)施的整體影響時(shí),會(huì)發(fā)現(xiàn)其意義已經(jīng)超越了單一的產(chǎn)品范疇。
如果說幾年前行業(yè)談?wù)搰a(chǎn)化更多還停留在“有沒有替代方案”的階段,那么在萬卡級(jí)算力機(jī)房里,工程師們感受到的變化已經(jīng)逐漸從“替代”走向“重構(gòu)”。而當(dāng)網(wǎng)絡(luò)這條“算力大動(dòng)脈”從芯片、協(xié)議到管理軟件都掌握在自己手中時(shí),很多原本被視為既定約束的系統(tǒng)邊界,也開始變成可以重新設(shè)計(jì)的變量。
例如,傳統(tǒng)InfiniBand單子網(wǎng)規(guī)模長期被認(rèn)為大約在五萬卡左右,工程師在設(shè)計(jì)集群時(shí)往往會(huì)在這一規(guī)模附近止步。而國產(chǎn)IB通過對(duì)地址編碼與路由體系的重新設(shè)計(jì),將這一規(guī)模上限擴(kuò)展到了11萬卡級(jí)別。這個(gè)數(shù)字或許暫時(shí)不會(huì)馬上被完全用滿,但它釋放出的信號(hào)卻十分清晰,即未來在規(guī)劃區(qū)域級(jí)乃至跨中心AI集群時(shí),網(wǎng)絡(luò)規(guī)模不再先天受限。
與此同時(shí),這條技術(shù)路線也正在改變AI基礎(chǔ)設(shè)施的工程實(shí)踐方式。例如在已經(jīng)投入運(yùn)行的鄭州萬卡集群項(xiàng)目中,給不少業(yè)內(nèi)人士留下深刻印象的不只是算力規(guī)模,而是部署效率。從網(wǎng)絡(luò)設(shè)備進(jìn)場到萬卡規(guī)模訓(xùn)練任務(wù)真正跑起來,整個(gè)過程只用了大約30小時(shí)的時(shí)間,再配合自動(dòng)拓?fù)浒l(fā)現(xiàn)、集中版本管理、主動(dòng)壓測以及數(shù)字孿生可視化運(yùn)維體系,過去需要數(shù)周時(shí)間逐一校對(duì)鏈路、人工執(zhí)行壓測腳本的工作,如今已經(jīng)被壓縮成一套高度自動(dòng)化的流程。而這種“交付難度曲線被壓平”的變化,對(duì)于那些同時(shí)承擔(dān)多個(gè)算力項(xiàng)目卻長期面臨運(yùn)維人手不足的團(tuán)隊(duì)而言,意味著未來可以更加大膽地規(guī)劃多套萬卡甚至十萬卡級(jí)集群,而不必每次都擔(dān)心運(yùn)維復(fù)雜度失控。
至于更長遠(yuǎn)的影響,則體現(xiàn)在AI基礎(chǔ)設(shè)施整體形態(tài)的變化上。當(dāng)算力、存儲(chǔ)和網(wǎng)絡(luò)三大子系統(tǒng)逐步實(shí)現(xiàn)自主可控之后,工程師的想象空間不再局限于“按既有架構(gòu)堆接口”,而是能夠圍繞具體業(yè)務(wù)場景進(jìn)行更深層次的協(xié)同設(shè)計(jì)。例如在自動(dòng)駕駛數(shù)據(jù)訓(xùn)練中心,可以針對(duì)高頻Checkpoint和海量日志回傳,對(duì)計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)進(jìn)行聯(lián)合調(diào)度;在科研和超算場景中,也可以為不同規(guī)模作業(yè)預(yù)配置Fabric網(wǎng)絡(luò)切片,讓網(wǎng)絡(luò)行為像操作系統(tǒng)資源調(diào)度一樣精細(xì)而可控。
值得一提的是,目前這些設(shè)想已經(jīng)在部分試點(diǎn)項(xiàng)目中開始出現(xiàn),而國產(chǎn)IB所提供的可編程能力與開放接口,正是實(shí)現(xiàn)這種“算網(wǎng)一體化”探索的重要基礎(chǔ)。
![]()
最后,從更宏觀的產(chǎn)業(yè)視角來看,高速互聯(lián)網(wǎng)絡(luò)的自主能力不僅關(guān)系到單個(gè)數(shù)據(jù)中心的性能上限,也將影響未來全國算力資源如何進(jìn)行跨區(qū)域高效協(xié)同。而隨著多個(gè)國家算力樞紐和智算中心陸續(xù)落地,算力中心之間的互聯(lián)方式、協(xié)議體系以及運(yùn)維能力,都將在相當(dāng)長一段時(shí)間里影響大模型訓(xùn)練效率與AI應(yīng)用創(chuàng)新速度。
在上述背景下,國產(chǎn)IB路線的出現(xiàn),某種意義上是在為未來十年的算力“高速公路網(wǎng)”鋪設(shè)路基。一方面,通過推動(dòng)行業(yè)標(biāo)準(zhǔn)與開放生態(tài)的形成,讓不同廠商的算力芯片、服務(wù)器與存儲(chǔ)系統(tǒng)能夠在統(tǒng)一互聯(lián)規(guī)范下協(xié)同演進(jìn),避免整個(gè)產(chǎn)業(yè)長期受制于單一封閉協(xié)議體系;另一方面,也讓中國企業(yè)在參與國際技術(shù)標(biāo)準(zhǔn)討論時(shí),手中不再只是理論方案,而是已經(jīng)在真實(shí)生產(chǎn)環(huán)境中運(yùn)行的大規(guī)模工程實(shí)踐。
寫在最后:過去,國內(nèi)AI基礎(chǔ)設(shè)施更多依賴國外技術(shù)體系,而隨著國產(chǎn)RDMA網(wǎng)絡(luò)、國產(chǎn)AI芯片以及國產(chǎn)并行存儲(chǔ)逐漸成熟,一套完整的國產(chǎn)算力基礎(chǔ)設(shè)施體系正在形成。需要說明的是,這種體系并不是簡單替代國外產(chǎn)品,而是在某些維度上形成新的技術(shù)路線。例如更大的網(wǎng)絡(luò)規(guī)模、更靈活的通信優(yōu)化機(jī)制以及更低的整體成本結(jié)構(gòu),都為未來大規(guī)模AI訓(xùn)練提供了新的可能性。
展望未來,萬卡時(shí)代的基礎(chǔ)設(shè)施革命才剛剛開始,高速互聯(lián)網(wǎng)絡(luò),很可能成為決定未來算力競爭格局的關(guān)鍵一環(huán),而伴隨中科曙光下一代交換芯片的研發(fā)已在路上,我們正在通過scaleFabric這樣的實(shí)踐,定義出一套符合中國AI產(chǎn)業(yè)需求、具有韌性的技術(shù)標(biāo)準(zhǔn)。正如某架構(gòu)師所言:“我們現(xiàn)在做的事,不是簡單的復(fù)制,而是用我們自己的方式,去翻越那座名為‘算力巔峰’的高山。路可能不一樣,但我們終將到達(dá)相同的終點(diǎn)。”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.