網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

從萬卡到十萬卡，國產(chǎn)RDMA何以改寫AI基礎(chǔ)設(shè)施競爭格局？

2026-03-16 20:23:12　來源: 孫永杰的ICT評(píng)論

北京舉報(bào)

分享至

過去幾年，大模型競賽不斷刷新人們對(duì)算力規(guī)模的認(rèn)知。從最初的百卡集群，到如今動(dòng)輒萬卡、數(shù)萬卡的訓(xùn)練系統(tǒng)，AI基礎(chǔ)設(shè)施正在經(jīng)歷一次堪比高性能計(jì)算發(fā)展的結(jié)構(gòu)性躍遷。

很多業(yè)內(nèi)人士最初以為，大模型訓(xùn)練的核心變量只是GPU數(shù)量。但真正參與過大型訓(xùn)練平臺(tái)建設(shè)的工程師們往往會(huì)得出另一個(gè)結(jié)論：決定系統(tǒng)效率的，不只是算力芯片，而是整個(gè)集群的互聯(lián)網(wǎng)絡(luò)；在百卡時(shí)代，網(wǎng)絡(luò)只是一個(gè)配套組件，而到了萬卡時(shí)代，則變成了決定系統(tǒng)上限的關(guān)鍵變量。

在這一背景下，高速互聯(lián)網(wǎng)絡(luò)開始成為AI基礎(chǔ)設(shè)施的核心競爭力之一。但事實(shí)卻是，長期以來，全球高端AI集群普遍采用InfiniBand架構(gòu)，而在國內(nèi)，隨著AI算力規(guī)模持續(xù)擴(kuò)大，一條被業(yè)內(nèi)稱為“國產(chǎn)IB路線”的技術(shù)路徑正在逐漸形成。令人驚喜的是，隨著國產(chǎn)原生RDMA網(wǎng)絡(luò)scaleFabric的發(fā)布以及萬卡集群的落地運(yùn)行，這一技術(shù)路徑已經(jīng)從實(shí)驗(yàn)室走向真實(shí)應(yīng)用。

模型訓(xùn)練走向萬卡規(guī)模，網(wǎng)絡(luò)互聯(lián)決定成敗

如果把大模型訓(xùn)練比作一條高速公路，那么GPU就是車輛，而高速互聯(lián)網(wǎng)絡(luò)則是道路系統(tǒng)。當(dāng)車輛數(shù)量只有幾十輛時(shí)，道路并不會(huì)成為問題，但當(dāng)車流量上升到成千上萬時(shí)，路網(wǎng)結(jié)構(gòu)就會(huì)直接決定整體效率。具體到AI訓(xùn)練系統(tǒng)，這種所謂的“交通壓力”則來自于分布式訓(xùn)練機(jī)制。

眾所周知，如今的大模型幾乎全部采用分布式并行訓(xùn)練，模型參數(shù)被拆分到大量計(jì)算節(jié)點(diǎn)上，每一輪訓(xùn)練都需要在不同節(jié)點(diǎn)之間同步梯度數(shù)據(jù)，而隨著模型規(guī)模擴(kuò)大和并行度提升，節(jié)點(diǎn)之間的數(shù)據(jù)交換量呈指數(shù)級(jí)增長。

例如在一些超大規(guī)模訓(xùn)練任務(wù)中，網(wǎng)絡(luò)通信時(shí)間甚至?xí)嫉秸w訓(xùn)練時(shí)間的30%—50%，這意味著，如果沒有一套極低延遲、極高帶寬且能實(shí)現(xiàn)“無損”傳輸?shù)幕ヂ?lián)架構(gòu)，花費(fèi)巨資建設(shè)的萬卡集群本質(zhì)上只是一個(gè)效率低下的“算力黑洞”。

事實(shí)是，很多工程師在第一次接觸萬卡集群時(shí)都會(huì)遇到類似問題，主要體現(xiàn)在GPU算力明明充足，但訓(xùn)練效率卻遠(yuǎn)低于預(yù)期，最終排查發(fā)現(xiàn)，瓶頸往往不在計(jì)算，而是通信。

對(duì)此，某AI基礎(chǔ)設(shè)施架構(gòu)師強(qiáng)調(diào)，他們?cè)缙谠谝粋€(gè)萬卡訓(xùn)練平臺(tái)上做測試時(shí)，GPU利用率一度只有40%左右。團(tuán)隊(duì)最初懷疑是訓(xùn)練框架問題，后來通過網(wǎng)絡(luò)分析工具才發(fā)現(xiàn)，節(jié)點(diǎn)之間的大量AllReduce通信被網(wǎng)絡(luò)延遲拖慢，導(dǎo)致GPU大量時(shí)間在等待數(shù)據(jù)。

正是上述這種對(duì)連接性的極致追求，直接催生了對(duì)RDMA（遠(yuǎn)程直接內(nèi)存訪問）網(wǎng)絡(luò)技術(shù)的剛性需求。

RDMA允許服務(wù)器之間直接訪問彼此內(nèi)存，而不需要經(jīng)過操作系統(tǒng)和CPU的數(shù)據(jù)拷貝，從而顯著降低延遲并提高帶寬利用率，同時(shí)憑借低延遲和無損傳輸特性，已經(jīng)成為大型算力中心的基礎(chǔ)設(shè)施核心。而在在過去二十多年里，InfiniBand一直是這一領(lǐng)域的主導(dǎo)技術(shù)。據(jù)高性能計(jì)算榜單統(tǒng)計(jì)，全球約60%的超級(jí)計(jì)算機(jī)系統(tǒng)都采用InfiniBand互聯(lián)架構(gòu)。

但隨之而來的挑戰(zhàn)是，當(dāng)AI訓(xùn)練規(guī)模從幾千卡走向數(shù)萬卡時(shí)，傳統(tǒng)網(wǎng)絡(luò)體系開始逐漸接近設(shè)計(jì)邊界。最典型的表現(xiàn)就是規(guī)模擴(kuò)展能力。例如InfiniBand的地址空間設(shè)計(jì)限制其單子網(wǎng)規(guī)模大約在五萬卡以內(nèi)，而隨著AI模型規(guī)模不斷膨脹，越來越多的算力中心開始規(guī)劃十萬卡級(jí)甚至更大規(guī)模的訓(xùn)練平臺(tái)，這使得傳統(tǒng)IB架構(gòu)在擴(kuò)展性上逐漸逼近極限。

與此同時(shí)，國內(nèi)算力基礎(chǔ)設(shè)施建設(shè)還面臨另一個(gè)現(xiàn)實(shí)問題，即InfiniBand產(chǎn)業(yè)鏈長期由海外廠商主導(dǎo)，從高速SerDes IP到交換芯片、網(wǎng)卡設(shè)備都高度集中在少數(shù)廠商手中。而在算力逐漸成為國家級(jí)基礎(chǔ)設(shè)施的背景下，這種依賴顯然難以持續(xù)。

正是在這樣需求背景的推動(dòng)下，國內(nèi)開始探索自主RDMA網(wǎng)絡(luò)技術(shù)，一條被業(yè)內(nèi)稱為“國產(chǎn)IB”的路線逐漸形成。

從追趕到重新定義萬卡網(wǎng)絡(luò)，國產(chǎn)IB路線的自主突圍

在很多工程師看來，國產(chǎn)IB并非簡單復(fù)制InfiniBand，而是在吸收其核心理念的基礎(chǔ)上，為AI訓(xùn)練場景重新設(shè)計(jì)網(wǎng)絡(luò)架構(gòu)。換言之，以scaleFabric為代表的國產(chǎn)原生RDMA網(wǎng)絡(luò)，其目標(biāo)非常明確，那就是構(gòu)建一套能夠支撐超大規(guī)模AI集群的高速互聯(lián)系統(tǒng)，并實(shí)現(xiàn)從底層芯片到軟件棧的完整自主研發(fā)。

與市面上許多基于商用IP授權(quán)或成熟以太網(wǎng)方案進(jìn)行改良的路徑不同，scaleFabric選擇了從最底層的112G SerDes IP開始，到交換芯片、網(wǎng)卡硬件，再到ScaleOS網(wǎng)絡(luò)協(xié)議棧的全棧自研路徑。盡管這種“推倒重來”的做法在初期固然艱難，但在進(jìn)入萬卡實(shí)戰(zhàn)階段后，其爆發(fā)出的技術(shù)紅利讓一線架構(gòu)師們感到振奮。

以系統(tǒng)核心的兩顆自研芯片為例，一顆400G RDMA網(wǎng)卡芯片以及一顆高性能交換芯片，均基于自主研發(fā)的112G SerDes技術(shù)，實(shí)現(xiàn)高速信號(hào)傳輸和低誤碼率通信。而在實(shí)際性能指標(biāo)上，這套系統(tǒng)已經(jīng)達(dá)到國際主流水平。其中網(wǎng)卡單端口帶寬達(dá)到400Gbps，實(shí)測帶寬接近397Gbps，端到端通信延遲約0.9微秒，交換機(jī)轉(zhuǎn)發(fā)延遲約260納秒。這意味著，在基礎(chǔ)通信能力上，國產(chǎn)RDMA網(wǎng)絡(luò)已經(jīng)能夠與當(dāng)前主流的NDR InfiniBand系統(tǒng)處于同一量級(jí)。

但真正體現(xiàn)技術(shù)差異的地方，則在于其面向萬卡集群的架構(gòu)設(shè)計(jì)。

首先是擴(kuò)展能力的重新設(shè)計(jì)。通過對(duì)網(wǎng)絡(luò)地址空間和協(xié)議結(jié)構(gòu)的優(yōu)化，國產(chǎn)RDMA網(wǎng)絡(luò)可以支持超過11萬卡的單子網(wǎng)規(guī)模，大約是傳統(tǒng)InfiniBand系統(tǒng)上限的2.3倍，這為未來十萬卡級(jí)AI集群提供了更大的擴(kuò)展空間。

其次是并發(fā)通信能力。在大規(guī)模訓(xùn)練中，網(wǎng)絡(luò)需要同時(shí)維護(hù)大量通信連接，連接數(shù)量直接影響系統(tǒng)并發(fā)能力。而國產(chǎn)RDMA網(wǎng)卡的QP數(shù)量達(dá)到85萬以上，遠(yuǎn)高于傳統(tǒng)IB網(wǎng)卡水平，使系統(tǒng)能夠支持更多并行通信任務(wù)，尤其在面對(duì)超大規(guī)模AI集群的密集全對(duì)全（All-to-All）通信場景時(shí)，展現(xiàn)出極強(qiáng)的吞吐韌性，確保了在萬卡規(guī)模下，網(wǎng)絡(luò)連接不會(huì)因?yàn)橘Y源耗盡而產(chǎn)生崩潰。

最后的關(guān)鍵創(chuàng)新是網(wǎng)絡(luò)無損機(jī)制。在工程師看來，AI訓(xùn)練集群最怕的不是帶寬不足，而是丟包。因?yàn)橐坏┌l(fā)生丟包，RDMA就需要重新傳輸數(shù)據(jù)，這在萬卡規(guī)模下極易引發(fā)性能雪崩。針對(duì)于此，傳統(tǒng)以太網(wǎng)方案通常依賴PFC機(jī)制保證無損，但這種方式在大規(guī)模環(huán)境中容易引發(fā)擁塞風(fēng)暴。為解決這一問題，國產(chǎn)IB方案提出了iLossless智能無損網(wǎng)絡(luò)，并結(jié)合SuperTunnel通信優(yōu)化體系，從應(yīng)用層、傳輸層和網(wǎng)絡(luò)層三個(gè)維度優(yōu)化通信效率。例如系統(tǒng)可以自動(dòng)識(shí)別AllReduce通信模式，根據(jù)拓?fù)鋭?dòng)態(tài)調(diào)度帶寬，并通過硬件卸載減少CPU參與，從而提升整體通信效率。

所謂事實(shí)勝于雄辯。從目前已披露的信息來看，scaleFabric網(wǎng)絡(luò)在部分萬卡集群中已連續(xù)穩(wěn)定運(yùn)行超過數(shù)月，在輻照材料分子動(dòng)力學(xué)軟件模擬等場景中，當(dāng)集群從千卡擴(kuò)展到萬卡時(shí)，并行效率依然能維持在80%–86%的區(qū)間；在堆芯流體力學(xué)軟件的復(fù)雜測試中，通信開銷從約50%壓縮到10%左右，這些數(shù)據(jù)無疑為“真無損”提供了初步工程層面的支撐。

當(dāng)然，從客觀的角度，我們也必須正視差距。畢竟國際頂尖方案在生態(tài)成熟度、全球化部署的驗(yàn)證廣度以及與CUDA軟件棧的底層融合上，仍具有深厚的壁壘。相較之下，國產(chǎn)方案目前仍處于從“跑通”向“跑好”的關(guān)鍵跨越期。

盡管如此，國產(chǎn)IB在更高的端口密度、更低的整體組網(wǎng)成本以及更大的網(wǎng)絡(luò)規(guī)模擴(kuò)展能力已經(jīng)展現(xiàn)出明顯的優(yōu)勢。

更重要的是，由于scaleFabric擁有完整IP自主權(quán)，它能夠支持更加靈活的網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)。例如在自動(dòng)駕駛等對(duì)Checkpoint寫入頻率要求極高的訓(xùn)練場景中，系統(tǒng)可以定制化分配存儲(chǔ)I/O帶寬與計(jì)算同步帶寬。而在不少工程師眼中，這種“可定義網(wǎng)絡(luò)”的能力，正是國產(chǎn)高性能網(wǎng)絡(luò)在真實(shí)應(yīng)用中實(shí)現(xiàn)彎道超車的重要基礎(chǔ)。

重塑AI基座，國產(chǎn)IB路線的當(dāng)下與未來

當(dāng)我們把視線從具體的芯片參數(shù)移開，審視scaleFabric對(duì)于中國AI基礎(chǔ)設(shè)施的整體影響時(shí)，會(huì)發(fā)現(xiàn)其意義已經(jīng)超越了單一的產(chǎn)品范疇。

如果說幾年前行業(yè)談?wù)搰a(chǎn)化更多還停留在“有沒有替代方案”的階段，那么在萬卡級(jí)算力機(jī)房里，工程師們感受到的變化已經(jīng)逐漸從“替代”走向“重構(gòu)”。而當(dāng)網(wǎng)絡(luò)這條“算力大動(dòng)脈”從芯片、協(xié)議到管理軟件都掌握在自己手中時(shí)，很多原本被視為既定約束的系統(tǒng)邊界，也開始變成可以重新設(shè)計(jì)的變量。

例如，傳統(tǒng)InfiniBand單子網(wǎng)規(guī)模長期被認(rèn)為大約在五萬卡左右，工程師在設(shè)計(jì)集群時(shí)往往會(huì)在這一規(guī)模附近止步。而國產(chǎn)IB通過對(duì)地址編碼與路由體系的重新設(shè)計(jì)，將這一規(guī)模上限擴(kuò)展到了11萬卡級(jí)別。這個(gè)數(shù)字或許暫時(shí)不會(huì)馬上被完全用滿，但它釋放出的信號(hào)卻十分清晰，即未來在規(guī)劃區(qū)域級(jí)乃至跨中心AI集群時(shí)，網(wǎng)絡(luò)規(guī)模不再先天受限。

與此同時(shí)，這條技術(shù)路線也正在改變AI基礎(chǔ)設(shè)施的工程實(shí)踐方式。例如在已經(jīng)投入運(yùn)行的鄭州萬卡集群項(xiàng)目中，給不少業(yè)內(nèi)人士留下深刻印象的不只是算力規(guī)模，而是部署效率。從網(wǎng)絡(luò)設(shè)備進(jìn)場到萬卡規(guī)模訓(xùn)練任務(wù)真正跑起來，整個(gè)過程只用了大約30小時(shí)的時(shí)間，再配合自動(dòng)拓?fù)浒l(fā)現(xiàn)、集中版本管理、主動(dòng)壓測以及數(shù)字孿生可視化運(yùn)維體系，過去需要數(shù)周時(shí)間逐一校對(duì)鏈路、人工執(zhí)行壓測腳本的工作，如今已經(jīng)被壓縮成一套高度自動(dòng)化的流程。而這種“交付難度曲線被壓平”的變化，對(duì)于那些同時(shí)承擔(dān)多個(gè)算力項(xiàng)目卻長期面臨運(yùn)維人手不足的團(tuán)隊(duì)而言，意味著未來可以更加大膽地規(guī)劃多套萬卡甚至十萬卡級(jí)集群，而不必每次都擔(dān)心運(yùn)維復(fù)雜度失控。

至于更長遠(yuǎn)的影響，則體現(xiàn)在AI基礎(chǔ)設(shè)施整體形態(tài)的變化上。當(dāng)算力、存儲(chǔ)和網(wǎng)絡(luò)三大子系統(tǒng)逐步實(shí)現(xiàn)自主可控之后，工程師的想象空間不再局限于“按既有架構(gòu)堆接口”，而是能夠圍繞具體業(yè)務(wù)場景進(jìn)行更深層次的協(xié)同設(shè)計(jì)。例如在自動(dòng)駕駛數(shù)據(jù)訓(xùn)練中心，可以針對(duì)高頻Checkpoint和海量日志回傳，對(duì)計(jì)算、存儲(chǔ)與網(wǎng)絡(luò)進(jìn)行聯(lián)合調(diào)度；在科研和超算場景中，也可以為不同規(guī)模作業(yè)預(yù)配置Fabric網(wǎng)絡(luò)切片，讓網(wǎng)絡(luò)行為像操作系統(tǒng)資源調(diào)度一樣精細(xì)而可控。

值得一提的是，目前這些設(shè)想已經(jīng)在部分試點(diǎn)項(xiàng)目中開始出現(xiàn)，而國產(chǎn)IB所提供的可編程能力與開放接口，正是實(shí)現(xiàn)這種“算網(wǎng)一體化”探索的重要基礎(chǔ)。

最后，從更宏觀的產(chǎn)業(yè)視角來看，高速互聯(lián)網(wǎng)絡(luò)的自主能力不僅關(guān)系到單個(gè)數(shù)據(jù)中心的性能上限，也將影響未來全國算力資源如何進(jìn)行跨區(qū)域高效協(xié)同。而隨著多個(gè)國家算力樞紐和智算中心陸續(xù)落地，算力中心之間的互聯(lián)方式、協(xié)議體系以及運(yùn)維能力，都將在相當(dāng)長一段時(shí)間里影響大模型訓(xùn)練效率與AI應(yīng)用創(chuàng)新速度。

在上述背景下，國產(chǎn)IB路線的出現(xiàn)，某種意義上是在為未來十年的算力“高速公路網(wǎng)”鋪設(shè)路基。一方面，通過推動(dòng)行業(yè)標(biāo)準(zhǔn)與開放生態(tài)的形成，讓不同廠商的算力芯片、服務(wù)器與存儲(chǔ)系統(tǒng)能夠在統(tǒng)一互聯(lián)規(guī)范下協(xié)同演進(jìn)，避免整個(gè)產(chǎn)業(yè)長期受制于單一封閉協(xié)議體系；另一方面，也讓中國企業(yè)在參與國際技術(shù)標(biāo)準(zhǔn)討論時(shí)，手中不再只是理論方案，而是已經(jīng)在真實(shí)生產(chǎn)環(huán)境中運(yùn)行的大規(guī)模工程實(shí)踐。

寫在最后：過去，國內(nèi)AI基礎(chǔ)設(shè)施更多依賴國外技術(shù)體系，而隨著國產(chǎn)RDMA網(wǎng)絡(luò)、國產(chǎn)AI芯片以及國產(chǎn)并行存儲(chǔ)逐漸成熟，一套完整的國產(chǎn)算力基礎(chǔ)設(shè)施體系正在形成。需要說明的是，這種體系并不是簡單替代國外產(chǎn)品，而是在某些維度上形成新的技術(shù)路線。例如更大的網(wǎng)絡(luò)規(guī)模、更靈活的通信優(yōu)化機(jī)制以及更低的整體成本結(jié)構(gòu)，都為未來大規(guī)模AI訓(xùn)練提供了新的可能性。

展望未來，萬卡時(shí)代的基礎(chǔ)設(shè)施革命才剛剛開始，高速互聯(lián)網(wǎng)絡(luò)，很可能成為決定未來算力競爭格局的關(guān)鍵一環(huán)，而伴隨中科曙光下一代交換芯片的研發(fā)已在路上，我們正在通過scaleFabric這樣的實(shí)踐，定義出一套符合中國AI產(chǎn)業(yè)需求、具有韌性的技術(shù)標(biāo)準(zhǔn)。正如某架構(gòu)師所言：“我們現(xiàn)在做的事，不是簡單的復(fù)制，而是用我們自己的方式，去翻越那座名為‘算力巔峰’的高山。路可能不一樣，但我們終將到達(dá)相同的終點(diǎn)。”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.