網(wǎng)易數(shù)碼訊 3月29日消息,在上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)主辦的第二屆浦江AI學(xué)術(shù)年會(huì)期間,其DeepLink團(tuán)隊(duì)正式發(fā)布了《超節(jié)點(diǎn)技術(shù)體系白皮書》。該白皮書旨在系統(tǒng)性解決超節(jié)點(diǎn)規(guī)模化落地中面臨的異構(gòu)協(xié)同難、跨域調(diào)度效率低、工程化部署復(fù)雜等核心痛點(diǎn),為產(chǎn)業(yè)實(shí)踐提供了重要的理論指導(dǎo)。此次發(fā)布匯聚了來(lái)自8所頂尖高校與16家核心產(chǎn)業(yè)伙伴的共識(shí),覆蓋芯片研發(fā)、算力部署、軟件適配到行業(yè)應(yīng)用的全產(chǎn)業(yè)鏈環(huán)節(jié)。
![]()
隨著芯片制程工藝逼近物理極限,單純依賴單芯片性能提升已難以滿足AI大模型訓(xùn)練、推理及智能體應(yīng)用爆發(fā)的指數(shù)級(jí)算力需求。超節(jié)點(diǎn)技術(shù)通過(guò)超高帶寬、超低延遲的芯片間互聯(lián),將數(shù)十乃至上百顆計(jì)算芯片整合為邏輯統(tǒng)一的“超級(jí)計(jì)算單元”,成為突破算力瓶頸的關(guān)鍵路徑。其戰(zhàn)略價(jià)值對(duì)我國(guó)人工智能發(fā)展至關(guān)重要。
![]()
目前,產(chǎn)業(yè)界已涌現(xiàn)多種超節(jié)點(diǎn)方案,例如中科曙光的scaleX系列、沐曦科技的耀龍3D Mesh、阿里云的磐久AL128服務(wù)器以及新華三的H3C UniPoD S80000等。這標(biāo)志著算力競(jìng)爭(zhēng)正從單一的芯片性能比拼,轉(zhuǎn)向由互聯(lián)、整機(jī)、軟件及系統(tǒng)可靠性(RAS)等多變量協(xié)同決定的系統(tǒng)效能交付能力競(jìng)爭(zhēng)。
當(dāng)前超節(jié)點(diǎn)領(lǐng)域的產(chǎn)品百花齊放,其本質(zhì)是一場(chǎng)關(guān)于未來(lái)技術(shù)生態(tài)主導(dǎo)權(quán)的戰(zhàn)略博弈。在技術(shù)路線尚未收斂的窗口期,誰(shuí)能率先構(gòu)建完善的“芯片+互聯(lián)+軟件”系統(tǒng)級(jí)生態(tài),誰(shuí)便有望確立事實(shí)標(biāo)準(zhǔn)。這種生態(tài)將產(chǎn)生強(qiáng)大的“鎖定效應(yīng)”,因?yàn)榭蛻粢坏┎捎茫鋸牡讓诱{(diào)度到上層應(yīng)用都會(huì)深度綁定。
![]()
然而,生態(tài)割裂也帶來(lái)挑戰(zhàn)。若各家軟件棧互不兼容,開發(fā)者將面臨重復(fù)開發(fā)的負(fù)擔(dān),阻礙AI應(yīng)用的跨平臺(tái)部署與生態(tài)共享。產(chǎn)業(yè)界已清醒認(rèn)識(shí)到,彌補(bǔ)單芯片增速與系統(tǒng)需求增速之間的“結(jié)構(gòu)性缺口”,必須依靠全產(chǎn)業(yè)鏈的開放協(xié)同。封閉的技術(shù)棧將導(dǎo)致生態(tài)脆弱、代際迭代負(fù)擔(dān)沉重,具體挑戰(zhàn)包括互聯(lián)層原生訪存語(yǔ)義的缺失、機(jī)柜級(jí)工程設(shè)計(jì)的復(fù)雜性,以及缺乏行業(yè)公認(rèn)的評(píng)價(jià)框架。
為應(yīng)對(duì)上述挑戰(zhàn),推動(dòng)形成行業(yè)共同語(yǔ)言與分析框架,上海AI實(shí)驗(yàn)室聯(lián)合產(chǎn)學(xué)界共同撰寫了此份白皮書。白皮書采用“學(xué)術(shù)主導(dǎo)編輯、產(chǎn)業(yè)分域貢獻(xiàn)”機(jī)制,由實(shí)驗(yàn)室與高校負(fù)責(zé)框架設(shè)計(jì)與審校,沐曦科技、天數(shù)智芯、奇異摩爾、盛科通信、階躍星辰等企業(yè)則分別貢獻(xiàn)了芯片架構(gòu)、互聯(lián)協(xié)議、系統(tǒng)需求等方面的實(shí)踐經(jīng)驗(yàn),確保其成為行業(yè)公共知識(shí)產(chǎn)品,而非單一廠商的技術(shù)主張。
例如,奇異摩爾作為AI互聯(lián)領(lǐng)域的創(chuàng)新者,將其KiwiG2G IOD通用IO芯粒方案在應(yīng)對(duì)超節(jié)點(diǎn)Scale-Up互聯(lián)挑戰(zhàn)中的工程實(shí)踐經(jīng)驗(yàn)融入白皮書。該方案支持2TB級(jí)帶寬與靈活拓?fù)洌瑸楦咝Щヂ?lián)提供了支撐。
上海AI實(shí)驗(yàn)室為超節(jié)點(diǎn)生態(tài)規(guī)劃了“認(rèn)知-評(píng)價(jià)-驗(yàn)證-標(biāo)準(zhǔn)”的清晰路徑。本次白皮書解決了第一步,即建立系統(tǒng)級(jí)分析框架與共同語(yǔ)言。下一步將推動(dòng)“超節(jié)點(diǎn)能力指數(shù)”落地,將多維評(píng)價(jià)框架轉(zhuǎn)化為可度量、可比較的評(píng)測(cè)方法。長(zhǎng)期目標(biāo)是逐步沉淀出一組關(guān)鍵接口標(biāo)準(zhǔn)與協(xié)同規(guī)范,并通過(guò)開源(白皮書已在GitHub開源)共建的方式,構(gòu)建一套行業(yè)可持續(xù)使用的公共基礎(chǔ)設(shè)施。
除理論指導(dǎo)外,上海AI實(shí)驗(yàn)室的DeepLink混訓(xùn)混推平臺(tái)正從軟件層面為超節(jié)點(diǎn)生態(tài)提供關(guān)鍵支撐。該平臺(tái)通過(guò)統(tǒng)一通信協(xié)議、高效調(diào)度算法與標(biāo)準(zhǔn)化算子接口,扮演了超節(jié)點(diǎn)的“操作系統(tǒng)”角色,實(shí)現(xiàn)了“一次適配,全生態(tài)可用”,大幅縮短了芯片從流片到應(yīng)用的周期。其跨域異構(gòu)調(diào)度能力使行業(yè)在計(jì)算資源有限的情況下,能靈活組合不同性能芯片,降低對(duì)特定硬件的路徑依賴,有效破解算力碎片化難題,助推全國(guó)算力“一盤棋”的布局。
未來(lái),上海AI實(shí)驗(yàn)室將持續(xù)深化技術(shù)創(chuàng)新,完善DeepLink技術(shù)體系,為優(yōu)化全國(guó)算力資源配置、發(fā)展新質(zhì)生產(chǎn)力注入強(qiáng)勁動(dòng)能。
