《科創(chuàng)板日報(bào)》4月6日訊(記者 黃心怡)走進(jìn)位于上海松江的儀電智算中心,機(jī)房內(nèi)風(fēng)扇轟鳴不止,上萬張GPU設(shè)備整齊排列,與縱橫交錯(cuò)的高速網(wǎng)絡(luò)線纜共同編織出一張龐大的算力網(wǎng)絡(luò)。每張芯片每秒可執(zhí)行數(shù)十萬億次運(yùn)算,它們兩天匯聚的計(jì)算能量,相當(dāng)于三峽水電站一臺機(jī)組一小時(shí)的發(fā)電量。
算力是AI發(fā)展的根基,而要讓上萬張GPU卡高效協(xié)同為一個(gè)集群運(yùn)轉(zhuǎn),絕非易事。《科創(chuàng)板日報(bào)》記者了解到,目前上海儀電旗下智算科技團(tuán)隊(duì)已成功實(shí)現(xiàn)集群99.99%的超高可用性,相當(dāng)于全年總故障時(shí)間縮短至1小時(shí)內(nèi)。
《科創(chuàng)板日報(bào)》記者獲悉,該萬卡集群已適配多種國產(chǎn)算力卡,具備多元異構(gòu)算力的融合與優(yōu)化調(diào)度能力。
▍萬卡級GPU集群穩(wěn)定運(yùn)行
2023年,上海儀電成立智算科技,牽頭布局“萬卡集群”,搭建智算云平臺和公共服務(wù)體系。
算力集群不僅是加速卡的堆疊,還需要復(fù)雜的高速網(wǎng)絡(luò)和強(qiáng)大的調(diào)度軟件,它與AI大模型的關(guān)系好比“電與發(fā)電機(jī)”。“要讓接近萬卡算力的芯片配上高效的通訊網(wǎng)絡(luò),再結(jié)合相應(yīng)的存儲設(shè)備,能夠像一臺電腦這樣,成為一個(gè)集群整體高效運(yùn)轉(zhuǎn),難度相當(dāng)大。”智算科技董事長、總經(jīng)理孫躍坦言,“而更難的是,這1萬張卡組成的集群,還要7×24小時(shí)不間斷地提供算力服務(wù)。”
據(jù)了解,AI算力底座中算力芯片的故障率遠(yuǎn)超傳統(tǒng)的IT設(shè)備。而在大模型訓(xùn)練時(shí),哪怕僅僅1分鐘的算力中斷,都可能會造成幾十個(gè)小時(shí)的訓(xùn)練結(jié)果損失。調(diào)度萬卡,就像是讓上萬架無人機(jī)在密集的空中高速穿梭,每張芯片都容不得一毫米的誤差。
面對萬卡級GPU集群穩(wěn)定運(yùn)行難的痛點(diǎn),智算科技這支平均年齡僅32歲的“夢之隊(duì)”爆發(fā)出極強(qiáng)的戰(zhàn)斗力。團(tuán)隊(duì)曾連續(xù)79天吃住在機(jī)房駐守,為了0.1%的性能提升每天熬紅雙眼反復(fù)打磨代碼,開展算法攻堅(jiān)。面對緊急任務(wù),他們打破常規(guī),將線性流程優(yōu)化為“并行施工+邊測邊調(diào)”,搶占每一秒進(jìn)度。
據(jù)悉,團(tuán)隊(duì)成功實(shí)現(xiàn)了集群99.99%的超高可用性,相當(dāng)于全年總故障時(shí)間縮短至1小時(shí)內(nèi),這有力支撐了某大模型公司等多模態(tài)大模型領(lǐng)先全球的訓(xùn)練,成功避免了算力中斷可能造成的巨大損失。
▍融合異構(gòu)芯片 把國產(chǎn)算力用起來
據(jù)了解,智算科技萬卡集群已成功適配多種國產(chǎn)算力卡,實(shí)現(xiàn)了多元異構(gòu)算力的融合與優(yōu)化調(diào)度。孫躍介紹,在很多任務(wù)中,國產(chǎn)設(shè)備發(fā)揮了至關(guān)重要的作用。
“不同業(yè)務(wù)、不同行業(yè)對芯片的需求各不相同,而各類國產(chǎn)算力芯片在細(xì)分領(lǐng)域也各具優(yōu)勢。通過異構(gòu)算力的融合,我們把國產(chǎn)算力真正用了起來,可以在同一底座、同一云平臺的基礎(chǔ)上,更好地滿足不同垂類客戶對算力基礎(chǔ)設(shè)施的差異化需求,進(jìn)一步發(fā)揮國產(chǎn)軟硬件基礎(chǔ)設(shè)施的潛力。”
![]()
目前,智算科技萬卡集群的使用率已接近100%,基本實(shí)現(xiàn)建成即滿負(fù)荷運(yùn)轉(zhuǎn)。在某新型科研機(jī)構(gòu)項(xiàng)目中,團(tuán)隊(duì)僅用一周便完成近千卡集群的建設(shè)與交付,跑出行業(yè)領(lǐng)先速度,隨后又成功部署萬卡集群算力,有力保障國家重點(diǎn)科研任務(wù)的推進(jìn)。截至目前,已具備萬卡規(guī)模高性能算力集群的部署與交付能力。
智算科技還首創(chuàng)“動(dòng)態(tài)感知調(diào)度方案”,使訓(xùn)練效率飆升91%,每年為國家節(jié)省的算力成本相當(dāng)于新建3個(gè)數(shù)據(jù)中心,實(shí)現(xiàn)了混合架構(gòu)萬卡集群調(diào)度技術(shù)的自主可控。
今年全國兩會上,“算電協(xié)同”首次被寫入政府工作報(bào)告,成為國家級戰(zhàn)略性新基建工程。智算科技也在這一領(lǐng)域積極開展探索。
孫躍透露,“在基礎(chǔ)設(shè)施和機(jī)房建設(shè)過程中間,我們進(jìn)一步擴(kuò)大對綠電的使用比例,并通過液冷集群,提高整個(gè)能源的使用效率,降低PUE值。另一方面,我們也在和上下游的合作伙伴進(jìn)行探索。比如,結(jié)合淞滬地區(qū)海上風(fēng)電資源,實(shí)現(xiàn)風(fēng)電直接驅(qū)動(dòng)的海底數(shù)據(jù)中心,從而來降低算力成本,也是當(dāng)前開展的算電協(xié)同的重要嘗試。”
▍推動(dòng)國產(chǎn)算力生態(tài)協(xié)同
當(dāng)前,新一代人工智能快速發(fā)展,算力需求持續(xù)激增。“越來越多的算力不僅滲透到千行百業(yè),甚至開始走進(jìn)千家萬戶。從近期備受關(guān)注的AI Agent、智能體工作流到OpenClow等,發(fā)展速度往往超出想象。這不是一個(gè)線性的過程,而是階躍式演進(jìn),未來雖難以準(zhǔn)確描述其具體目標(biāo),但發(fā)展的節(jié)奏只會越來越快。”孫躍稱。
談及未來規(guī)劃,孫躍表示,一方面要提高算力基礎(chǔ)設(shè)施的建設(shè)效率,以及萬卡集群的使用效率,這是在基礎(chǔ)設(shè)施側(cè)需要重點(diǎn)攻關(guān)的方向。
另一方面,上海儀電將打造開放、靈活、彈性的智算云服務(wù)平臺。“去年在世界人工智能大會上,我們發(fā)布了智算平臺YI CLOUD,旨在面向各類不同領(lǐng)域的用戶,提供更普惠、更便捷的算力服務(wù)。這種算力服務(wù)依托于智算云,提供的不僅是算力,還包括行業(yè)所需的語料、模型、智能體等能力的適配,幫助用戶在單一垂直領(lǐng)域更高效地使用算力。”孫躍稱。
此外,上海儀電還在生態(tài)建設(shè)上發(fā)力。
“作為一家平臺型的鏈主企業(yè),上海儀電希望發(fā)揮生態(tài)鏈接的作用,牽引產(chǎn)業(yè)鏈上下游軟硬件廠商,包括GPU企業(yè)、網(wǎng)絡(luò)通訊、模型企業(yè)、智能體企業(yè)等,帶動(dòng)合作伙伴實(shí)現(xiàn)國產(chǎn)算力生態(tài)協(xié)同的創(chuàng)新方案,以賦能國產(chǎn)大模型以及相關(guān)AI+應(yīng)用,這是我們未來發(fā)展的另一重點(diǎn)。”孫躍表示。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.