337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

萬卡規模之后,什么才是AI集群的分水嶺?

0
分享至

在當今激烈的全球AI競賽之中,除了AI大模型的較量之外,AI基礎設施的競爭亦是核心焦點。

Gartner預測,到2026年,全球AI總支出將攀升至2.52萬億美元,其中構建 AI 基礎設施的支出增長率高達49%。當AI大模型參數量進化到萬億規模、算力集群規模攀升至萬卡乃至十萬卡,用戶“算力焦慮”與AI集群算力利用率(MFU)低下形成極為尖銳的供需矛盾時,如何提升AI基礎設施的協同效率就成為整個產業界亟待突破的一道“難題”。

而解決這道“難題”的本質在于提升數據在計算、存儲與網絡間流轉和處理效率,讓數據不斷突破極限跑得再快一些。為此,中科曙光發布首款全棧自研400G無損高速網絡--scaleFabric,同時結合超級隧道等技術,構筑起“存算傳一體化”緊耦合架構,為AI集群提供高效、安全、穩定的數據供給。

AI基礎設施步入強協同階段

近年來,AI基礎設施的發展脈絡逐漸有跡可循。自從AI大模型爆發,迅速帶動算力等AI基礎設施建設的興起。隨著最近幾年完成階段性的建設之后,AI基礎設施又迎來了一個新的關鍵階段:政府工作報告首次提出要發展超大規模智算集群等新基建,而如何將AI集群龐大的算力資源充分發揮出效能,從而滿足用戶迫切的需求和進一步推動AI發展,成為當下行業面臨的現實問題。

在曙光信息產業(北京)有限公司總裁助理、分布式存儲產品部總經理石靜看來,當前AI基礎設施在計算、存儲與網絡三個層面主要面臨著以下核心挑戰:

其一、AI集群的規模在持續擴張,在堆砌大量AI算力之后,算力效能成為制約整個AI發展的瓶頸所在。中國信息通信研究院報告顯示,大模型訓練的算力需求大約每3.5個月就會翻一番,這意味著萬卡級別甚至更大規模的AI集群未來會越來越多,且亟待充分釋放算力的能效。

其二、與數據密切相關的存儲,需要更好地匹配算力需求,充分協助算力將效能發揮出來。

其三、如果是算力是AI時代的內核、數據是倉庫,那么網絡就是脈絡。隨著AI集群規模持續增加,網絡層面的“通信墻”正在成為成為制約AI集群性能的突出挑戰,網絡性能是影響AI集群效率的關鍵變量。“AI集群的網絡性能越來越重要。現在很多新建集群,基本都過渡到400G網絡。”曙光信息產業(北京)有限公司scaleFabric產品經理縱瑞博介紹道。


事實上,中科曙光發布的國內首款原生無損RDMA高速網絡scaleFabric,即是針對當下AI集群愈發突出的網絡性能挑戰。據悉,scaleFabric面向超大規模智算集群設計,中科曙光從核心關鍵IP、芯片、網卡到交換機、驅動與管理軟件均實現自主研發,構建起scaleFabric從硬件到軟件的完整技術體系。

毫無疑問,隨著AI快速發展帶來對于性能的持續需求,除了局部突破性能瓶頸之外,AI基礎設施作為一個整體的重要性愈發關鍵,需要計算、存儲和網絡形成一體化、高效協同,“AI基礎設施步入緊耦合、強協同的新發展階段,只有這樣才能讓用戶的投資建設回報率最高。”石靜如是說。

算存傳一體化離不開這個法寶

如果說scaleFabric相當于將數據中心網絡從國道升級到超級高速公路,那么曙光分布式存儲“超級隧道”技術則賦予了這條高速公路的智能化調度能力,可以根據AI集群的不同IO類型來設計路線,設計出一條條專屬數據通道,讓數據沿最優路徑高速流動,有效減少網絡擁堵和資源競爭,從而串聯起計算、存儲與網絡,實現AI基礎設施的一體化和高效協同。

事實上,AI對于數據存儲有著高性能、高帶寬、低時延的顯著需求。此外AI的預訓練、推理等不同工作負載的IO特征又有著明顯差異。例如,在預訓練階段的數據加載,需要短時間完成海量數據的順序讀取;訓練階段的Checkpoint則需要大量的并發讀寫;而越來越多的推理任務,則對于小IO的隨機吞吐要求更高……

因此,“超級隧道”技術的設計思路在當前很有必要。那么,曙光存儲是如何實現“超級隧道”技術,并且讓其與自研RDMA高速網絡scaleFabric深度適配、協同工作的?

石靜介紹,“超級隧道”技術在硬件層面為各數據域配置獨享的RDMA網絡連接和PCIe通道,并通過NUMA親和性優化資源分配;在軟件層面實現線程、內存與存儲資源的綁定調度;同時通過軟硬件協同優化設計,來實現數據高速流動最優化路徑,從而實現計算、存儲與網絡的一體化,并持續為AI計算提供穩定的數據負載支撐。

具體來看,“超級隧道”技術充分利用了RDMA高速網絡的高性能和低延時的特點,利用獨有的虛擬網卡技術虛擬出多個小網卡,既實現了不同數據的鏈路均衡保障,又讓資源得到隔離,使得不同數據鏈路之間互不干擾和爭搶資源。


傳統做法是針對計算、存儲與網絡之間每一筆聯接都先分配好內存等資源,這種模式不夠靈活,一旦AI集群規模提升、業務應用快速增長,尤其是當前智能體涌現趨勢下,推理業務呈現出爆炸性態勢,海量的數據聯接很容易耗盡寶貴的基礎設施資源,并形成性能瓶頸。

“超級隧道”技術賦予了數據傳輸的動態化和智能化。在確保基本服務啟動的情況,“超級隧道”技術為每一個聯接靈活分配資源,既能夠快速確保每一個聯接啟動起來,還能根據聯接流量大小變化來動態分配內存等資源,確保了整個數據中心數據流轉與傳輸的高效。

在石靜看來,“超級隧道”技術這項法寶之所以能夠在存算傳一體化中發揮重要作用,得益于中科曙光堅持多年的全棧自研戰略,在硬件層基于國產化組件構建,在軟件層面擁有完整源代碼,實現基礎架構與軟件棧的全面自主可控,為存算傳高效協同提供了堅實基礎,完美支撐起AI工作負載的需求。

實戰驗證,讓數據跑得更快

技術在紙面上的優美,終究需要在AI現實世界繁雜業務中經過洗禮。

今年2月在國家超算互聯網核心節點,3套scaleX 萬卡超集群同時上線試運行,成為了中國首個實際投運的最大國產 AI 算力池,這正是中科曙光存算傳一體化緊耦合、強協同架構的最佳證言。

據悉,憑借原生RDMA網絡的零門檻部署優勢,這3套scaleX萬卡集群從交換機上電到應用上線,僅用時36小時。超集群已經歷近1年的穩定測試,服務作業逾10萬個,性能、擴展性和穩定性均經受了考驗。


實際應用中,超集群依托RDMA高速網絡+超級隧道技術,各類應用均獲得了效能的大幅提升。例如,助力某氣象模擬客戶將應用性能提升達到2倍左右、支撐國內頂級科研團隊將蛋白質研究效率提升3-6個數量級等。

此外,國內主流大模型廠商也在scaleX 集群中驗證了RDMA高速網絡+超級隧道技術的優勢,其預訓練的數據準備、訓練階段的Checkpoint以及推理等AI全鏈路環節均實現了高性能支撐。“一套存儲即支撐起該客戶訓推場景的全業務流。”石靜補充道。

無疑,RDMA高速網絡+超級隧道技術對于對多樣化工作負載的兼容和支撐能力,未來將會為“算存傳一體化”架構帶來更加廣闊的應用前景。

綜合觀察

未來的數據中心,將是一個以數據為中心、計算、存儲、網絡深度融合的有機體。只有消除數據流動的一切障礙,才能將算力的價值最大化。

在 scaleFabric 發布之前,中國在高性能網絡領域幾乎是一片空白。廣大客戶只能在性能卓越但封閉的國外方案與兼容性好但時延較高的傳統以太網方案之間艱難權衡 。

如今,曙光分布式存儲超級隧道技術與scaleFabric緊密結合,補齊了國產AI 基礎設施版圖上的最后一塊拼圖,構建起AI基礎設施領域完整的國產化技術閉環,推動著中國人工智能產業向著更深邃、更遼闊的星辰大海進發。

大數據在線是聚焦人工智能、大數據、云計算等前沿科技領域深度觀察的深度媒體。目前,大數據在線在微信公眾號、今日頭條號、新浪財經、36氪、雪球號、觀察號等主流自媒體平臺均有入駐,積累粉絲超過20W;并榮獲今日頭條十大科技新銳媒體、商業新知十大人工智能媒體等多項殊榮。商務聯系請添加微信:Owen_Inter,添加請備注具體信息。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

中國游客到朝鮮游玩,朝鮮人充滿疑問:為什么中國人是這樣的?

蜉蝣說
2026-03-28 18:26:48
軍統中統屢滲延安屢敗,戴笠坦言:因毛澤東身邊有位紅色福爾摩斯

軍統中統屢滲延安屢敗,戴笠坦言:因毛澤東身邊有位紅色福爾摩斯

嘮叨說歷史
2026-03-03 11:55:40
愛情觀念,本質上是忽悠男人的!

愛情觀念,本質上是忽悠男人的!

賴煥慶
2026-03-09 11:00:10
杜琪峰都捧不紅,努力18年,新片上映6天只賣了91萬

杜琪峰都捧不紅,努力18年,新片上映6天只賣了91萬

光影新天地
2026-03-30 18:18:04
承諾有學校幼兒園3年后交房沒建,就近上學需往返十幾公里 ,業主以虛假宣傳起訴開發商被駁回

承諾有學校幼兒園3年后交房沒建,就近上學需往返十幾公里 ,業主以虛假宣傳起訴開發商被駁回

大風新聞
2026-03-30 16:17:04
東京爆發大規模反戰游行 抗議民眾批評高市政府并呼吁和平

東京爆發大規模反戰游行 抗議民眾批評高市政府并呼吁和平

中國網
2026-03-30 14:54:12
浙江一公路自行車賽發生大面積摔車事件,組委會醫療聯系人:擦傷撞傷人數確實多,但僅極個別送醫

浙江一公路自行車賽發生大面積摔車事件,組委會醫療聯系人:擦傷撞傷人數確實多,但僅極個別送醫

極目新聞
2026-03-30 17:14:00
揭秘亞洲最窮國:當地女性驚人開放,游客秒變土豪,無不想去定居

揭秘亞洲最窮國:當地女性驚人開放,游客秒變土豪,無不想去定居

世界圈
2026-03-31 00:05:11
開拓者官方:正式從G聯盟混音隊召回中國球員楊瀚森

開拓者官方:正式從G聯盟混音隊召回中國球員楊瀚森

北青網-北京青年報
2026-03-30 07:58:04
天然氣即將斷供,臺灣快堅持不下去,賴清德擺爛,統一是唯一選擇

天然氣即將斷供,臺灣快堅持不下去,賴清德擺爛,統一是唯一選擇

凡知
2026-03-30 22:21:02
德國外長:臺海有事就是德國有事,我們不能允許暴力改變臺海現狀

德國外長:臺海有事就是德國有事,我們不能允許暴力改變臺海現狀

破鏡難圓
2026-03-31 05:55:03
網約車司機花1200元把車改成“頭等艙”,收到6000元打賞

網約車司機花1200元把車改成“頭等艙”,收到6000元打賞

用車指南
2026-03-29 10:01:32
越鬧越大!單依純“遮羞布”被戳穿,再迎三大噩耗,李健早就提醒

越鬧越大!單依純“遮羞布”被戳穿,再迎三大噩耗,李健早就提醒

奇怪的鯊魚們
2026-03-30 19:29:03
悲催!滴滴司機車內張貼求職廣告,知名本科畢業,稱愿做良駒牛馬

悲催!滴滴司機車內張貼求職廣告,知名本科畢業,稱愿做良駒牛馬

火山詩話
2026-03-30 06:25:28
張水華成最受地方文旅歡迎跑者,寶清馬拉松提前兩個月官宣她參賽

張水華成最受地方文旅歡迎跑者,寶清馬拉松提前兩個月官宣她參賽

楊華評論
2026-03-30 22:01:44
戶外一姐唐藝驚現意外走光,粉絲為何越看越上頭?

戶外一姐唐藝驚現意外走光,粉絲為何越看越上頭?

娛樂領航家
2026-03-12 22:00:04
程愫沒想到,背叛自己的前夫傅程鵬,如今將周麗淇養的越來越漂亮

程愫沒想到,背叛自己的前夫傅程鵬,如今將周麗淇養的越來越漂亮

攬星河的筆記
2026-03-30 17:06:14
美軍方證實:300多名美軍士兵在對伊作戰中受傷

美軍方證實:300多名美軍士兵在對伊作戰中受傷

參考消息
2026-03-28 16:10:18
全球首家資產破50萬億的銀行,在海南蓋新樓,才99米高?

全球首家資產破50萬億的銀行,在海南蓋新樓,才99米高?

GA環球建筑
2026-03-30 14:29:29
臺灣地區,長期阻礙中國統一就是馬英九。這個人非常之狡猾!

臺灣地區,長期阻礙中國統一就是馬英九。這個人非常之狡猾!

安安說
2026-03-28 11:40:47
2026-03-31 07:15:00
dobigdata incentive-icons
dobigdata
科技推動商業
770文章數 304關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

白宮:特朗普希望4月6日前與伊朗達成協議

頭條要聞

白宮:特朗普希望4月6日前與伊朗達成協議

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

手機
教育
房產
游戲
公開課

手機要聞

曝蘋果影像測試的新Sensor基本確定1/1.12",超廣角也考慮增強

教育要聞

我為什么對張雪峰老師推崇備至?

房產要聞

重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

突發!Xbox發布會官宣 還有第一方游戲專場

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版