在數字化與智能化浪潮的驅動下,AI 正成為推動科研進步與產業升級的核心引擎。無論是氣象模擬、海洋研究,還是醫藥研發、工業設計,算力已逐漸演變為關鍵資源,而智算中心則成為這一進程的重要承載平臺。
在此背景下,北京正陽恒卓科技有限公司(以下簡稱“正陽恒卓”)依托 NVIDIA 全棧式解決方案,為某超大型智算中心規劃并交付了1000PFlops@FP16規模的算力集群。項目以 NVIDIA H800 Tensor Core GPU 作為核心算力引擎,結合 NVIDIA Quantum InfiniBand 高速網絡與 NVIDIA UFM? 統一架構管理平臺,構建起覆蓋硬件基礎設施、軟件系統與運維服務的全生命周期方案。該超大型智算中心實現了計算、存儲與網絡資源的高效協同,在跨機房部署等復雜場景下依然能夠保障系統的穩定性與可擴展性,最終將算力密度提升至行業領先水平。
超大規模智算集群建設挑戰
該超大型智算中心項目在規劃與實施階段面臨三重核心挑戰:
其一,網絡架構的極致性能需求。由于該超算中心面向氣候模擬、藥物研發等需要大規模并行計算與海量數據交互的前沿任務,網絡架構必須滿足極致的性能需求,計算網絡需實現 400Gbps 節點間通信,存儲網絡需達到 200Gbps 帶寬,同時整體延遲需控制在亞微秒級別,這對網絡拓撲設計與硬件選型提出嚴苛要求。
其二,大規模部署的物理限制。與以往同等規模項目通常需要 6-12 個月的建設周期相比,該項目必須在 3 個月內完成跨 A、B 兩個機房的硬件集成,其中計算服務器位于 A 機房,存儲與安全設備部署于 B 機房,存儲網絡的跨機房布線需克服 200G AOC 線纜 100 米的傳輸距離限制。
其三,現場施工的適應性調整,原設計采用上走線方案,但實際機房為下走線布局,導致線槽操作空間狹窄、焊接式設計穿線困難,工人需在無法站立行走的環境中作業,直接影響施工進度與質量。
系統性構建高效可靠的 AI 算力集群
面對上述挑戰,正陽恒卓基于其在智算中心建設領域的豐富經驗,提出了一系列創新性解決方案。
●高速互連:借助 NVIDIA InfiniBand 構建高效、低延遲的網絡架構
NVIDIA Quantum InfiniBand 是全球唯一完全硬件卸載的網絡計算平臺,具備卓越的數據吞吐量和端口密度,并支持網絡自愈、增強服務質量 (QoS)、擁塞控制和動態路由等特性,使數據中心能夠以更低的成本和復雜性實現出色性能和更高的總體應用程序吞吐量。
在網絡架構設計上,正陽恒卓采用了NVIDIA Quantum QM9790 NDR 400G InfiniBand 交換機作為核心交換設備,構建了無阻塞胖樹組網架構(包含 8 臺 Spine 交換機和 16 臺 Leaf 交換機)(見下圖)。這種架構保證了任意節點間的數據傳輸路徑始終等價,避免了網絡擁塞和帶寬瓶頸,從而實現超低延遲和超高吞吐量,支撐現代工作負載在性能加速、可擴展性和功能豐富性方面的需求。
![]()
NVIDIA Quantum QM9790 NDR 400G InfiniBand 交換機
同時,部署了 1000 多條 400G MPO 線纜確保高速連接,總長度達 20 公里,通過精細化的機柜空間規劃和布線路徑設計,實現了高密度互連與穩定的高速傳輸,有效保障了大規模集群的高效運行。
![]()
某大型智算中心網絡架構設計
存儲網絡方面,采用NVIDIA Quantum QM8790 HDR 200G InfiniBand 交換機作為核心設備,構建了 Spine-Leaf 架構(10 臺 Spine 和 11 臺 Leaf)(見下圖),使用 400 多條 200G AOC 線纜進行連接,這一架構不僅保證了存儲節點之間的多路徑并行訪問能力,顯著提升了 I/O 并發處理效率,還能在大規模并發讀寫時保持穩定的低延遲表現。
![]()
NVIDIA Quantum QM8790 HDR 200G InfiniBand 交換機
此外,NVIDIA InfiniBand 的 SHARP? 技術可卸載聚合通信運算、減少數據傳輸量并縮短消息傳遞時間;網絡自愈功能能快速應對鏈路故障,實現遠超軟件方案的恢復速度;成熟的服務質量機制提供高級擁塞控制和動態路由;并支持多種網絡拓撲及優化路由算法,從而進一步提升整體數據中心的吞吐效率和穩定性。
由此,整體系統在實際運行中實現了 1TB/s 級別的數據流動,為大數據分析、AI 訓練和科學計算工作負載提供了極高的存儲吞吐能力。
![]()
某大型智算中心存儲網絡架構
●復雜部署環境中的施工優化與調整
為解決跨機房布線難題,正陽恒卓團隊需要克服 200G AOC 線纜最長 100 米的物理傳輸限制,而計算與存儲設備分屬 A、B 兩個機房,距離接近極限。如果交換機位置稍有偏差,就可能導致線纜超長、信號衰減甚至無法部署。針對這一困難,項目團隊通過精確測量機房間距與設備位置,反復推演布線方案,最終合理規劃交換機安裝位置,確保所有跨機房連接線纜連接都嚴格控制在 100 米限制內。同時,跨機房 AOC 線纜采用了特殊保護套管,防止線纜受損,并在關鍵路徑部署了冗余連接,保證了整體網絡的穩定性和安全性。
高壓之下,項目團隊在僅有不到 1 周時間內完成了走線方案的全面重新設計,制定了精確到機柜和管槽的的下走線規劃圖,并通過線纜長度自動計算工具快速生成并更新了上千條線纜的采購清單。這一過程不僅需要工程師對現場環境進行反復測量和建模,還要在極短時間內完成從設計到采購的全鏈條閉環。為保障進度,正陽恒卓同步優化了施工計劃與人員安排,將原本順序式的施工轉為多工序并行,增派數十名工程人員分批次開展布線作業,確保在擁擠、工人無法站立的機柜底部空間中依然能夠有序推進。對于不合理的焊接式線槽,項目團隊還協調相關方拆除并重新設計為卡扣式線槽,大幅提高了穿線效率,最終在緊迫工期內完成了高密度布線任務。
●NVIDIA UFM 平臺賦能智算中心的智能化運維
在軟件與管理層面,正陽恒卓為該超大型智算中心引入了NVIDIA UFM 平臺,這一平臺能夠實時監控網絡的性能與健康狀態,提供自動化故障診斷與報警,以及流量分析與優化建議。NVIDIA UFM 平臺將增強的實時網絡遙測與 AI 驅動的網絡智能和分析相結合,為 InfiniBand 高性能數據中心網絡的高效調配、監控、管理和預防性故障排除提供了強大支持。
![]()
打造科學計算平臺,支撐多領域科研突破
通過正陽恒卓專業的技術方案和高效的落地實施,該智算中心項目在 NVIDIA 網絡解決方案的賦能下取得了顯著成果。
通過精準的網絡架構設計與優化部署,該超大型智算中心實現了穩定、高效的集群互連。這不僅充分發揮了 NVIDIA InfiniBand 網絡技術的潛力,還確保大規模分布式訓練能夠順利進行,實現了規模擴展和硬件升級帶來的性能提升。
系統穩定運行表現同樣令人印象深刻,項目交付后持續穩定運行,實現了網絡零宕機的優秀記錄。這得益于 NVIDIA UFM 監控系統能夠提前發現潛在問題,避免故障發生。
在支持科研突破方面,該智算中心已經為多個大型科研項目提供了強大算力支持,加速了 AI 產業發展與數字化轉型,包括:
●氣象領域:參與精細化氣象預報,提高了天氣預報的準確性和時效性;
●海洋科學:與高校合作開展海洋環境模擬,支持海洋生態系統研究和氣候變化分析;
●醫藥研發:加速新藥分子篩選與蛋白質結構解析,縮短藥物研發周期;
●工業領域:支持重工領域在高端裝備制造中的仿真設計,大幅降低研發成本;
●大型科技項目:支撐大飛機、深空探測等大型科技項目的計算需求。
AI 基礎設施建設是一個系統工程,需要從硬件到軟件進行全面系統性開發,并將具備穩定性和高效性的技術進行封裝,對用戶盡可能透明。正陽恒卓通過這一項目,展示了高性能、高穩定性如何成為智算中心的基本能力和發展趨勢。
構建智算生態新格局
這一超大型智算中心項目的成功,不僅推動了科研與產業的融合發展,也為智算建設積累了寶貴經驗。正陽恒卓計劃將該項目的成功實踐推廣至更多大型智算中心,并與高校共建聯合實驗室,培養新一代科學計算人才。
作為 NVIDIA 網絡產品精英級合作伙伴,未來,正陽恒卓致力于將領先的智算中心網絡解決方案應用于各行各業,助力更多行業實現智能化轉型與升級,探索智算中心在智慧城市、生命科學、工業互聯網等更多應用場景中的潛力
*與 NVIDIA 產品相關的圖片或視頻(完整或部分)的版權均歸 NVIDIA Corporation 所有。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.