隨著以AI開發和應用為主的智算中心成為中國新基建底座成為政府相關部門及業內的共識,其布局和建設也開始逐漸步入快車道。這之中,既有傳統的ICT企業,也不乏新興的AI初創企業。接下來的是,智算中心如何才能在保證效率的同時,快速發展。
![]()
AI多樣化挑戰,智算需要異構計算力
眾所周知,對整個 AI 行業來講,算法、數據和算力三大基本要素中,數據尤其是海量數據的獲取和處理難度在下降,算法也在深度學習模型的基礎上不斷優化,而負責將數據和深度算法統一協調起來的芯片(決定算力)能否獲得大的飛躍,成為市場關注的焦點。
熟悉AI的業內知道,深度學習算法對芯片性能需求主要表現在以下三個方面。
首先是海量數據在計算和存儲單元之間的高速通信需求。這不但需要芯片具備強大的緩存和片上存儲能力,而且還需要計算和存儲單元之間有較大的通信帶寬;其次是專用計算能力需求高。深度學習算法中有大量卷積、殘差網絡、全連接等特殊計算需要處理,還需要提升運算速度,降低功耗;最后是海量數據自身處理同樣也對芯片提出了新的要求,尤其是非結構化數據的增多,對傳統芯片結構造成了較大的壓力。
![]()
以深度學習為例,CPU雖可用,但效率較低。比如在圖像處理領域,主要用到的是 CNN(卷積神經網絡),在自然語言識別、語音處理等領域,主要用到的是 RNN(循環神經網絡),雖然這兩種算法模型有著較大的區別,但本質上都是向量和矩陣運算,主要是加法和乘法,輔助一些除法和指數運算。傳統 CPU 可用于做上述運算,但是CPU 還有大量的計算邏輯控制單元,這些單元在 AI 計算中幾乎無用武之地,造成了CPU 在 AI 計算中的性價比較低。
反映到以AI算力為核心的智算中心,則體現在巨量化和多元化的挑戰上。
以多元化為例,AI應用引入了新的計算類型,從推理到訓練跨度大,同時數據量也從GB到TB、PB不斷提升,數據類型從結構化到半結構化、非結構化更加復雜多樣。而不同數值精度的計算類型對計算芯片的指令集、架構等要求也不一樣,這樣就導致之前一直使用的通用CPU和架構效率低下,甚至沒有辦法滿足多元計算場景的要求。
正是因為傳統CPU在上述AI 計算上的弱點,給可以實現海量并行計算且能夠對進行計算加速的AI芯片留下了市場空間,例如GPU、FPGA以及ASIC(專用芯片)等。
那么問題來了,這些芯片在AI開發和應用中的表現有何異同呢?
據權威報告顯示,在AI應用中,CPU 通用性最強,但延遲嚴重,散熱高,效率最低;GPU通用性強、速度快、效率高,特別適合用在深度學習訓練方面,但是性能功耗比較低;FPGA 具有低能耗、高性能以及可編程等特性,相對于CPU與GPU 有明顯的性能或者能耗優勢,但對使用者要求高;ASIC 可以更有針對性地進行硬件層次的優化,從而獲得更好的性能、功耗比。但是ASIC芯片的設計和制造需要大量的資金、較長的研發周期和工程周期,而且深度學習算法仍在快速發展,若深度學習算法發生大的變化,FPGA能很快改變架構,適應最新的變化,ASIC類芯片一旦定制則難于進行修改。
![]()
從上述我們不難看出,AI芯片可謂各有千秋。當前階段,GPU配合CPU仍然是AI芯片的主流,而隨著視覺、語音、深度學習的算法在FPGA以及ASIC芯片上的不斷優化,此兩者也將逐步占有更多的市場份額,從而與GPU達成長期共存的局面。
落地到產業AI化、智算中心等大規模AI計算系統建設時,則需要打破傳統的計算體系結構設計(采用多種AI芯片的異構來滿足不同的AI開發和應用需求)的同時,還要從根本上解決各種類型AI芯片的連接接入標準不同,用戶在使用多元AI芯片系統時會遇到系統適配、芯片驅動、互聯互通、功耗管理、安全傳輸、易用性等各類問題,給用戶在部署多元AI芯片算力系統時帶來的巨大挑戰。
而這需要相關企業在硬件和軟件技術的創新融合。一方面計算軟件將基于對應用需求的拆解進行對硬件能力的適配管理,軟件定義的范圍和影響力將繼續拓展,不僅可實現面向應用的整體系統資源調度和管理,還需針對網絡、存儲等個性化需求實現軟硬解耦和資源靈活配置。另一方面計算硬件將通過與算法和框架等深度融合的專用定制,實現對特定應用需求的支持,最終完成異構之下AI算力的生產、聚合、調度和釋放,讓數據進去讓智慧出來,實現智能計算中心的理想目標。
以浪潮發布新版的AIStation人工智能推理服務平臺為例,其已經實現了對英偉達、寒武紀、昆侖芯、高通等6家國際及國內廠商的12款AI和GPU芯片的多元算力支持。
![]()
具體到應用,該平臺可支持超過1千節點的超大規模人工智能集群調度管理。基于虛擬化、容器化技術簡化算力調度過程,幫助用戶擺脫在大規模計算集群中進行設備選擇、設備適配等繁雜工作,提高調度效率。可實現資源敏捷調配,將資源利用率從40%提高到85%,支持多源模型統一調度,使模型部署上線從2-3天縮短到5分鐘,實現業務快速上線。AIStation采用輕量化架構,支持高并發高吞吐,服務響應平均延遲低于1ms,應對突發場景可在幾分鐘內自動完成服務擴容。
此外,AIStation支持GPU、MLU等芯片的細粒度劃分。用戶不需要修改模型應用即可實現單張加速卡上同時運行多個應用服務,解決資源浪費問題。在金融業務身份識別場景中,通過AIStation的細粒度切分,一張GPU卡最多能同時運行4個身份識別實例,可將資源利用效率提高2到4倍,大幅提升在線業務處理能力。
通過上述我們可以看到,作為業界首個支持多元AI芯片算力的人工智能服務平臺,其不僅支持多元算力,更是充當了實現算力多元化的橋梁。即打通了多元芯片從適配、管理到應用的路徑,通過標準化手段打造統一、開放、靈活的多元算力平臺,為智算中心建設提供更便捷的算力調度,讓AI開發和應用更簡單,助力用戶充分使用多元算力實現AI技術創新和落地。目前,浪潮AIStation平臺還已被多家智算中心成功應用于鐵路巡檢、保險理賠、金融風控、智能手機、智能汽車等場景,給客戶帶來了真正的價值。
![]()
以保險業為例,隨著保險理賠線上化加速,某保險商遇到了計算資源壓力大理賠服務的升級,新業務上線需求不斷增長兩大計算力相關的問題,嚴重影響了理賠業務處理效率和用戶體驗。而借助浪潮 AIStation,該保險商很好地解決了 AI 線上理賠業務中計算資源壓力大、業務上線周期長等難題,實現了 AI 業務的秒級響應、彈性擴縮容、平滑升級,將理賠系統的自動化程度提升了50%以上,平均理賠時效從過去的2-3天縮短到半小時。
他山之石可攻玉,多樣化市場競爭方能激活“鲇魚效應”
除了上述智算中心發展中的技術挑戰需要多元化應對外,從市場競爭層面更是如此。
所謂他山之石可以攻玉。一個新興產業從起步到發展壯大,均有其共性的一面。
以當下如火如荼的中國新能源汽車產業為例,特斯拉的一騎絕塵,打開了其發展的康莊大道;蔚來、小鵬、理想的羽翼漸豐,令后來者們蠢蠢欲動;比亞迪發力新能源賽道,給予了傳統車企轉型的信心;寧德時代的實力地位,奠定了中國新能源的基礎。在天時地利人和的刺激下,新能源汽車市場目前呈現出百花齊放、百家爭鳴的競爭局面。
眾所周知,市場參與者越多,創新和市場就越有活力。在中國,至少有15家汽車生產商月銷量至少為1000輛,包括現有汽車制造商(比亞迪、北汽、廣汽、吉利、上汽、奇瑞、長安、長城、江淮、大眾等)和初創企業(蔚來、小鵬、威馬、理想)。
與此同時,百花齊放、百家爭鳴的汽車產業展現了虹吸效應,擁有巨大的藍海市場與機會紅利,吸引跨界者的狂熱入局。參與者們雖一時難論成敗,也無法預測未來格局的變化,但大量企業的涌入和競爭,推動了中國智能電動汽車技術的升級、產業的發展,構建起了龐大的汽車生態體系,為中國汽車品牌的崛起打下了堅實的基礎,進而引領全球智能電動汽車的風潮。
值得一提的是,在中國智能電動汽車的崛起中,曾經嚴重阻礙市場競爭的“地方保護”主義在不同技術的比拼之下也逐漸被打破,例如上海、北京等城市已經明確引進外地品牌新能源汽車參與市場競爭,上海甚至還對進口電動車開通上牌政策“綠色通道”,激活了市場的“鯰魚效應”。而這正是“用好用活政策”的價值所在。
正是基于多樣化競爭和政策的支持,驅動了中國電動汽車產業的發展,成就了在中國市場如魚得水的特斯拉,誕生了“蔚小理”等后起之秀,給予了新興品牌們更多的信心。
據公安部交管局對外公布的統計數據顯示,截至2021年3月,中國新能源汽車保有量達551萬輛;其中,純電動汽車保有量449萬輛。中國已是世界第一大新能源汽車保有量市場。
與新能源汽車的發展類似,目前智算中心的布局和建設也正開始呈現出百花齊放、百家爭鳴的趨勢。例如國家信息中心于2020年就發布了《智能計算中心規劃建設指南》引導智算中心建設;而今年7月舉辦的2021算力中心健康發展研討會則明確了智算中心標準,引導智算中心明確應用場景和優先任務,保證算力資源建設合理、綠色。
![]()
盡管不同組織,不同企業牽頭勢必會導致智算中心在標準、建設和應用等方面的差異性(如同當下新能源汽車領域不同車企不同的技術標準和發展路線),但在我們看來,這恰是智算中心快速發展和保證效率競爭之必須,唯有多樣化的競爭,才能大浪淘沙,才能讓政府相關部門在智算中心的布局和建設中有比較,摒棄“地方保護”主義,選擇適合于自身應用需求的智算中心。
需要說明的是,相關媒體已經發現在智算中心的建設和布局中,出現了價格虛高,對于智算定義混淆等問題,而這正是因為由于多樣化的市場競爭,讓業內在智算中心的布局和建設中有比較(例如性能、應用、價格等)才得以顯現,那么剩下的自然就是大浪淘沙。
選擇多樣化,智能中心可用性的保障
既然智算已經成為一個產業,那么其發展,除了受到我們前述的技術、市場競爭等因素的影響外,如何布局和建設對于其未來也至關重要,而這無疑就涉及到了供需雙方的選擇。
如我們前述,技術與市場競爭的多樣化,理應讓智算中心的布局和建設具備了多樣化選擇,而鑒于智算中心的基礎公共設施的屬性,作為需求方的政府相關部門在這其中將起到舉足輕重的作用。
那么接下來的挑戰則是如何進行多樣化的選擇?
眾所周知,智算中心應秉承開放標準、集約高效、普適普惠三個原則已經成為業內的共識。而在我們看來,這三個原則踐行的基礎首先應該以可用性為前提,即無論在何種條件下,智算中心都應保持正常和高效的運轉,這無疑對于需求方的政府相關部門提出了更高的要求。而這之中如何規避供應鏈的脆弱性,即選擇供應鏈脆弱性最低企業的智算中心標的是重中之重。
需要說明的是,脆弱性的概念最早來源于對自然環境的研究,自然環境中所有的系統均可能存在不同程度的脆弱性,它已經成為系統安全領域不可或缺的一部分。脆弱性概念的普適性很強,目前已經逐漸應用于社會、經濟系統的研究,如旅游系統、金融系統、供應鏈系統等。
具體到供應鏈系統,其本身就存在高度脆弱性。這是由于供應鏈本身具有復雜性和不確定性,而這些特性影響了供應鏈中斷的發生概率和程度。加之近幾年,經濟和政治環境等的重大變化,供應鏈存在高度的脆弱性大大增加。
基于此,我們認為,政府相關部門在智算中心布局和建設的選項中,首先要秉承多樣化選擇的原則,并在此基礎上,全面衡量供應各方可能存在的供應鏈脆弱性的風險,以在未來保證智算中心作為基礎公共設施的可用性,充分發揮其效率。
其實在我們看來,前述技術層面AI芯片的多元化本身(例如我們前述浪潮發布新版的AIStation推理服務平臺對于市場中12款AI異構芯片的插拔式使用的支持和管理)就是降低供應鏈脆弱性,最大限度保證智算中心可用性和高效在技術及應用層面的最好實踐。
寫在最后:智算中心作為數字經濟和新基建的底座,未來發展的多樣化(包括技術、市場競爭、客戶選擇)應是大勢所趨,更應是智算中心布局和建設參與各方求同存異基礎上的共識。只有這樣,智算中心才能真正做到開放標準、集約高效、普適普惠,為中國的數字經濟發揮最大的助推作用。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.