智能時(shí)代,大模型正在重構(gòu)AI基礎(chǔ)設(shè)施,數(shù)據(jù)中心迎來算力、網(wǎng)絡(luò)、存儲、管理、能效的全向Scale(性能增強(qiáng)和規(guī)模擴(kuò)展)創(chuàng)新挑戰(zhàn)。那么問題來了,作為力主開放的開放計(jì)算社區(qū)OCP和開放標(biāo)準(zhǔn)組織OCTC(中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會開放計(jì)算標(biāo)準(zhǔn)工作委員會)將如何應(yīng)對這些挑戰(zhàn)?未來前景如何?剛剛結(jié)束的2024開放計(jì)算中國峰會給了我們答案。
![]()
AIGC時(shí)代帶來計(jì)算新挑戰(zhàn)
眾所周知,算力、算法和數(shù)據(jù)是推動人工智能發(fā)展的三大要素,尤其是在以大模型為主的AIGC時(shí)代,這三者的協(xié)同作用尤為顯著。自Transformer架構(gòu)出現(xiàn)以來,大模型性能與其參數(shù)量、計(jì)算當(dāng)量、數(shù)據(jù)量密切相關(guān),這種現(xiàn)象被稱為Scaling Law。
![]()
隨著大模型快速迭代升級,模型能力持續(xù)進(jìn)化,模型類型也從傳統(tǒng)的語言模型往多模態(tài)、長序列、混合專家模型等轉(zhuǎn)變,由此引發(fā)的則是對GPU domain、互聯(lián)、算力等的新需求,并對基礎(chǔ)設(shè)施、算力管理、迭代升級等都提出了新的挑戰(zhàn),即生成式人工智能正在重構(gòu)數(shù)據(jù)中心基礎(chǔ)設(shè)施,對計(jì)算效能、存儲容量及性能、網(wǎng)絡(luò)方案、資源調(diào)度管理、能效控制與管理各個(gè)方面均提出了更高要求。
OCTC秘書長,中國電子技術(shù)標(biāo)準(zhǔn)化研究院信息技術(shù)研究中心硬件研究室主任陳海認(rèn)為,國內(nèi)基礎(chǔ)設(shè)施面臨著計(jì)算能力、存儲能力和網(wǎng)絡(luò)能力,達(dá)不到一些大型模型以及行業(yè)模型的實(shí)際應(yīng)用需求的挑戰(zhàn)。
“例如在計(jì)算能力方面,目前,國內(nèi)外都出現(xiàn)了許多AI推理訓(xùn)練的加速卡,但因?yàn)閺挠布用婧退蠈拥倪\(yùn)行軟件層面的兼容性,導(dǎo)致多卡異構(gòu)或者是設(shè)備異構(gòu)的時(shí)候,出現(xiàn)了諸多不兼容性的問題,進(jìn)而造成一個(gè)應(yīng)用場景可能只能應(yīng)用于一個(gè)特定的專用設(shè)備之上,無法把算力基礎(chǔ)設(shè)施拉到一起并行計(jì)算。”陳海補(bǔ)充道。
一切計(jì)算皆AI,開放計(jì)算與時(shí)俱進(jìn)
針對上述AIGC時(shí)代下,大模型Scalinglaw對算力擴(kuò)展的巨大需求—Scaleup(單系統(tǒng)性能提升)和Scaleout(集群規(guī)模擴(kuò)展)—帶來的新挑戰(zhàn),全球化的開放合作變得至關(guān)重要。而一直以全球化開放合作為主旨,2011年由Facebook發(fā)起成立,目前擁有包括英特爾、微軟等在內(nèi)的超360家企業(yè)的OCP和成立兩年多的OCTC,在2024開放計(jì)算中國峰會向外界展現(xiàn)出了與時(shí)俱進(jìn)應(yīng)對新挑戰(zhàn)的能力。
例如,目前開放計(jì)算加速規(guī)范(OAM)已成為全球最多高端AI加速芯片遵循的統(tǒng)一設(shè)計(jì)標(biāo)準(zhǔn),全球20多家芯片企業(yè)支持開放加速規(guī)范標(biāo)準(zhǔn)(包括英偉達(dá)的HGX的baseboard也符合OAM規(guī)范),為AI芯片企業(yè)節(jié)省研發(fā)時(shí)間6個(gè)月以上,為整體產(chǎn)業(yè)研發(fā)投入節(jié)省數(shù)十億元,極大降低了AI算力產(chǎn)業(yè)創(chuàng)新的難度,加速高質(zhì)量AI算力普惠發(fā)展。
值得一提的是,OAM規(guī)范還在持續(xù)迭代,未來基于OAM2.0規(guī)范的AI加速卡將支持8000張加速卡的卡間互聯(lián),突破大模型Scale up互聯(lián)瓶頸。
![]()
除了上述的AI芯片和加速卡,在一切計(jì)算皆AI的時(shí)代,CPU同樣需要具有AI能力。但目前CPU多元化發(fā)展,如何快速完成CPU到計(jì)算系統(tǒng)的創(chuàng)新,使其能夠適用于AI推理負(fù)載,已經(jīng)成為緩解當(dāng)前AI算力稀缺、推動人工智能發(fā)展的關(guān)鍵環(huán)節(jié)。
事實(shí)是,目前CPU處理器有10多種,不同CPU處理器的接口和管理協(xié)議都不同,每款處理器都要經(jīng)歷從芯片到服務(wù)器的12個(gè)月左右的產(chǎn)品研發(fā),CPU處理器的研發(fā)也亟需實(shí)現(xiàn)標(biāo)準(zhǔn)化。
為此,在今年的開放計(jì)算中國峰會上,中國電子技術(shù)標(biāo)準(zhǔn)化研究院、浪潮信息、百度、英特爾等機(jī)構(gòu)和企業(yè)宣布立項(xiàng)開放算力模組(OCM)團(tuán)體標(biāo)準(zhǔn),希望建立基于處理器的標(biāo)準(zhǔn)化算力模組單元,統(tǒng)一不同處理器算力單元對外高速互連、管理協(xié)議、供電接口等,實(shí)現(xiàn)不同架構(gòu)處理器芯片兼容,方便用戶根據(jù)應(yīng)用場景靈活、快速組合,推動算力產(chǎn)業(yè)高質(zhì)量快速發(fā)展。
對此,浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥對《班門弄斧》進(jìn)一步解釋稱,OCM標(biāo)準(zhǔn)的本質(zhì)上把CPU完全解耦,但目前的挑戰(zhàn)還比較大,所以浪潮信息做了一個(gè)過渡,把CPU內(nèi)存作為一個(gè)最小單元,這樣就可以把高速的、前向的和低速的、后向的定義成標(biāo)準(zhǔn)化的接口,對于用戶而言,買一臺服務(wù)器回去,需要用什么樣的算力,就可以很方便地選擇什么樣的算力,并且對于大規(guī)模用戶而言,它的運(yùn)維管理非常簡單,這些才是開放的OCM對于用戶最大的優(yōu)勢和價(jià)值。
需要說明的是,除了OCM外,成立僅兩年多時(shí)間的OCTC已全面布局開放標(biāo)準(zhǔn)建設(shè),并構(gòu)建起包含基礎(chǔ)設(shè)施、測評與服務(wù)、運(yùn)維管理等在內(nèi)的標(biāo)準(zhǔn)框架,遵循通用行業(yè)頭部用戶業(yè)務(wù)場景需求,覆蓋數(shù)據(jù)中心級液冷系統(tǒng)、全場景整機(jī)柜服務(wù)器、智能加速卡、數(shù)據(jù)中心管理等熱點(diǎn)方向,并將通用計(jì)算、柜計(jì)算、AI/異構(gòu)、液冷等列入標(biāo)準(zhǔn)化建設(shè)的重點(diǎn)內(nèi)容,助力推進(jìn)數(shù)據(jù)中心綠色化、智能化、高質(zhì)量發(fā)展。
據(jù)陳海介紹,OCTC在攻關(guān)技術(shù)研究方面,目前累計(jì)發(fā)布了5項(xiàng)技術(shù)白皮書來推動對新技術(shù)和組織內(nèi)達(dá)成一致的通用技術(shù)推廣和宣傳應(yīng)用;在標(biāo)準(zhǔn)方面,聯(lián)合服務(wù)器、存儲設(shè)備和網(wǎng)絡(luò)設(shè)備廠商立項(xiàng)和發(fā)布了12項(xiàng)團(tuán)體性標(biāo)準(zhǔn),而這12項(xiàng)團(tuán)體標(biāo)準(zhǔn)彌補(bǔ)了行業(yè),尤其是與液冷相關(guān)的新技術(shù)應(yīng)用的空白。
綜上,我們看到,智能時(shí)代,“一切計(jì)算皆AI”,人工智能算力范式的不斷革新正驅(qū)動數(shù)據(jù)中心向更高效、更智能、更綠色、更多元演進(jìn),而OCP和OCTC作為當(dāng)下數(shù)據(jù)中心持續(xù)創(chuàng)新的重要力量,正在以全球化協(xié)作與創(chuàng)新,合力解決智能時(shí)代下數(shù)據(jù)中心面臨的諸多挑戰(zhàn),如硬件基礎(chǔ)設(shè)施迭代、軟件基礎(chǔ)架構(gòu)融合、數(shù)據(jù)中心可持續(xù)發(fā)展等。
眾人拾柴火焰高,確保開放計(jì)算領(lǐng)先和普惠
OCP和OCTC之所以能夠做到在AIGC時(shí)代與時(shí)俱進(jìn),價(jià)值倍增,在我們看來,開放方能促進(jìn)技術(shù)的迭代,而讓用戶真正參與進(jìn)來,才能更快的看到新技術(shù)的發(fā)展,讓新技術(shù)應(yīng)用到業(yè)務(wù)中,促進(jìn)業(yè)務(wù)的發(fā)展,這些才是開放社區(qū)的長久繁榮的核心關(guān)鍵點(diǎn)。
與此同時(shí),只有產(chǎn)業(yè)鏈每個(gè)廠商都因開源開放而獲益,并得到內(nèi)生動力,開放社區(qū)才具備了持續(xù)不斷的創(chuàng)新和運(yùn)營的基礎(chǔ)。
而在上述過程中,以浪潮信息、阿里云為代表的廠商在社區(qū)的貢獻(xiàn)實(shí)踐,核心廠商的參與反哺開放計(jì)算社區(qū)規(guī)模化發(fā)展和技術(shù)創(chuàng)新貢獻(xiàn),讓社區(qū)的產(chǎn)品和市場需求匹配,降低參與廠商的獲客成本和使用成本。
這里,我們以核心廠商浪潮信息為例,作為OCP、ODCC、Open19、OCTC全球四大開放計(jì)算組織的核心成員,浪潮信息在開放社區(qū)的參與度越來越深,從貢獻(xiàn)設(shè)計(jì)規(guī)范,到參與開發(fā)標(biāo)準(zhǔn),再到牽頭標(biāo)準(zhǔn)的制定。
目前,浪潮信息已積極參與面向AI、邊緣等標(biāo)準(zhǔn)規(guī)范的建立,并牽頭服務(wù)器全部國標(biāo)、OAM規(guī)范、天蝎標(biāo)準(zhǔn)、邊緣OTII規(guī)范、OpenBMC、OpenRMC管理標(biāo)準(zhǔn)等。
此外,浪潮信息還同時(shí)推動技術(shù)標(biāo)準(zhǔn)產(chǎn)品化,率先向社區(qū)貢獻(xiàn)了多款產(chǎn)品,包括AI開放加速計(jì)算系統(tǒng)、OTII邊緣計(jì)算服務(wù)器、符合三大開放組織標(biāo)準(zhǔn)(OCP, ODCC, Open19)的整機(jī)柜產(chǎn)品等等;并在OCTC牽頭柜計(jì)算技術(shù)項(xiàng)目,旨在定義一種高效、統(tǒng)一的整機(jī)柜服務(wù)器通用技術(shù)方案,實(shí)現(xiàn)整機(jī)柜服務(wù)器規(guī)模化推廣。2024年1月浪潮信息牽頭編寫《全液冷冷板系統(tǒng)參考設(shè)計(jì)及驗(yàn)證白皮書》并面向業(yè)界開放下載,參編的《基于標(biāo)準(zhǔn)PCIe接口的人工智能加速卡液冷設(shè)計(jì)白皮書》、《數(shù)據(jù)中心物理基礎(chǔ)設(shè)施管理要求白皮書》等也陸續(xù)發(fā)布。
除浪潮信息外,作為OCP核心廠商之一的阿里云也秉持開放合作的策略,積極參與推動產(chǎn)業(yè)發(fā)展和繁榮。
比如在標(biāo)準(zhǔn)貢獻(xiàn)上,以CXL(ComputeExpress Link,一種新型高速互聯(lián)技術(shù))為例,阿里云全程參與了了CXL 1.0/1.1/2.0/3.0/3.1標(biāo)準(zhǔn)的制定和發(fā)布,使得阿里在CXL互聯(lián)的研究和落地上處于國內(nèi)領(lǐng)先和業(yè)界第一梯隊(duì)的位置。而在UCIe(UniversalChiplet Interconnect Express,即通用芯粒互連技術(shù))領(lǐng)域,阿里云也積極組織相關(guān)技術(shù)團(tuán)隊(duì)參與UCIe多個(gè)工作組,參與標(biāo)準(zhǔn)制定工作。
對此,阿里云基礎(chǔ)設(shè)施服務(wù)器研發(fā)產(chǎn)業(yè)合作總監(jiān)吳靈熙介紹,作為CXL的初始會員,也是UCIe的初始會員,阿里云現(xiàn)在也在積極參與UALink等Scale up網(wǎng)絡(luò)開放聯(lián)盟的籌建工作。阿里云也是最早一批OCP在中國大陸的CSP的白金客戶。在開放合作組織中,阿里云看到通過一個(gè)更加公平、開放、共享的社區(qū)文化,或者是一個(gè)開源的宗旨,能夠使得整個(gè)行業(yè)的所有參與者都能在開源組織的活動中得到收益,所以阿里云非常積極地參與進(jìn)來。
在我們看來,在“一切計(jì)算皆AI”的AIGC普及和AI算力已經(jīng)深入到千行百業(yè),滲透進(jìn)每一個(gè)計(jì)算設(shè)備,面向人工智能的算力范式不斷革新的背景下,如何保持開放計(jì)算的領(lǐng)先性和讓更多的行業(yè)受益,在當(dāng)下和未來顯得至關(guān)重要。
對此,OCP基金會新興市場副總裁SteveHelvie稱,OCP的一個(gè)主題就是會把超大規(guī)模用戶的這些最佳實(shí)踐,盡可能地延展到通用行業(yè),所有行業(yè)都可以從在OCP內(nèi)開發(fā)的開放設(shè)計(jì)中受益。基金會希望能夠在通用的行業(yè)去配置對他們來說最合適的,從超大規(guī)模用戶處汲取經(jīng)驗(yàn),再把它們應(yīng)用到其他的行業(yè)當(dāng)中。
無獨(dú)有偶,趙帥認(rèn)為,“我們應(yīng)把開放的理念帶入多個(gè)行業(yè),而不是只局限在大規(guī)模數(shù)據(jù)中心,因?yàn)榇笠?guī)模數(shù)據(jù)中心是應(yīng)用的先鋒,但是更多的應(yīng)用場景需要讓它在行業(yè)里面去落地。而作為OCP的核心廠商,按照浪潮信息目前的體量,前面已經(jīng)沒有引路人了,這個(gè)時(shí)候我們就必須要用一個(gè)更加開放的心態(tài),因?yàn)殚_放意味著有大量嶄新的技術(shù)、新的idea在這個(gè)團(tuán)隊(duì)和社區(qū)里出現(xiàn),從而讓更多的先進(jìn)技術(shù)快速的產(chǎn)業(yè)化落地到行業(yè)。在這個(gè)過程當(dāng)中,我們在引領(lǐng)產(chǎn)業(yè)發(fā)展和技術(shù)創(chuàng)新的同時(shí),賦能采用開放標(biāo)準(zhǔn)的企業(yè)始終在行業(yè)中保持自己先于業(yè)內(nèi)3-5年的領(lǐng)先優(yōu)勢。”
以液冷為例,目前,中國的液冷應(yīng)用是全球領(lǐng)先的,究其原因,國內(nèi)基本上六大行,通信頭部企業(yè)代表都參與到了開放標(biāo)準(zhǔn)的制定,大家均可用,并且是公開的,只有這樣,才快速推動了液冷的產(chǎn)業(yè)化,真正讓液冷進(jìn)入千行百業(yè)。
寫在最后:眾所周知,從最早的完全垂直封閉的大型機(jī)到統(tǒng)一RISC和Unix標(biāo)準(zhǔn)的小型機(jī),再到x86和開放架構(gòu)服務(wù)器,開放計(jì)算已經(jīng)成為不可逆的趨勢。而如今AI的爆發(fā),從最開始的Caffe,到pytorch、Paddle、LIama、源等都是開源推動,可以說也是開源開放的勝利。
展望未來,開源開放無疑是AI創(chuàng)新的核心動力,OCP和OCTC兩大開放組織在過去一年中,以“破壁”、“開放”的態(tài)度共同推動開放計(jì)算的廣泛應(yīng)用,構(gòu)建全球化的開放協(xié)作平臺,通過數(shù)據(jù)中心產(chǎn)品技術(shù)協(xié)同創(chuàng)新、知識產(chǎn)權(quán)成果共創(chuàng)共享、標(biāo)準(zhǔn)規(guī)范共建等,加速行業(yè)數(shù)智化、綠色高效發(fā)展的事實(shí),讓我們相信,開放計(jì)算勢在AIGC時(shí)代大有可為。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.