導(dǎo)讀:當(dāng)馬斯克在X平臺(tái)連發(fā)三個(gè)靶心表情,這并非隨意之舉——其背后是xAI 122天建成全球最大AI集群的瘋狂速度,以及一場(chǎng)足以重塑行業(yè)格局的算力軍備競(jìng)賽。
「10萬(wàn)塊H100」:一個(gè)表情符號(hào)背后的算力野心
![]()
2024年7月,馬斯克在X平臺(tái)轉(zhuǎn)發(fā)了xAI工程師的一份技術(shù)總結(jié),配以三個(gè)靶心表情。這一看似簡(jiǎn)單的互動(dòng),實(shí)則是對(duì)xAI孟菲斯超級(jí)計(jì)算集群(Memphis Supercluster)的公開(kāi)背書——這個(gè)由10萬(wàn)塊英偉達(dá)H100 GPU組成的龐大系統(tǒng),已成為當(dāng)前全球規(guī)模最大的AI訓(xùn)練集群。
該集群的建造速度令業(yè)界側(cè)目:從硬件進(jìn)場(chǎng)到首次訓(xùn)練運(yùn)行,僅耗時(shí)122天。作為對(duì)比,同等規(guī)模的算力基礎(chǔ)設(shè)施建設(shè)通常需要18至24個(gè)月。xAI工程團(tuán)隊(duì)在總結(jié)中披露,他們采用了液冷散熱與超高速網(wǎng)絡(luò)互聯(lián)方案,單集群算力密度達(dá)到前所未有的水平。
馬斯克對(duì)此評(píng)價(jià)道:「這是人類歷史上最大的AI訓(xùn)練集群。」這一表態(tài)并非夸張——按英偉達(dá)官方數(shù)據(jù),單塊H100的FP8精度算力為3958 TFLOPS,10萬(wàn)塊并聯(lián)的理論峰值算力接近400 exaflops,遠(yuǎn)超美國(guó)能源部國(guó)家實(shí)驗(yàn)室的Frontier超級(jí)計(jì)算機(jī)(1.2 exaflops)。
122天奇跡:工程極限與商業(yè)邏輯的碰撞
超大規(guī)模AI基礎(chǔ)設(shè)施的建設(shè)歷來(lái)是「時(shí)間殺手」。微軟與OpenAI合作的Azure AI超級(jí)計(jì)算機(jī)從規(guī)劃到上線耗時(shí)數(shù)年;Meta的AI研究集群(RSC)建設(shè)周期超過(guò)18個(gè)月。xAI的122天紀(jì)錄,本質(zhì)上是對(duì)傳統(tǒng)數(shù)據(jù)中心建設(shè)范式的顛覆。
這一速度的實(shí)現(xiàn)依賴三重突破:其一,預(yù)制模塊化數(shù)據(jù)中心(Prefabricated Modular Data Center)的大規(guī)模應(yīng)用,將現(xiàn)場(chǎng)施工轉(zhuǎn)化為工廠制造;其二,與英偉達(dá)的深度供應(yīng)鏈協(xié)同,確保10萬(wàn)塊GPU的同步交付;其三,孟菲斯當(dāng)?shù)靥峁┑某渥汶娏θ哂唷摷汗念A(yù)計(jì)超過(guò)150兆瓦,相當(dāng)于15萬(wàn)戶家庭的用電量。
然而,速度背后亦有隱憂。行業(yè)分析師指出,如此激進(jìn)的部署節(jié)奏可能導(dǎo)致網(wǎng)絡(luò)拓?fù)鋬?yōu)化不足、故障率攀升等問(wèn)題。xAI工程師在總結(jié)中承認(rèn),他們「仍在調(diào)試部分節(jié)點(diǎn)的通信效率」,并計(jì)劃在未來(lái)數(shù)周內(nèi)將集群利用率從當(dāng)前的約70%提升至90%以上。
更深層的問(wèn)題在于商業(yè)模式的可持續(xù)性。按當(dāng)前市場(chǎng)價(jià)格估算,10萬(wàn)塊H100的硬件成本已超過(guò)30億美元,加上配套基礎(chǔ)設(shè)施與三年期電費(fèi),總投入逼近50億美元。而xAI至今未公布任何商業(yè)化產(chǎn)品或收入數(shù)據(jù),其資金來(lái)源主要依賴馬斯克個(gè)人財(cái)富與股權(quán)融資。
算力軍備競(jìng)賽:從「大力出奇跡」到邊際效益遞減
孟菲斯集群的啟用,標(biāo)志著AI大模型訓(xùn)練正式進(jìn)入「10萬(wàn)卡時(shí)代」。此前,OpenAI的GPT-4訓(xùn)練據(jù)信使用了約2.5萬(wàn)塊A100,谷歌Gemini Ultra的算力規(guī)模與之相當(dāng)。xAI一次性將門檻提升四倍,直接改寫了行業(yè)競(jìng)爭(zhēng)規(guī)則。
這一策略與馬斯克對(duì)AGI(通用人工智能)的激進(jìn)時(shí)間表高度吻合。他多次公開(kāi)表示,xAI的目標(biāo)是在2025年前實(shí)現(xiàn)「比人類更聰明」的AI系統(tǒng),而算力規(guī)模是達(dá)成這一目標(biāo)的核心變量。xAI的Grok系列模型目前仍落后于GPT-4與Gemini,但馬斯克顯然押注于「規(guī)模定律」(Scaling Laws)的延續(xù)——即模型性能隨算力、數(shù)據(jù)量、參數(shù)量的指數(shù)級(jí)增長(zhǎng)而線性提升。
不過(guò),學(xué)術(shù)界對(duì)規(guī)模定律的可持續(xù)性正產(chǎn)生分歧。MIT與斯坦福聯(lián)合研究團(tuán)隊(duì)2024年6月發(fā)表的論文指出,當(dāng)模型參數(shù)量超過(guò)一定閾值后,訓(xùn)練損失的下降速度顯著放緩,「每增加十倍算力,性能提升幅度可能不足預(yù)期的一半」。若這一結(jié)論成立,xAI的50億美元豪賭將面臨嚴(yán)峻的邊際效益考驗(yàn)。
與此同時(shí),英偉達(dá)的產(chǎn)能瓶頸正在松動(dòng)。據(jù)供應(yīng)鏈消息,H100的交付周期已從2023年的11個(gè)月縮短至3至4個(gè)月,B100/B200系列亦開(kāi)始批量出貨。這意味著xAI的先發(fā)優(yōu)勢(shì)窗口期可能僅有6至12個(gè)月,隨后將面臨來(lái)自微軟、谷歌、亞馬遜乃至字節(jié)跳動(dòng)、阿里巴巴的同等規(guī)模集群圍剿。
地緣與能源:超級(jí)集群的隱形天花板
孟菲斯選址本身即是一項(xiàng)精心計(jì)算。田納西河谷管理局(TVA)的電力結(jié)構(gòu)中,核電與水電占比超過(guò)40%,碳排放強(qiáng)度低于全美平均水平,這為xAI提供了「綠色算力」的敘事空間——盡管150兆瓦的瞬時(shí)功耗仍使其成為當(dāng)?shù)刈畲髥我挥秒姂糁弧?/p>
更宏觀的挑戰(zhàn)來(lái)自美國(guó)政府的出口管制政策。2023年10月更新后的對(duì)華芯片禁令,將H100及其替代品納入管制清單,迫使中國(guó)科技公司轉(zhuǎn)向華為昇騰等國(guó)產(chǎn)方案。這一割裂正在催生兩條平行的算力供應(yīng)鏈:以英偉達(dá)GPU為核心的西方陣營(yíng),與以中國(guó)本土芯片為核心的東方陣營(yíng)。xAI的集群規(guī)模優(yōu)勢(shì),在某種程度上正是這一地緣格局的產(chǎn)物——當(dāng)競(jìng)爭(zhēng)對(duì)手被排斥在最先進(jìn)硬件之外,算力差距被進(jìn)一步放大。
但能源約束可能才是終極瓶頸。國(guó)際能源署(IEA)預(yù)測(cè),到2026年全球數(shù)據(jù)中心用電量將翻倍,AI工作負(fù)載是主要驅(qū)動(dòng)力。美國(guó)部分電網(wǎng)已出現(xiàn)容量預(yù)警,新建超大規(guī)模集群的選址空間正在收窄。馬斯克本人亦承認(rèn),「未來(lái)AI發(fā)展的限制因素將是電力供應(yīng)」,xAI已著手與多家核能初創(chuàng)企業(yè)洽談小型模塊化反應(yīng)堆(SMR)的合作。
三個(gè)靶心表情,既是對(duì)工程團(tuán)隊(duì)的精準(zhǔn)命中表示贊許,也可能暗示著xAI的三重目標(biāo):算力規(guī)模、訓(xùn)練效率、商業(yè)化落地。前兩項(xiàng)目前已有階段性成果,第三項(xiàng)仍是未解之謎。當(dāng)行業(yè)從「訓(xùn)練軍備競(jìng)賽」轉(zhuǎn)向「推理成本優(yōu)化」,單純堆砌硬件的回報(bào)率將持續(xù)走低——xAI需要在Grok的下一版迭代中證明,這10萬(wàn)塊H100并非一場(chǎng)昂貴的技術(shù)秀,而是通往AGI的必要階梯。否則,122天建成的紀(jì)錄,或?qū)S為AI泡沫史上一個(gè)醒目的注腳。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.