![]()
一次ChatGPT查詢的耗電量,夠你手機充滿2次。這不是環(huán)保組織的恐嚇,是QCon倫敦現(xiàn)場扔出的真實數(shù)據(jù)。Ludi Akue站在臺上,背后PPT亮著一行字:「GPU芯片壽命2-3年,然后變成電子垃圾」。臺下坐著幾百個技術(shù)負責人,有人開始低頭看手機——不是走神,是在查自家云賬單。
Akue的身份標簽很微妙:做過產(chǎn)品經(jīng)理,管過基礎(chǔ)設(shè)施,現(xiàn)在專職幫企業(yè)「減肥」。她給這場演講起的名字帶著悔意:《關(guān)于綠色IT,我多希望當初有人告訴我這些》。悔的不是技術(shù)選型,是那種「先上線再優(yōu)化」的慣性——等你想起來算碳賬的時候,模型已經(jīng)訓(xùn)練完了,電費已經(jīng)預(yù)付了三年。
藏在推理環(huán)節(jié)的電老虎
行業(yè)有個默契的謊言:訓(xùn)練大模型燒錢,推理(inference,即實際使用時的響應(yīng)計算)便宜。Akue直接拆臺——生成式AI的推理是「持續(xù)高負載」,不像傳統(tǒng)軟件有個明顯的閑時高峰。用戶每敲一次回車,GPU集群就得全員加班。
她舉了個具體的對比:傳統(tǒng)搜索請求的處理能耗,大約是生成式AI查詢的1/10到1/100。差距不是架構(gòu)優(yōu)劣,是任務(wù)本質(zhì)變了。搜索是「檢索已有信息」,生成是「現(xiàn)場造句」,后者需要逐詞概率計算,矩陣運算量呈指數(shù)級膨脹。
更隱蔽的是硬件折舊。一塊英偉達H100的物理壽命約5年,但在AI負載下,2-3年就得退役。不是壞了,是算力跟不上新模型了。這些芯片去哪?一部分流入二手市場,更多成為電子垃圾。Akue沒給具體數(shù)字,但引了一個行業(yè)估算:2023年全球AI芯片出貨量超1500萬片,按2.5年平均替換周期算,2026年開始將迎來第一波報廢潮。
用戶對此毫無感知。你的ChatGPT Plus訂閱費里,電費占比多少?碳排放折算成多少棵樹?沒有賬單分項,沒有碳標簽。Akue把這稱為「成本外部化」——便利歸你,污染歸地球,賬單歸下一代數(shù)據(jù)中心。
歐盟AI法案的 Enforcement Gap
監(jiān)管不是沒動。2024年生效的歐盟AI Act(人工智能法案)把AI系統(tǒng)按風險分級,高風險應(yīng)用需要透明度和人工監(jiān)督。Akue的點評很直接:「框架有了,牙齒沒長齊。」
問題出在執(zhí)行層。法案要求企業(yè)披露能耗和碳足跡,但沒規(guī)定統(tǒng)一計量標準。你用哪種電力結(jié)構(gòu)、怎么算間接排放、是否包含硬件制造環(huán)節(jié)——各說各話。Akue見過一份「合規(guī)報告」,把數(shù)據(jù)中心建在冰島(地熱豐富)算成碳中和,卻忽略了芯片從臺灣出廠時的制造排放。
![]()
她提了一個更尖銳的觀察:法案的罰款條款針對的是「違規(guī)上線」,而非「高能耗設(shè)計」。這意味著你可以做一個吞噬千兆瓦時的模型,只要通過安全審查,就不觸紅線。環(huán)保維度被降格為「自愿最佳實踐」,而非強制性約束。
「我們不是在等更好的法律,」Akue說,「是在等法律追上技術(shù)的速度。」這句話的潛臺詞是:等追上了,模型已經(jīng)迭代三代,電費已經(jīng)燒掉幾個億。
模型壓縮:給AI做「抽脂手術(shù)」
Akue的解決方案從算法層開始。她花了15分鐘講模型壓縮(model compression),態(tài)度像產(chǎn)品經(jīng)理審視功能冗余——「這個參數(shù)真的必要嗎?」
第一種技術(shù)是剪枝(pruning)。神經(jīng)網(wǎng)絡(luò)里有大量「睡眠神經(jīng)元」,訓(xùn)練時活躍,推理時躺平。剪枝就是識別并刪除這些冗余連接,模型體積可縮減30%-90%,精度損失控制在1%-3%。Akue展示了一個案例:某圖像識別模型從100MB壓到10MB,手機端推理速度提升4倍,能耗降了60%。
第二種是量化(quantization)。標準模型參數(shù)用32位浮點數(shù)存儲,量化是改成16位、8位甚至4位整數(shù)。精度損失?Akue的答案是「看場景」。語音識別容忍度高,醫(yī)療影像需要謹慎,但「大部分消費級應(yīng)用,8位量化幾乎無感知」。能耗收益很實在:內(nèi)存帶寬需求減半,計算單元效率提升,最終功耗可降40%-75%。
第三種是知識蒸餾(knowledge distillation)。讓大模型當「老師」,小模型當「學(xué)生」,學(xué)生只學(xué)老師的輸出結(jié)果,不學(xué)內(nèi)部參數(shù)。一個120億參數(shù)的模型,可以蒸餾出10億參數(shù)的「輕量版」,保留90%能力,能耗降到1/10。Akue的比喻是:「不是讓博士生去做小學(xué)數(shù)學(xué)題,是培養(yǎng)一個專門做小學(xué)題的助教。」
這些技術(shù)不是新概念,2016年就有論文發(fā)表。Akue的批評指向行業(yè)慣性:「我們默認用最大模型,因為GPU算力便宜,因為KPI是準確率小數(shù)點后第三位。」綠色IT要求把能耗納入優(yōu)化目標,不是事后補丁,而是設(shè)計約束。
架構(gòu)革新:從「大力出奇跡」到「精準打擊」
算法層之外,Akue押注的是架構(gòu)變革。她重點講了兩種路線:稀疏注意力(sparse attention)和專家混合模型(Mixture of Experts,MoE)。
![]()
傳統(tǒng)Transformer的注意力機制是「全連接」——每個詞都要和所有詞算一遍關(guān)聯(lián)度。稀疏注意力改成「只算重要的」,比如Longformer用滑動窗口+全局注意力,處理長文本時復(fù)雜度從O(n2)降到O(n)。Akue給了一個生產(chǎn)數(shù)據(jù):某文檔分析工具改用稀疏注意力后,處理10萬字報告的能耗從12千瓦時降到0.8千瓦時,時間從45分鐘縮到3分鐘。
MoE則是「按需調(diào)用」。一個萬億參數(shù)模型,實際推理時只激活其中100億參數(shù)——不是隨機抽,是路由器(router)判斷「這個問題該哪個專家回答」。谷歌的Switch Transformer、Mistral AI的Mixtral系列都是這條路。Akue的觀察是:MoE的訓(xùn)練成本更高(需要喂更多數(shù)據(jù)讓路由器學(xué)會分工),但推理成本斷崖式下跌,「適合高頻、多樣化的查詢場景」。
她還提了一個更激進的思路:神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)自動設(shè)計模型。給定能耗上限和精度下限,算法自己試錯找最優(yōu)結(jié)構(gòu)。2019年谷歌的EfficientNet就是這么誕生的,同等精度下參數(shù)量減少8.4倍。Akue的警告是:NAS本身很耗電,「用1000塊GPU搜一周,碳排放可能抵消后續(xù)三年的節(jié)省」。綠色IT的悖論無處不在。
基礎(chǔ)設(shè)施:被忽視的「暗能耗」
算法優(yōu)化是前端,Akue用最后三分之一時間講后端——那些用戶看不見、但賬單里占比過半的基礎(chǔ)設(shè)施決策。
首先是電力結(jié)構(gòu)。她對比了兩個場景:同樣訓(xùn)練一個GPT-3級別的模型,在愛荷華州(美國電網(wǎng)平均碳強度約400g CO?/kWh)排放約550噸二氧化碳,在魁北克(水電為主,碳強度約30g CO?/kWh)只有35噸。差距15倍,代碼一模一樣。「云服務(wù)商不會主動告訴你這個,」Akue說,「他們賣的是可用性,不是可持續(xù)性。」
她的建議是:把「區(qū)域碳強度」納入部署決策。AWS、谷歌云、Azure都提供實時碳數(shù)據(jù)API,雖然精度參差,但足以支撐「把非緊急訓(xùn)練任務(wù)調(diào)度到清潔能源時段」這類策略。Akue見過一個案例:某金融科技公司把模型重訓(xùn)練從固定凌晨2點,改成「風電預(yù)測充裕時段」,年電費降12%,碳足跡降34%。
其次是硬件利用率。AI訓(xùn)練的典型負載是「突發(fā)式」——集中幾周燒GPU,然后閑置數(shù)月。Akue算過一筆賬:一塊A100每小時租金約2美元,但閑置時如果不下線,電費+折舊約0.5美元/小時。一個50卡集群年閑置3000小時,就是7.5萬美元的白燒。「自動擴縮容(auto-scaling)不是新技術(shù),」她說,「但AI團隊常常忘了用,因為『反正預(yù)算批了』。」
最后是冷卻。數(shù)據(jù)中心PUE(能源使用效率,理想值為1.0)的行業(yè)平均約1.5,意味著每1度電用于計算,額外0.5度用于散熱。液冷可以把PUE壓到1.1以下,但改造成本高。Akue的務(wù)實建議是:新建數(shù)據(jù)中心直接上液冷,舊機房先做「氣流優(yōu)化」——擋板、熱通道隔離、變頻風機,投入幾萬美元,PUE降0.1-0.2。
演講收尾時,Akue放了一張圖:某公司的AI碳儀表盤,實時顯示每個模型的「碳成本 per 千次查詢」。臺下有人問:「這數(shù)據(jù)怎么審計?」她答:「先有不完美的數(shù)據(jù),才有改進的動力。等標準統(tǒng)一再行動,等于永遠不行動。」
QCon結(jié)束后,Akue的PPT在GitHub上被fork了1400多次。有個issue留言:「我們按這套方案改了推薦模型,推理成本降了57%,但產(chǎn)品經(jīng)理抱怨響應(yīng)慢了80毫秒。怎么說服他?」Akue回復(fù)了兩個字:「算錢。」把80毫秒換算成用戶流失率,再換算成營收損失,和電費節(jié)省對比——「數(shù)字不會撒謊,但你要會翻譯。」
另一個留言更直接:「如果老板只說『先上線』,怎么辦?」這次她沒回復(fù)。這個問題,大概在她的「多希望當初有人告訴我」清單里,排名很靠前。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.