AI吃電3年吃掉一座城，Ludi Akue甩出5張降耗底牌

2026-03-26 21:06:59　來源: 報錯免疫體

北京舉報

分享至

一次ChatGPT查詢的耗電量，夠你手機充滿2次。這不是環(huán)保組織的恐嚇，是QCon倫敦現(xiàn)場扔出的真實數(shù)據(jù)。Ludi Akue站在臺上，背后PPT亮著一行字：「GPU芯片壽命2-3年，然后變成電子垃圾」。臺下坐著幾百個技術(shù)負責人，有人開始低頭看手機——不是走神，是在查自家云賬單。

Akue的身份標簽很微妙：做過產(chǎn)品經(jīng)理，管過基礎(chǔ)設(shè)施，現(xiàn)在專職幫企業(yè)「減肥」。她給這場演講起的名字帶著悔意：《關(guān)于綠色IT，我多希望當初有人告訴我這些》。悔的不是技術(shù)選型，是那種「先上線再優(yōu)化」的慣性——等你想起來算碳賬的時候，模型已經(jīng)訓(xùn)練完了，電費已經(jīng)預(yù)付了三年。

藏在推理環(huán)節(jié)的電老虎

行業(yè)有個默契的謊言：訓(xùn)練大模型燒錢，推理（inference，即實際使用時的響應(yīng)計算）便宜。Akue直接拆臺——生成式AI的推理是「持續(xù)高負載」，不像傳統(tǒng)軟件有個明顯的閑時高峰。用戶每敲一次回車，GPU集群就得全員加班。

她舉了個具體的對比：傳統(tǒng)搜索請求的處理能耗，大約是生成式AI查詢的1/10到1/100。差距不是架構(gòu)優(yōu)劣，是任務(wù)本質(zhì)變了。搜索是「檢索已有信息」，生成是「現(xiàn)場造句」，后者需要逐詞概率計算，矩陣運算量呈指數(shù)級膨脹。

更隱蔽的是硬件折舊。一塊英偉達H100的物理壽命約5年，但在AI負載下，2-3年就得退役。不是壞了，是算力跟不上新模型了。這些芯片去哪？一部分流入二手市場，更多成為電子垃圾。Akue沒給具體數(shù)字，但引了一個行業(yè)估算：2023年全球AI芯片出貨量超1500萬片，按2.5年平均替換周期算，2026年開始將迎來第一波報廢潮。

用戶對此毫無感知。你的ChatGPT Plus訂閱費里，電費占比多少？碳排放折算成多少棵樹？沒有賬單分項，沒有碳標簽。Akue把這稱為「成本外部化」——便利歸你，污染歸地球，賬單歸下一代數(shù)據(jù)中心。

歐盟AI法案的 Enforcement Gap

監(jiān)管不是沒動。2024年生效的歐盟AI Act（人工智能法案）把AI系統(tǒng)按風險分級，高風險應(yīng)用需要透明度和人工監(jiān)督。Akue的點評很直接：「框架有了，牙齒沒長齊。」

問題出在執(zhí)行層。法案要求企業(yè)披露能耗和碳足跡，但沒規(guī)定統(tǒng)一計量標準。你用哪種電力結(jié)構(gòu)、怎么算間接排放、是否包含硬件制造環(huán)節(jié)——各說各話。Akue見過一份「合規(guī)報告」，把數(shù)據(jù)中心建在冰島（地熱豐富）算成碳中和，卻忽略了芯片從臺灣出廠時的制造排放。

她提了一個更尖銳的觀察：法案的罰款條款針對的是「違規(guī)上線」，而非「高能耗設(shè)計」。這意味著你可以做一個吞噬千兆瓦時的模型，只要通過安全審查，就不觸紅線。環(huán)保維度被降格為「自愿最佳實踐」，而非強制性約束。

「我們不是在等更好的法律，」Akue說，「是在等法律追上技術(shù)的速度。」這句話的潛臺詞是：等追上了，模型已經(jīng)迭代三代，電費已經(jīng)燒掉幾個億。

模型壓縮：給AI做「抽脂手術(shù)」

Akue的解決方案從算法層開始。她花了15分鐘講模型壓縮（model compression），態(tài)度像產(chǎn)品經(jīng)理審視功能冗余——「這個參數(shù)真的必要嗎？」

第一種技術(shù)是剪枝（pruning）。神經(jīng)網(wǎng)絡(luò)里有大量「睡眠神經(jīng)元」，訓(xùn)練時活躍，推理時躺平。剪枝就是識別并刪除這些冗余連接，模型體積可縮減30%-90%，精度損失控制在1%-3%。Akue展示了一個案例：某圖像識別模型從100MB壓到10MB，手機端推理速度提升4倍，能耗降了60%。

第二種是量化（quantization）。標準模型參數(shù)用32位浮點數(shù)存儲，量化是改成16位、8位甚至4位整數(shù)。精度損失？Akue的答案是「看場景」。語音識別容忍度高，醫(yī)療影像需要謹慎，但「大部分消費級應(yīng)用，8位量化幾乎無感知」。能耗收益很實在：內(nèi)存帶寬需求減半，計算單元效率提升，最終功耗可降40%-75%。

第三種是知識蒸餾（knowledge distillation）。讓大模型當「老師」，小模型當「學(xué)生」，學(xué)生只學(xué)老師的輸出結(jié)果，不學(xué)內(nèi)部參數(shù)。一個120億參數(shù)的模型，可以蒸餾出10億參數(shù)的「輕量版」，保留90%能力，能耗降到1/10。Akue的比喻是：「不是讓博士生去做小學(xué)數(shù)學(xué)題，是培養(yǎng)一個專門做小學(xué)題的助教。」

這些技術(shù)不是新概念，2016年就有論文發(fā)表。Akue的批評指向行業(yè)慣性：「我們默認用最大模型，因為GPU算力便宜，因為KPI是準確率小數(shù)點后第三位。」綠色IT要求把能耗納入優(yōu)化目標，不是事后補丁，而是設(shè)計約束。

架構(gòu)革新：從「大力出奇跡」到「精準打擊」

算法層之外，Akue押注的是架構(gòu)變革。她重點講了兩種路線：稀疏注意力（sparse attention）和專家混合模型（Mixture of Experts，MoE）。

傳統(tǒng)Transformer的注意力機制是「全連接」——每個詞都要和所有詞算一遍關(guān)聯(lián)度。稀疏注意力改成「只算重要的」，比如Longformer用滑動窗口+全局注意力，處理長文本時復(fù)雜度從O(n2)降到O(n)。Akue給了一個生產(chǎn)數(shù)據(jù)：某文檔分析工具改用稀疏注意力后，處理10萬字報告的能耗從12千瓦時降到0.8千瓦時，時間從45分鐘縮到3分鐘。

MoE則是「按需調(diào)用」。一個萬億參數(shù)模型，實際推理時只激活其中100億參數(shù)——不是隨機抽，是路由器（router）判斷「這個問題該哪個專家回答」。谷歌的Switch Transformer、Mistral AI的Mixtral系列都是這條路。Akue的觀察是：MoE的訓(xùn)練成本更高（需要喂更多數(shù)據(jù)讓路由器學(xué)會分工），但推理成本斷崖式下跌，「適合高頻、多樣化的查詢場景」。

她還提了一個更激進的思路：神經(jīng)架構(gòu)搜索（Neural Architecture Search，NAS）自動設(shè)計模型。給定能耗上限和精度下限，算法自己試錯找最優(yōu)結(jié)構(gòu)。2019年谷歌的EfficientNet就是這么誕生的，同等精度下參數(shù)量減少8.4倍。Akue的警告是：NAS本身很耗電，「用1000塊GPU搜一周，碳排放可能抵消后續(xù)三年的節(jié)省」。綠色IT的悖論無處不在。

基礎(chǔ)設(shè)施：被忽視的「暗能耗」

算法優(yōu)化是前端，Akue用最后三分之一時間講后端——那些用戶看不見、但賬單里占比過半的基礎(chǔ)設(shè)施決策。

首先是電力結(jié)構(gòu)。她對比了兩個場景：同樣訓(xùn)練一個GPT-3級別的模型，在愛荷華州（美國電網(wǎng)平均碳強度約400g CO?/kWh）排放約550噸二氧化碳，在魁北克（水電為主，碳強度約30g CO?/kWh）只有35噸。差距15倍，代碼一模一樣。「云服務(wù)商不會主動告訴你這個，」Akue說，「他們賣的是可用性，不是可持續(xù)性。」

她的建議是：把「區(qū)域碳強度」納入部署決策。AWS、谷歌云、Azure都提供實時碳數(shù)據(jù)API，雖然精度參差，但足以支撐「把非緊急訓(xùn)練任務(wù)調(diào)度到清潔能源時段」這類策略。Akue見過一個案例：某金融科技公司把模型重訓(xùn)練從固定凌晨2點，改成「風電預(yù)測充裕時段」，年電費降12%，碳足跡降34%。

其次是硬件利用率。AI訓(xùn)練的典型負載是「突發(fā)式」——集中幾周燒GPU，然后閑置數(shù)月。Akue算過一筆賬：一塊A100每小時租金約2美元，但閑置時如果不下線，電費+折舊約0.5美元/小時。一個50卡集群年閑置3000小時，就是7.5萬美元的白燒。「自動擴縮容（auto-scaling）不是新技術(shù)，」她說，「但AI團隊常常忘了用，因為『反正預(yù)算批了』。」

最后是冷卻。數(shù)據(jù)中心PUE（能源使用效率，理想值為1.0）的行業(yè)平均約1.5，意味著每1度電用于計算，額外0.5度用于散熱。液冷可以把PUE壓到1.1以下，但改造成本高。Akue的務(wù)實建議是：新建數(shù)據(jù)中心直接上液冷，舊機房先做「氣流優(yōu)化」——擋板、熱通道隔離、變頻風機，投入幾萬美元，PUE降0.1-0.2。

演講收尾時，Akue放了一張圖：某公司的AI碳儀表盤，實時顯示每個模型的「碳成本 per 千次查詢」。臺下有人問：「這數(shù)據(jù)怎么審計？」她答：「先有不完美的數(shù)據(jù)，才有改進的動力。等標準統(tǒng)一再行動，等于永遠不行動。」

QCon結(jié)束后，Akue的PPT在GitHub上被fork了1400多次。有個issue留言：「我們按這套方案改了推薦模型，推理成本降了57%，但產(chǎn)品經(jīng)理抱怨響應(yīng)慢了80毫秒。怎么說服他？」Akue回復(fù)了兩個字：「算錢。」把80毫秒換算成用戶流失率，再換算成營收損失，和電費節(jié)省對比——「數(shù)字不會撒謊，但你要會翻譯。」

另一個留言更直接：「如果老板只說『先上線』，怎么辦？」這次她沒回復(fù)。這個問題，大概在她的「多希望當初有人告訴我」清單里，排名很靠前。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.