![]()
去年一塊H100的功耗是700瓦,今年Blackwell直接飆到1200瓦。芯片設計師們發(fā)現(xiàn),晶體管算得再快,熱量散不出去就是塊昂貴的磚頭。
這是3D封裝(多芯片堆疊技術)帶來的甜蜜煩惱。當英偉達、AMD把GPU拆成十幾個小芯片(Chiplet)再疊在一起,熱管理從"后期調參"變成了"生死線"——一個熱點沒處理好,整顆芯片可能提前退休。
從"算完再補"到"開局就得想"
單芯片時代,工程師用一套熱阻公式就能估算結溫。Amkor Technology副總裁Mike Kelly回憶:"以前一個倒裝芯片BGA封裝,知道總功耗、各層熱阻和室溫, junction溫度(Tj)手算都能搞定。"
CMOS器件上限105°C,DRAM約85°C——這些數(shù)字刻在老一輩工程師腦子里。但多芯片封裝徹底推翻了這個劇本。
現(xiàn)在十幾顆芯片擠在同一基板上,熱點互相"借火",熱耦合讓局部溫度呈指數(shù)級惡化。Synopsys產品營銷總監(jiān)Marc Swinnen說得很直白:"高端GPU和處理器,我們已經(jīng)站在技術懸崖邊了"。
熱仿真被強制前移到原型階段。過去流片前最后檢查的事項,現(xiàn)在成了架構設計的第一道關卡——這叫系統(tǒng)級技術協(xié)同優(yōu)化(STCO)。
仿真再準,也得拿硅片"驗貨"
有限元建模(FEM)配合自適應網(wǎng)格劃分,是目前的主流解法。工程師在軟件里模擬熱傳導曲線,試圖在流片前鎖定所有風險點。
但仿真和真實硅片之間總有裂縫。于是有人造了一種"主動測量晶圓"——上面鋪滿加熱器和溫度傳感器,專門用來橋接虛擬與物理世界。
![]()
這套裝置能回答一個關鍵問題:你的熱模型,到底準不準?
驗證流程正在行業(yè)鋪開。部分頭部廠商開始要求:熱仿真結果必須用實測數(shù)據(jù)交叉校準,才能進入下一階段。這增加了前期成本,但避免了流片后才發(fā)現(xiàn)散熱設計失誤的災難。
散熱成本正在吃掉利潤
液冷、浸沒式冷卻、微流道——這些方案能把熱量壓下去,但價格標簽讓財務部門頭疼。Kelly指出,STCO的核心目標之一就是減少對昂貴冷卻方案的依賴。
翻譯成人話:能在芯片布局階段解決的熱問題,絕不留到買空調階段。
熱失控(thermal runaway)是另一個隱形殺手。芯片升溫→需要更多電力驅動→進一步升溫,這個死亡螺旋在3D封裝里傳播得更快。早期熱仿真的價值,在于把這類系統(tǒng)性風險扼殺在紙面。
行業(yè)正在形成新共識:散熱不是封裝廠的"售后問題",而是芯片架構師的"設計輸入"。
Swinnen觀察到,部分客戶已經(jīng)把熱仿真團隊并入了前端架構組,和性能、功耗團隊平級匯報——這在五年前不可想象。
當一顆AI芯片的功耗突破千瓦級,散熱設計的權重被重新計算。晶體管密度每翻倍一次,熱管理復雜度可能翻三倍——這個不等式,正在重塑芯片行業(yè)的分工邏輯。
Blackwell的1200瓦是個里程碑,但恐怕不是終點。問題是:下一代2000瓦芯片,我們還能用風冷湊合嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.