來源:環球網
【環球網財經綜合報道】一篇尚未正式發表的學術論文,在3月26日引發全球存儲芯片板塊劇烈震蕩。據測算,全球主要內存巨頭市值單日蒸發超900億美元。
![]()
這場波動的導火索,是谷歌研究院即將在國際學習表征會議(ICLR 2026)上正式亮相的論文“TurboQuant”。
通常來說,當用戶與AI對話時,模型需要記住歷史上下文,這部分臨時存儲的數據隨上下文窗口膨脹而指數級增長。
谷歌團隊通過兩項創新技術PolarQuant(極坐標量化)和QJL(量化JL變換),實現了在“零損失”前提下將KV Cache壓縮至3-bit精度,內存占用縮小至少6倍。在英偉達H100 GPU上,4-bit TurboQuant的注意力計算速度比32-bit未量化版本快8倍。
Cloudflare首席執行官將這一突破稱為谷歌的“DeepSeek時刻”,認為其有望像DeepSeek一樣,通過極致效率大幅拉低AI運行成本。
面對科技圈的狂熱與二級市場的拋售,華爾街投行表現出明顯冷靜。
摩根士丹利在最新研報中明確表示,市場存在誤讀。該技術僅作用于推理階段的鍵值緩存,不影響模型權重所占用的高帶寬內存(HBM),也與AI訓練任務無關。分析師強調,所謂“6倍壓縮”并非存儲總需求的減少,而是通過效率提升增加單GPU的吞吐量。
Lynx Equity Strategies分析師KC Rajkumar指出,媒體報道存在夸大成分。當前推理模型早已廣泛采用4-bit量化數據,谷歌所謂的“8倍性能提升”是建立在與老舊32位模型對比的基礎之上。
摩根士丹利援引經濟學中的“杰文斯悖論”解釋長期影響:技術效率提升雖降低單位成本,但往往因使用門檻下降而帶動整體需求擴張。
富國銀行分析師Andrew Rocha指出,壓縮算法的存在從未從根本上改變硬件采購的整體規模。通過大幅降低單次查詢的服務成本,這類技術能讓原本只能在昂貴云端集群上運行的模型遷移至本地,有效降低AI規模化部署的門檻。
從供應鏈視角看,2026年服務器DRAM需求預計增長39%,HBM需求年增58%。TurboQuant的優化效果或將被行業增長浪潮淹沒。
截至發稿,谷歌尚未公布TurboQuant在Gemini等自研模型中的具體部署時間表。關于該技術的討論將在4月的ICLR 2026會議上繼續發酵。(陳十一)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.