網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Google 突然對AI“內(nèi)存稅”下手了：這篇論文，可能讓內(nèi)存大廠徹夜難眠

2026-03-26 11:48:34　來源: AI范兒

上海舉報

分享至

★ 設(shè)為星標(biāo) | 只講人話，帶你玩轉(zhuǎn)AIGC。

這兩年看 AI，我有個越來越強(qiáng)烈的感覺：大家表面上都在卷模型多聰明、插件多厲害，但底下真正燒錢的死穴，往往不是“計算”，而是“存儲”。

對話一長，AI 的“對話記憶”就開始瘋狂吃顯存。資料一多，AI 的“外掛知識庫”就開始瘋狂吃內(nèi)存。

很多系統(tǒng)最后不是不夠聰明，而是太貴、太重、太難大規(guī)模跑起來。

說白了，“貧窮”限制了 AI 的想象力。

現(xiàn)在的內(nèi)存貴到多離譜，想必大家都知道。就連我最近想配個臺式機(jī)，一看那內(nèi)存條的價格，也被直接勸退了。

這正是 Google Research 最近丟出的 TurboQuant 想要解決的死穴。

Google 把它定義為一套專門給“高維數(shù)據(jù)”脫水的壓縮方法，重點盯上的就是大模型的“對話記憶”和模型的“搜索能力”。

說白了，這篇論文不是在教模型怎么變得更聰明，而是在做一件更現(xiàn)實、也更值錢的事：怎么把 AI 里最占內(nèi)存的那堆東西，壓得更小、更輕。

01｜TurboQuant 到底厲害在哪？

先說結(jié)論：高壓縮比、無損數(shù)據(jù)壓縮。

TurboQuant 最值得記住的，不是那個拗口的名字，而是這幾個數(shù)字：

它在論文里給出的結(jié)果是，即便把“對話記憶”壓縮到原來的 1/5（也就是每個數(shù)據(jù)點只給 3.5 位的空間），AI 的智商也基本沒降。就算壓到更極致的 2.5 位，也只是輕微有點“斷片兒”。

在幫 AI 翻找資料的“搜索任務(wù)”里，它的準(zhǔn)確度比現(xiàn)有的主流壓縮方法都要好，而且整理數(shù)據(jù)的時間幾乎可以忽略不計。

Google 官方博客給了個更帶勁的版本：內(nèi)存占用至少降 6 倍，AI 思考時的關(guān)鍵計算速度，最高提升了 8 倍。

這幾個數(shù)字為什么會讓科技圈一下子坐直了？

因為它打中的，剛好是今天 AI 最貴的那部分“地皮成本”。對話越長，AI 需要占用的“記憶空間”就越大。

你模型再強(qiáng)，最后都得面對一個現(xiàn)實：這些記憶放哪兒、讀取快不快、要花多少錢。

02｜它不是簡單壓扁，關(guān)鍵在“別讓壓縮自己也變貴”

很多人看到這兒會想：這不就是把數(shù)據(jù)“脫水”（量化）嗎？以前不也有這種技術(shù)嗎？

但 TurboQuant 真正有意思的地方，不只是把數(shù)據(jù)壓得狠。

它想解決的是另一個很煩的老問題：很多壓縮方法看著省了內(nèi)存空間，結(jié)果壓縮和解壓的過程又太費勁，最后算下來并沒省多少。

這就是所謂的“公攤面積”太大。論文里的做法很有靈氣。

它像是一個頂級的裝修師，先給雜亂的數(shù)據(jù)“轉(zhuǎn)個身”，讓它們的排列分布更規(guī)整。

然后分兩步走：

大刀闊斧：先把大頭的數(shù)據(jù)壓下來；
精修補(bǔ)丁：再針對剩下的細(xì)微誤差補(bǔ)一個“極小位寬”的修正貼。

你可以把它理解成一句人話：先把大件家具塞進(jìn)紙箱，再用一點點膠帶把裂縫封死。

這就不是“簡單壓扁”了，而是在認(rèn)真做一件事：盡量把壓縮做得又狠、又穩(wěn)、還不拖累電腦的干活速度。

03｜為什么市場會被它嚇一下？

因為這類技術(shù)一出來，資本市場立刻就開始算賬了：

如果以后 AI 系統(tǒng)能用更少的內(nèi)存干同樣的事，那我們對那些昂貴的高端內(nèi)存、存儲芯片的需求，會不會沒之前想得那么夸張了？

這兩天的媒體報道里，確實已經(jīng)有人把這件事和內(nèi)存股的波動聯(lián)系起來了。

像美光、閃迪、希捷這些大廠的股價走弱時，大家都在討論：Google 這個“省內(nèi)存”的大招，會不會削弱大家買買買的需求？

但這里也別一口咬死。

另一種邏輯是：成本一旦降下來，AI 的應(yīng)用可能會像自來水一樣普及，最后反而把總需求拉得更高。

這就是為什么我更愿意把那波下跌理解成一種“情緒先跑”，真正的行業(yè)大戲才剛剛開場。

04｜這篇研究真正值錢的地方

我覺得，TurboQuant 最值得看的，不是 Google 又發(fā)了個新名詞，而是它提醒了所有人一件事：下一階段 AI 的競爭，不只是誰的模型更強(qiáng)，還會變成誰能把同樣的能力，跑得更便宜。

誰能把“對話記憶”壓小，誰能把“翻找資料”做輕，誰能把“讀取數(shù)據(jù)的瓶頸”打掉一截，誰就更有機(jī)會把那些超長對話、私人知識庫助手真正普及到每個人的手機(jī)里。

順手提一句，如果你之前關(guān)注過國產(chǎn)之光 DeepSeek 的相關(guān)技術(shù)（Engram），他們是在緩解顯卡的直接壓力。

而 Google 這一條線，核心是把 AI 需要記住的所有東西本身，變小、變輕。

兩者都在打“記憶成本”，只是路子不一樣。

谷歌這篇論文引起了不小的反響，比如著名公司 CloudFlare 公司的創(chuàng)始人就說它是谷歌的 DeepSeek 時刻。

另一位大 V Alex Finn說它是今年為止最大的新聞。

因為這意味著哪怕是 16GB 內(nèi)存的 Mac Mini 也能跑足夠強(qiáng)大的大模型。（這用來養(yǎng)小龍蝦不得起飛？）

一位開發(fā)者已經(jīng)將這項技術(shù)用到自己的模型當(dāng)中，它用來跑wen3.5-35B-A3B，發(fā)現(xiàn)KV 緩存可以壓縮 3.8～4.9 倍，最重要的是精度損失為零。

很多網(wǎng)友盛贊谷歌不僅發(fā)明而且公開了這項技術(shù)，而不是像很多公司那樣暗搓搓的留著自己用。

最后一句

很多 AI 研究看起來花里胡哨，但未必真的能落地。

TurboQuant 這種東西正好相反。它不算最熱鬧，卻很可能最接近真實世界里的錢、算力和成本。

因為很多系統(tǒng)最后輸?shù)模皇恰安粔蚵斆鳌保恰疤F了”。

我相信這樣的技術(shù)，會真正給端側(cè)大模型帶來革命性的影響。無論是手機(jī)、汽車還是其他的，也許很快都可以運行非常強(qiáng)悍的模型了。

你覺得 AI 下一階段更重要的，是繼續(xù)往上捅破天、搞更大的模型，還是先把這種底層的成本狠狠干下來？

如果你喜歡這種把論文翻譯成人話的內(nèi)容，點個“贊”、??。后面我繼續(xù)寫這類“不一定最火，但很可能最值錢”的 AI 技術(shù)。

參考：

https://arxiv.org/pdf/2504.19874

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/?utm_source=twitter&utm_medium=social&utm_campaign=social_post&utm_content=gr-acct

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.