337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

內存通脹“終結者”?谷歌公開最新極限壓縮算法

0
分享至


破解算力問題,降低模型所需的存算空間,有很多種途徑,是減少訓練時算力,還是減少推理時算力?稀疏化、量化、壓縮、蒸餾等手段,都是方法之一。只是當前鑒于不同方法的優勢特征,各家模型企業及研究機構都會選擇不同的策略。

以長上下文任務為例,過去兩年,AI算法團隊曾提出要以鍵值緩存(KV Cache)為中心的分離架構設計,即根據不同計算特性將預填充服務器與解碼服務器分開,在大batch size及隊列場景下需要更大的系統內存帶寬。簡而言之,對于許多推理時任務來說,瓶頸在于內存帶寬。

今日,谷歌發布了一項名為TurboQuant的算法,這項技術旨在解決上述提及的問題:大模型運行時的內存消耗。其核心是讓AI在思考和回答問題時,占用少得多的工作內存,同時保持幾乎相同的智力水平,甚至速度更快。

根據官方描述,TurboQuant的推出預計會帶來多項利好:模型推理方面,百萬Token上下文成本會明顯下降;向量數據庫領域,更容易做到實時索引和亞毫秒查詢;邊緣AI領域,手機和嵌入式設備的上下文推理更現實。此外,該思路同樣可擴展到多模態領域的向量壓縮。

事實上,就在該技術發布當日,美股存儲板塊如美光科技、閃迪等應聲下跌。近年來,內存(RAM)、固態硬盤(SSD)、硬盤驅動器(HDD)等存儲產品受下游數據中心建設擴張需求的激增,出現了一段時間的供應短缺及價格推高。該市場反應可以理解為,TurboQuant一旦廣泛應用,或將顯著影響未來對AI推理服務器中內存容量規格的需求判斷,重塑相關硬件的成本曲線。


要理解TurboQuant的價值,首先要明白大模型在生成文本時是如何工作的。它們并非一次性處理所有信息,而是像人類閱讀一樣,一個字一個字地生成。在這個過程中,模型需要一個“臨時記事本”來記住之前所有對話的內容,以免重復計算。這個“記事本”在技術上被稱為鍵值緩存(KV Cache)。但問題在于,對話越長,這個“記事本”就越厚,占用的內存就越多。以長文本為例,在處理超長文檔或復雜多輪對話時,KV Cache會迅速撐滿昂貴的高性能內存,成為制約AI處理速度、推高運行成本的主要瓶頸。

TurboQuant運用了兩個結算的核心算法:PolarQuant主壓縮和QJL(量化Johnson-Lindenstrauss變換)殘差校正,目標是壓縮KV Cache中的向量。

第一步:PolarQuant——高質量壓縮

傳統量化方法類似于用直角坐標系(東、北方向)記錄一個點的位置。TurboQuant的第一步,是PolarQuant,改用極坐標(角度和距離)來描述。研究發現,經過特定的數學變換(隨機旋轉)后,高維向量的數值分布會變得非常規律和集中,就像一個固定的圓形網格。這樣一來,系統可以預先計算好一套最優的壓縮碼本,無需針對每次對話進行復雜的校準,實現了在線實時壓縮。這一步用大部分比特對數據主體進行了高質量壓縮。

第二步:QJL——消除隱藏誤差

第一步壓縮后,會殘留微小的誤差。如果放任不管,在AI計算注意力(即決定關注對話中哪部分內容)時,這些誤差會累積并導致結果出現偏差。TurboQuant的第二步創新在于,它用一個名為QJL的方法來處理這些殘差。QJL的特點在于,它僅用1個比特(即一個正負號)來表征殘差,并與高精度的原始查詢向量結合,最終能實現無偏的內積估計。這意味著,盡管數據被大幅壓縮,但AI在計算“哪些信息更重要”時,得到的結果依然是準確無誤的。

什么是QJL?簡單說,就是一種把高維向量“投影”到低維空間的方法,且能以數學證明保證距離關系不被破壞太多。QJL把這個投影結果進一步壓縮到1比特,體積極小,但仍能作為無偏估計器。

根據谷歌官方博客闡述,TurboQuant帶來了接近理論極限的性能提升:


  • 極致壓縮:可以將KV Cache壓縮到每通道僅3比特,相比傳統的16或32比特存儲,減少了至少6倍的內存占用。在長上下文測試中,即使壓縮后,模型依然能找到隱藏的信息,表現滿分。
  • 精度無損:在多個標準長上下文基準測試(如LongBench、Needle in a Haystack)上,使用3.5比特配置的TurboQuant,模型性能與使用全精度緩存時完全一致,2.5比特配置下也只有輕微的性能下降。
  • 速度提升:由于需要從內存中讀取的數據量銳減,計算速度得到極大提升。在H100 GPU上,4比特TurboQuant的注意力核心步驟的速度,比未壓縮的32比特版本快8倍。

TurboQuant能夠以極低的內存占用、近乎零預處理時間和最先進的精度構建和查詢大型向量索引。這使得谷歌規模的語義搜索速度更快、效率更高。當然,TurboQuant的意義遠不止于一項實驗室突破。據博客所述,向量量化雖然目前主要解決的是Gemini等模型中的KV-cash瓶頸,但該技術同樣適用于需要在高維向量數據庫中進行海量搜索的場景(如現代語義搜索引擎)。

相關論文將在ICLR 2026和AISTATS 2026發表。

相關鏈接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

相關論文鏈接:https://arxiv.org/pdf/2502.02617

(本文作者 | 楊麗,編輯 | 楊林)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網友莫斯科遇見58歲伊能靜與47歲秦昊,女方臉型緊致比男方還年輕

網友莫斯科遇見58歲伊能靜與47歲秦昊,女方臉型緊致比男方還年輕

明星私服穿搭daily
2026-03-21 14:25:06
美媒哀嘆,特朗普最愚蠢地方,就是把中美平起平坐的事實說了出來

美媒哀嘆,特朗普最愚蠢地方,就是把中美平起平坐的事實說了出來

真的好愛你
2026-03-29 04:34:21
今年首場強對流天氣來襲!廣西這些地方將迎暴雨、8至10級雷暴大風和冰雹……

今年首場強對流天氣來襲!廣西這些地方將迎暴雨、8至10級雷暴大風和冰雹……

魯中晨報
2026-03-29 10:21:16
同樣是跟腱斷裂復出,塔圖姆與杜蘭特的效率根本不是一個級別!

同樣是跟腱斷裂復出,塔圖姆與杜蘭特的效率根本不是一個級別!

田先生籃球
2026-03-28 23:03:18
牢A的新賽道?

牢A的新賽道?

關爾東
2026-03-28 20:20:30
朝鮮導游對中國游客說,中國有幾個方面不如朝鮮,他們說的對嗎?

朝鮮導游對中國游客說,中國有幾個方面不如朝鮮,他們說的對嗎?

番外行
2026-03-29 00:15:03
美國最大的失誤就是一上來就把宋江給干掉了

美國最大的失誤就是一上來就把宋江給干掉了

仰望星空的一粒沙子
2026-03-14 16:25:14
長的太漂亮了,真正的珠圓玉潤,標準的東方美

長的太漂亮了,真正的珠圓玉潤,標準的東方美

生活新鮮市
2026-03-27 07:21:32
張雪峰骨灰將運回老家下葬:兩任妻子現身追悼會,女兒痛哭惹人憐

張雪峰骨灰將運回老家下葬:兩任妻子現身追悼會,女兒痛哭惹人憐

博士觀察
2026-03-28 16:28:02
戰爭已到臨界點!以色列下達決戰書:48小時定生死,立刻啟用核彈

戰爭已到臨界點!以色列下達決戰書:48小時定生死,立刻啟用核彈

夢史
2026-03-28 12:31:05
毛主席提議落選的國旗,網友感嘆:寓意很偉大,但確實不合適

毛主席提議落選的國旗,網友感嘆:寓意很偉大,但確實不合適

微史紀
2026-03-28 12:49:01
彩票銷量“斷崖式”下跌,2元中500萬夢,為何如今沒人愿意信了?

彩票銷量“斷崖式”下跌,2元中500萬夢,為何如今沒人愿意信了?

復轉這些年
2026-03-28 11:52:28
伊朗同意再放行20艘巴基斯坦籍船只通過霍爾木茲海峽,今后每天將有兩艘船通過該海峽

伊朗同意再放行20艘巴基斯坦籍船只通過霍爾木茲海峽,今后每天將有兩艘船通過該海峽

揚子晚報
2026-03-29 07:17:05
李梓萌風波大反轉!同事曝光現狀,離開央視傳聞這下終于真相大白

李梓萌風波大反轉!同事曝光現狀,離開央視傳聞這下終于真相大白

離離言幾許
2026-03-27 13:48:10
奢侈到極致!法國4.4億鋒線三叉戟傲視足壇,三套輪換冠絕群雄!

奢侈到極致!法國4.4億鋒線三叉戟傲視足壇,三套輪換冠絕群雄!

田先生籃球
2026-03-28 18:37:47
長在懸崖超900年!浙江父子徒手挖了兩天,挖到3.5米長巨型夜交藤

長在懸崖超900年!浙江父子徒手挖了兩天,挖到3.5米長巨型夜交藤

雪靈谷
2026-03-03 18:18:48
回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

回加拿大生活的大山,60歲須發皆白很滄桑,重慶妻子仍風韻猶存

素衣讀史
2026-03-25 21:05:22
江淮做夢都想不到,自己做成中國的賓利,100萬一輛還供不應求

江淮做夢都想不到,自己做成中國的賓利,100萬一輛還供不應求

財經老莊
2026-03-27 18:40:20
連戰護盤成功,馬英九急轉彎,蕭旭岑暫脫危險,親美派攻勢受重挫

連戰護盤成功,馬英九急轉彎,蕭旭岑暫脫危險,親美派攻勢受重挫

策略述
2026-03-28 16:34:31
太壕了!有人把黿頭渚包了!

太壕了!有人把黿頭渚包了!

無錫eTV全媒體
2026-03-29 11:38:43
2026-03-29 14:51:00
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
131491文章數 862026關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

網約車司機被騙網貸后車內輕生:我不想死 但扛不住了

頭條要聞

網約車司機被騙網貸后車內輕生:我不想死 但扛不住了

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

張凌赫事件持續升級!官方點名怒批

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

藝術
時尚
房產
公開課
軍事航空

藝術要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

伊姐周六熱推:電視劇《家事法庭》;電視劇《白日提燈》......

房產要聞

首日430組來訪,單日120組認籌!??谑讉€真四代,徹底爆了!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美兩棲攻擊艦載3500名增援到達

無障礙瀏覽 進入關懷版