337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

谷歌沖破內(nèi)存墻!新算法內(nèi)存占用暴砍83%,速度提升8倍!

0
分享至


智東西
編譯 劉煜
編輯 陳駿達(dá)

智東西3月26日?qǐng)?bào)道,昨天,谷歌于發(fā)布了一款針對(duì)大語(yǔ)言模型鍵值緩存(KV Cache)的無(wú)損極限壓縮算法TurboQuant,它能夠從根本上解決向量量化中內(nèi)存開(kāi)銷問(wèn)題。谷歌稱,TurboQuant可將大語(yǔ)言模型鍵值緩存內(nèi)存占用至少降至原來(lái)的1/6,推理速度最高提升8倍,同時(shí)保持100%精確程度。

Cloudflare的聯(lián)合創(chuàng)始人、CEO兼執(zhí)行主席Matthew Prince稱,谷歌推出TurboQuant堪稱“谷歌的DeepSeek時(shí)刻”。


▲Matthew Prince的推文(圖源:X)

向量量化一直是企業(yè)為AI數(shù)據(jù) “瘦身” 的主流技術(shù),主要用于壓縮高維向量、節(jié)省內(nèi)存、提升檢索與推理效率。但傳統(tǒng)壓縮方法通常會(huì)引入額外的內(nèi)存開(kāi)銷(每一小塊數(shù)據(jù)都要單獨(dú)算、單獨(dú)存一套完整的“壓縮參數(shù)”),這些參數(shù)很占內(nèi)存,每個(gè)數(shù)字都要多占1-2 bit,這樣反而會(huì)影響向量量化的效果。

谷歌稱,此次推出的TurboQuant借助了谷歌提出的1 bit無(wú)偏誤差校正算法QJL極坐標(biāo)量化壓縮技術(shù)PolarQuant,實(shí)現(xiàn)了壓縮算法的突破。

谷歌官宣推出TurboQuant后,引發(fā)資本市場(chǎng)短期內(nèi)對(duì)該技術(shù)會(huì)降低存儲(chǔ)芯片采購(gòu)需求的擔(dān)憂,導(dǎo)致存儲(chǔ)芯片板塊集體回調(diào)。

當(dāng)天美股盤中,美光股票跌幅超過(guò)5%,收盤時(shí)下跌3.4%,市值蒸發(fā)約151.6億美元(約合人民幣1047.37億元)。閃迪股票下跌幅度更大,一度超過(guò)7%,收盤時(shí)下跌3.5%,市值蒸發(fā)約36.44億美元(約合人民幣251.75億元)。韓股收盤時(shí),SK海力士股價(jià)下跌了6.23%。


▲美光、閃迪股價(jià)圖(圖源:騰訊自選股)SK海力士股價(jià)圖(圖源:Investing)

博客鏈接:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理:高質(zhì)量壓縮與誤差修正

TurboQuant能夠在零精度損失下實(shí)現(xiàn)模型尺寸的大幅縮小,非常適合支持鍵值緩存壓縮和向量搜索。它主要通過(guò)兩個(gè)關(guān)鍵步驟實(shí)現(xiàn)這一目標(biāo)。

TurboQuant首先對(duì)數(shù)據(jù)向量進(jìn)行隨機(jī)旋轉(zhuǎn)變換,這樣處理簡(jiǎn)化了數(shù)據(jù)的幾何結(jié)構(gòu),使得TurboQuant可以對(duì)向量的每個(gè)部分單獨(dú)應(yīng)用標(biāo)準(zhǔn)的高質(zhì)量量化器(量化器是一種將大量連續(xù)數(shù)值映射為更少并且離散的符號(hào)或數(shù)值的工具,比如音頻量化與JPEG壓縮)。

第一階段,PolarQuant利用大部分壓縮算力(絕大多數(shù)比特位)來(lái)捕捉原始向量的核心語(yǔ)義與特征強(qiáng)度,完成主體壓縮

PolarQuant不再使用表示各軸距離的標(biāo)準(zhǔn)坐標(biāo)系(即X、Y、Z坐標(biāo))來(lái)描述向量,而是通過(guò)笛卡爾坐標(biāo)系將向量轉(zhuǎn)換為極坐標(biāo)。這就好比把“向東走3個(gè)街區(qū),向北走4個(gè)街區(qū)”,替換成“沿37度方向走5個(gè)街區(qū)”。

PolarQuant轉(zhuǎn)換后只會(huì)保留半徑(代表核心數(shù)據(jù)的強(qiáng)度)和角度(代表數(shù)據(jù)的方向或語(yǔ)義)。由于角度的分布規(guī)律已知且高度集中,模型不再需要執(zhí)行計(jì)算代價(jià)高昂的數(shù)據(jù)歸一化操作。它將數(shù)據(jù)映射到一個(gè)邊界固定、可預(yù)測(cè)的圓形網(wǎng)格上,PolarQuant就不用再存那些“用來(lái)表示數(shù)據(jù)范圍”的額外信息,從而省下了一大塊內(nèi)存空間。


▲PolarQuant工作概念圖(圖源:谷歌官網(wǎng))

第二階段,TurboQuant僅以1 bit的極小額外內(nèi)存開(kāi)銷,將QJL作用于第一階段壓縮后殘留的微小誤差上,消除誤差

QJL采用一種名為約翰遜–林登斯特勞斯變換(Johnson-Lindenstrauss Transform)的數(shù)學(xué)方法,在保留數(shù)據(jù)點(diǎn)之間基本距離與關(guān)聯(lián)關(guān)系的前提下,把復(fù)雜的數(shù)據(jù)壓縮成了一種超級(jí)簡(jiǎn)單、幾乎不占額外內(nèi)存、計(jì)算又特別快的格式。

QJL在高精度查詢與低精度簡(jiǎn)化數(shù)據(jù)之間進(jìn)行結(jié)構(gòu)化平衡,相當(dāng)于一個(gè)數(shù)學(xué)誤差校正器,能夠消除壓縮帶來(lái)的偏差。這使得模型能夠精準(zhǔn)計(jì)算注意力分?jǐn)?shù)(即判斷輸入信息中哪些部分重要、哪些部分可安全忽略的核心過(guò)程)。

二、拆解測(cè)試:TurboQuant強(qiáng)在哪?

谷歌稱,在實(shí)驗(yàn)中,TurboQuant能在完全不降低AI模型效果、不損失精度的前提下,顯著解決鍵值緩存給模型推理帶來(lái)的性能瓶頸。

谷歌拿Meta開(kāi)源的Llama-3.1-8B模型做測(cè)試,將TurboQuant、PolarQuant和KIVI算法相比較,可以看到,與官方基準(zhǔn)線Full Cache相比,TurboQuant能夠?qū)㈡I值緩存量化至僅3.5 bit,并且沒(méi)有損失模型精度。同時(shí),PolarQuant也幾乎實(shí)現(xiàn)了無(wú)損壓縮。


▲TurboQuant的緩存壓縮性能圖(橫軸為性能得分,縱軸為量化方案)(圖源:谷歌官網(wǎng))

谷歌對(duì)3種不同量化位寬的TurboQuant進(jìn)行測(cè)試,結(jié)果表明,在下圖的所有序列長(zhǎng)度(模型處理的文本token數(shù)量)中,TurboQuant 1 bit版本加速比最高,4 bit版本加速比最低。在1M超長(zhǎng)上下文中,TurboQuant 1 bit版本加速比在13倍左右,4 bit版本在7倍左右。

同時(shí),谷歌稱TurboQuant在JAX框架(谷歌的超級(jí)加速框架)的基礎(chǔ)上,仍能實(shí)現(xiàn)顯著加速。在英偉達(dá)的H100 GPU上,TurboQuant 4 bit版本相比不壓縮的32bit原版鍵值緩存,速度最高提升8倍,不僅能加速大模型推理,還能大幅優(yōu)化向量搜索、索引構(gòu)建等關(guān)鍵場(chǎng)景。


▲TurboQuant計(jì)算注意力logits的加速效果圖(橫軸為序列長(zhǎng)度,縱軸為加速比)(圖源:谷歌官網(wǎng))

在高維向量搜索任務(wù)中,谷歌以1@k召回率(1@k召回率用于衡量算法在其前k個(gè)近似結(jié)果中,壓縮后的向量和不壓縮時(shí)算出“最相似結(jié)果”一樣的概率。)為指標(biāo),將TurboQuant與當(dāng)前最優(yōu)方法PQ和RabbiQ進(jìn)行了效果對(duì)比。

從下圖可以看到,不管是2 bit還是4 bit版本的TurboQuant,都在召回率指標(biāo)上持續(xù)取得了更優(yōu)表現(xiàn)。這證實(shí)了TurboQuant在高維搜索任務(wù)中的穩(wěn)健性與高效性。

同時(shí),谷歌稱,在GloVe數(shù)據(jù)集(維度d=200)(斯坦福大學(xué)發(fā)布的經(jīng)典預(yù)訓(xùn)練詞向量數(shù)據(jù)集)上,TurboQuant在與當(dāng)前多種主流先進(jìn)量化方法的對(duì)比中,展現(xiàn)出穩(wěn)健的檢索性能,并實(shí)現(xiàn)了最優(yōu)的1@k召回率。


▲TurboQuant的召回率圖(橫軸是檢索范圍,縱軸是召回率)(圖源:谷歌官網(wǎng))

由此可見(jiàn),TurboQuant在PolarQuant主體壓縮的基礎(chǔ)上,通過(guò)極低比特量化與誤差校正,使鍵值緩存的存儲(chǔ)空間顯著減少,讓模型能夠在相同硬件條件下處理更長(zhǎng)的上下文、更大的批量數(shù)據(jù),同時(shí)降低推理成本。

此外,TurboQuant的推理速度極快,精度幾乎達(dá)到無(wú)損效果,即使在超長(zhǎng)文本下其推理能力依然穩(wěn)定高效。

結(jié)語(yǔ):算法博弈下的存儲(chǔ)焦慮,企業(yè)推動(dòng)大模型“瘦身”革命

TurboQuant在谷歌的測(cè)試中表現(xiàn)出了出色的出成績(jī),它能夠以極低的內(nèi)存占用、近乎為零的預(yù)處理耗時(shí),完成大規(guī)模向量索引的構(gòu)建與查詢,這讓“谷歌級(jí)別”的語(yǔ)義搜索變得更加快速高效。

早在2025年,英偉達(dá)于在arXiv上公開(kāi)了第一版KVTC,證明它能把大模型的鍵值緩存壓縮到原來(lái)的 1/20,同時(shí)精度損失不到1%。近期,英偉達(dá)更新了實(shí)測(cè)數(shù)據(jù),稱在H100 GPU上處理8000 Token的長(zhǎng)提示時(shí),模型生成第一個(gè)詞的時(shí)間,從傳統(tǒng)方案的3秒左右,縮短至380毫秒,速度提升8倍。

科技大廠正通過(guò)持續(xù)的算法創(chuàng)新與迭代,不斷提升AI大模型的推理效率。在當(dāng)前存儲(chǔ)芯片供應(yīng)緊張的背景下,企業(yè)通過(guò)對(duì)大模型推理過(guò)程中的鍵值緩存進(jìn)行高效壓縮,來(lái)提升大模型自身的推理效率,或許可以在一定程度上緩解存儲(chǔ)芯片產(chǎn)能跟不上AI算力發(fā)展速度的局面。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
你在無(wú)意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

你在無(wú)意中發(fā)現(xiàn)別人什么秘密?網(wǎng)友爆料,電視劇都不敢這樣演

夜深愛(ài)雜談
2026-03-16 22:21:03
美國(guó)總統(tǒng)特朗普表示將于5月14日至15日訪華 外交部:保持溝通

美國(guó)總統(tǒng)特朗普表示將于5月14日至15日訪華 外交部:保持溝通

閃電新聞
2026-03-26 20:37:07
中國(guó)大使參加摩洛哥國(guó)王宴會(huì),士兵闖入開(kāi)槍掃射,眾人倒在血泊中

中國(guó)大使參加摩洛哥國(guó)王宴會(huì),士兵闖入開(kāi)槍掃射,眾人倒在血泊中

百年歷史老號(hào)
2024-04-02 19:37:39
94歲王心剛現(xiàn)狀:跟兒子赴美,晚年回北京養(yǎng)老,證明王鐵成沒(méi)說(shuō)錯(cuò)

94歲王心剛現(xiàn)狀:跟兒子赴美,晚年回北京養(yǎng)老,證明王鐵成沒(méi)說(shuō)錯(cuò)

查爾菲的筆記
2026-03-23 18:04:49
日防衛(wèi)大臣終于回應(yīng):令人遺憾,將嚴(yán)肅處理

日防衛(wèi)大臣終于回應(yīng):令人遺憾,將嚴(yán)肅處理

觀察者網(wǎng)
2026-03-27 10:59:06
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
曾投資阿里140億,還投資恒大200億,如今只剩一套68平小房子

曾投資阿里140億,還投資恒大200億,如今只剩一套68平小房子

番外行
2026-03-27 10:15:25
《鏢人》再破紀(jì)錄,打敗《飛馳人生3》,登頂中國(guó)冠軍

《鏢人》再破紀(jì)錄,打敗《飛馳人生3》,登頂中國(guó)冠軍

影視高原說(shuō)
2026-03-24 19:32:39
二戰(zhàn)時(shí)期,唯一沒(méi)參戰(zhàn)的世界級(jí)強(qiáng)國(guó),當(dāng)時(shí)它到底在忙什么?

二戰(zhàn)時(shí)期,唯一沒(méi)參戰(zhàn)的世界級(jí)強(qiáng)國(guó),當(dāng)時(shí)它到底在忙什么?

諾言卿史錄
2026-03-27 09:49:20
張雪峰追悼會(huì)周六將在蘇州殯儀館舉行

張雪峰追悼會(huì)周六將在蘇州殯儀館舉行

界面新聞
2026-03-26 07:04:27
新冠后遺癥對(duì)人體的最大影響,很多人深受其害,有些人還不自知

新冠后遺癥對(duì)人體的最大影響,很多人深受其害,有些人還不自知

呼吸科大夫胡洋
2026-02-22 11:39:12
偷偷結(jié)婚生子?移民國(guó)外?李梓萌消失2月引爭(zhēng)議,擔(dān)心的事發(fā)生了

偷偷結(jié)婚生子?移民國(guó)外?李梓萌消失2月引爭(zhēng)議,擔(dān)心的事發(fā)生了

離離言幾許
2026-03-16 16:31:23
95歲葉選平追悼會(huì)現(xiàn)場(chǎng):身覆黨旗安睡,送別者擠滿會(huì)場(chǎng),中央派人專程慰問(wèn)

95歲葉選平追悼會(huì)現(xiàn)場(chǎng):身覆黨旗安睡,送別者擠滿會(huì)場(chǎng),中央派人專程慰問(wèn)

文史明鑒
2026-03-26 21:54:14
陳明仁起義開(kāi)價(jià):保留兵團(tuán)司令,林彪看完只說(shuō)了4個(gè)字

陳明仁起義開(kāi)價(jià):保留兵團(tuán)司令,林彪看完只說(shuō)了4個(gè)字

史海孤雁
2026-03-24 17:26:17
蔣介石下令炸開(kāi)汪精衛(wèi)之墓,發(fā)現(xiàn)他身上放著一張紙條,寫了何內(nèi)容

蔣介石下令炸開(kāi)汪精衛(wèi)之墓,發(fā)現(xiàn)他身上放著一張紙條,寫了何內(nèi)容

北海史記
2026-03-26 15:06:32
回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

回加拿大生活的大山,60歲須發(fā)皆白很滄桑,重慶妻子仍風(fēng)韻猶存

素衣讀史
2026-03-25 21:05:22
一文看懂西部3-6名之爭(zhēng):湖人第3掘金未必要第4,火箭森林狼吃虧

一文看懂西部3-6名之爭(zhēng):湖人第3掘金未必要第4,火箭森林狼吃虧

鐵甲西奇
2026-03-27 08:34:56
杜鋒備戰(zhàn)京粵大戰(zhàn),輪休4將,首鋼雙鋒線國(guó)手受傷

杜鋒備戰(zhàn)京粵大戰(zhàn),輪休4將,首鋼雙鋒線國(guó)手受傷

劉笤說(shuō)體壇
2026-03-27 07:07:35
伊朗呼吁美國(guó)投降并承認(rèn)失敗

伊朗呼吁美國(guó)投降并承認(rèn)失敗

桂系007
2026-03-26 22:56:21
人情世故是怎么學(xué)會(huì)的 看網(wǎng)友講述魏忠賢處事方式 思想上一個(gè)臺(tái)階

人情世故是怎么學(xué)會(huì)的 看網(wǎng)友講述魏忠賢處事方式 思想上一個(gè)臺(tái)階

侃神評(píng)故事
2026-03-16 15:10:03
2026-03-27 11:36:49
智東西 incentive-icons
智東西
聚焦智能變革,服務(wù)產(chǎn)業(yè)升級(jí)。
11447文章數(shù) 117016關(guān)注度
往期回顧 全部

科技要聞

OpenAI果斷砍掉"成人模式",死磕生產(chǎn)力

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個(gè)兒子訴苦 加沙兒童怎么看

頭條要聞

媒體:內(nèi)塔尼亞胡夫人為兩個(gè)兒子訴苦 加沙兒童怎么看

體育要聞

近29戰(zhàn)23勝!這支黃蜂有多強(qiáng)?

娛樂(lè)要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

很反常!油價(jià)向上,黃金向下

汽車要聞

線控底盤+千問(wèn)上車 智己LS8預(yù)售權(quán)益價(jià)25.98萬(wàn)起

態(tài)度原創(chuàng)

房產(chǎn)
親子
旅游
藝術(shù)
軍事航空

房產(chǎn)要聞

勁銷64億后,海口這座改善標(biāo)桿盤,又要引爆樓市!

親子要聞

原生家庭真的是會(huì)傷害子女嗎?

旅游要聞

固鎮(zhèn)第四屆櫻花季將于3月28日啟幕 15萬(wàn)株櫻花邀客共賞

藝術(shù)要聞

2025“殊相”——中國(guó)油畫學(xué)會(huì)創(chuàng)作研修作品展 | 作品選刊(一)

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版