337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Transformer與RNN合體,谷歌打下顯存門檻,解鎖超長上下文

0
分享至



編輯|澤南

最近,谷歌跟內存干上了。

上個月,谷歌的 TurboQuant 研究曾經引發過一場行業地震,其宣稱能直接把大模型最吃顯存的 KV Cache 壓縮幾倍,讓市場開始擔憂未來對內存的需求,引發了一波內存股暴跌,后續還有不小的學術爭議。

這個星期,又有一篇谷歌論文引發了 AI 圈的關注,作者表示他們提出的方法解決了大模型處理長文本時的「內存瓶頸」(又來了),但實施的是完全不同的技術路線。

他們新開一條道路,通過對于大模型架構的機制創新,賦予了 RNN 「可生長的記憶容量」,找到了一種兼顧 Transformer 與 RNN 優勢的新方法



該方法可以讓 AI 處理更長的文本,解鎖「超長上下文」能力,與此同時極大地降低了推理的資源門檻。

人們紛紛表示歡迎:大模型生產環境要的就是這個。





當前的大模型幾乎都是基于 Transformer 架構打造的,它占據統治地位,主要歸功于其可增長的記憶容量(注意力機制的計算和空間復雜度隨上下文長度呈二次方增長)。這使得 Transformer 極其擅長長上下文的信息召回(Recall)。

然而,這種二次方復雜度也導致了嚴重的算力和顯存瓶頸,使得處理超長文本的成本極高。

為解決這個問題,社區一直在復興 RNN、線性注意力模型(Linear Attention)以及狀態空間模型(SSM,如 Mamba 等)。這些循環架構的優勢在于記憶容量固定(復雜度為),推理速度快且顯存占用低。然而,它們的致命弱點在于:無論讀了多少文本,都必須把所有過去的信息壓縮到一個「固定大小」的隱藏狀態(Hidden State)中。

這種「信息漏斗」導致它們在密集召回任務(Recall-intensive tasks,比如從極長的文檔中精準提取某個細節)中表現往往遠不如 Transformer。

為打破僵局,來自 Google Research 的研究團隊提出了一種名為Memory Caching(MC)的技術,據說簡單而有效。



  • 論文:《Memory Caching: RNNs with Growing Memory》
  • 論文鏈接:https://arxiv.org/abs/2602.24281

在這項研究的視角中,存在一個架構光譜:一端是 Transformer(無壓縮,Token 級緩存),另一端是傳統的 RNN(全壓縮,單一記憶)。而「記憶緩存(MC)」則解鎖了介于兩者之間的新形態:將成組 Token 壓縮并緩存到長期記憶狀態中,然后在需要時進行檢索。

Transformer 會緩存每一個單獨的標記,而 RNN 則考慮一個固定大小的記憶,并將上下文中的一切壓縮到記憶的參數中。那么,如果我們把 RNN 的歷史記憶也緩存下來會怎樣?

簡單來說,與其讓 RNN 只維護一個不斷被覆蓋和更新的「當前狀態」,不如定期對這些隱藏狀態進行「快照打卡」(Caching checkpoints)。這樣,在進行信息檢索時,模型不僅可以查看當前的「在線記憶」,還能直接調取「緩存記憶」中的歷史快照,瞬間找回過去的相關信息。



在研究的過程中,作為概念驗證,研究人員提出了三種變體,基于過去的信息如何組合在一起。

1、門控殘差記憶(Gated Residual Memory):使用查詢從過去檢索相關信息,然后執行類似注意力的池化來組合檢索到的信息。實際上,RNN 的記憶在增長,因此解碼成本也在增長:



2、記憶湯(Memory Soup):另一種結合過去記憶的方式,是直接結合記憶的權重,而不是針對特定查詢的輸出。在這種情況下,我們需要對過去記憶的權重執行類似注意力的池化操作,然后對池化后的記憶執行一次檢索。同樣,這種變體相對于上下文長度具有不斷增長的有效記憶,因此解碼成本也在增長。



3、稀疏選擇性緩存(Sparse Selective Caching,SSC):到目前為止,似乎沒有免費的午餐,我們需要在不斷增長的有效記憶和每 token 恒定的解碼成本之間做出選擇。

于是作者提出了 SSC,這是一種類似于 MoBA 的專家混合模型,在序列維度上稀疏地選擇過去緩存記憶的一個子集,從而引出一個模型,其有效記憶在增長,但其每 token 解碼成本保持相對恒定:



那么效果如何呢?

該方法可以作為一種通用框架,插入到各種現有的循環架構中,如線性注意力模型,或作者之前提出的深度內存模型 Titans 等。

實驗結果表明了其強大的有效性:



模型在語言建模和常識推理任務上的表現。

作者在 13 億參數的模型上進行了語言建模、召回密集型、長上下文以及 needle-in-a-haystack 等實驗,結果顯示 MC 相較于基礎模型提供了改進。其中包括:

  • 長上下文能力提升:在語言建模和長上下文理解任務中,加入了 MC 機制的循環模型性能得到了全面提升。
  • 縮小與 Transformer 的差距:在最具挑戰性的「上下文內召回(in-context recall)」任務中,加入了 MC 的模型擊敗了目前最先進(SOTA)的其他循環模型。
  • 依然存在上限:雖然 MC 極大地彌補了 RNN 的召回短板,并極大縮小了與 Transformer 之間的性能差距,但論文也指出,在純粹的密集召回任務上限上,Transformer 依然保持著最佳的準確率。

總的來說,該研究利用一種極其優雅的算法直覺(緩存歷史狀態快照),解決了一個長期存在的理論難題,讓非 Transformer 架構在實用性上又向前邁進了一大步。

盡管在極限的密集召回上,它依然尚未徹底超越 Transformer,但新路已經鋪就,隨著 RNN、SSM 等架構的持續進化,Transformer 一家獨大的現狀或許要有所改變了?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
天涯神貼真有那么神嗎?看網友講述原來正是因為神奇被關閉了。

天涯神貼真有那么神嗎?看網友講述原來正是因為神奇被關閉了。

侃神評故事
2026-04-15 17:25:03
約中年女人出來玩,學會4個“不要臉”的操作,沒有搞不定的女人

約中年女人出來玩,學會4個“不要臉”的操作,沒有搞不定的女人

藝鑒在線
2026-04-17 13:47:37
搶走王朔,睡遍京圈,定居國外9年的“壞種”徐靜蕾,成最終贏家

搶走王朔,睡遍京圈,定居國外9年的“壞種”徐靜蕾,成最終贏家

日落于西
2026-04-15 16:04:57
恭喜湖人!傷病專家談東里傷勢:東契奇首輪難出戰,里夫斯或復出

恭喜湖人!傷病專家談東里傷勢:東契奇首輪難出戰,里夫斯或復出

熊哥愛籃球
2026-04-17 11:13:02
索尼耳機半價背后:降噪技術正在"白菜化"

索尼耳機半價背后:降噪技術正在"白菜化"

灰度測試中
2026-04-16 21:33:36
北京首鋼16分大勝!山東男籃5連敗,李楠首秀開門紅,貝利爆發

北京首鋼16分大勝!山東男籃5連敗,李楠首秀開門紅,貝利爆發

體壇瞎白話
2026-04-17 21:42:18
張子宇新秀合同或超50萬!預計榜眼入WNBA 女籃2.2米王牌前途無量

張子宇新秀合同或超50萬!預計榜眼入WNBA 女籃2.2米王牌前途無量

顏小白的籃球夢
2026-04-17 12:20:00
要買SUV的先等等,這6款離上市不遠了,個個重磅全是黑科技?

要買SUV的先等等,這6款離上市不遠了,個個重磅全是黑科技?

AGUI藝車
2026-04-17 09:56:07
3千萬畢業生天崩開局

3千萬畢業生天崩開局

經濟學教授V
2026-04-15 18:23:37
體內有癌,睡覺先知!睡覺時出現5種表現,或是癌的“報警”信號

體內有癌,睡覺先知!睡覺時出現5種表現,或是癌的“報警”信號

熊貓醫學社
2026-04-17 11:35:03
42歲壯年突發心梗,右冠脈完全閉塞!專家提醒:這些壞習慣你可能天天在重復

42歲壯年突發心梗,右冠脈完全閉塞!專家提醒:這些壞習慣你可能天天在重復

上觀新聞
2026-04-17 15:18:04
俄外長剛回國,普京就在開會時發火!但他心里明白:中國已盡力了

俄外長剛回國,普京就在開會時發火!但他心里明白:中國已盡力了

聞識
2026-04-17 17:10:03
大學生不慎弄濕同學電腦 緊急下單“JD快修”被收6190元 京東回應:不要上當!

大學生不慎弄濕同學電腦 緊急下單“JD快修”被收6190元 京東回應:不要上當!

閃電新聞
2026-04-16 16:06:11
馬斯切拉諾為何辭職?名記:與梅西爭吵不斷,更衣室大吵成導火索

馬斯切拉諾為何辭職?名記:與梅西爭吵不斷,更衣室大吵成導火索

奧拜爾
2026-04-17 12:18:49
《暗黑破壞神Ⅳ》國服將于4月28日啟動游戲本體限時免費領取

《暗黑破壞神Ⅳ》國服將于4月28日啟動游戲本體限時免費領取

IT之家
2026-04-17 14:10:06
美媒:若中國不償還百年前的債務,美國也將不承認欠華8600億美元

美媒:若中國不償還百年前的債務,美國也將不承認欠華8600億美元

文史達觀
2025-03-18 12:54:58
反向換車的人越來越多了,不是沒錢了,而是終于想通了

反向換車的人越來越多了,不是沒錢了,而是終于想通了

侃故事的阿慶
2026-04-16 11:16:17
反轉來了!木子美大罵全紅嬋,扒出她在網暴群里點過贊,動機變了

反轉來了!木子美大罵全紅嬋,扒出她在網暴群里點過贊,動機變了

千言娛樂記
2026-04-17 11:37:05
媒體人:北京首鋼已經確定了新外援人選,雙方基本達成了意向

媒體人:北京首鋼已經確定了新外援人選,雙方基本達成了意向

懂球帝
2026-04-17 19:41:25
海牛0-0西海岸仍負分!海牛4中柱+葉博亞進球被吹 VAR半場4度介入

海牛0-0西海岸仍負分!海牛4中柱+葉博亞進球被吹 VAR半場4度介入

我愛英超
2026-04-17 21:08:02
2026-04-18 00:12:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12790文章數 142631關注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

頭條要聞

特朗普:感謝伊朗開放霍爾木茲海峽

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

態度原創

教育
房產
數碼
本地
藝術

教育要聞

成長是共同的抵達,棠中怡心校園藝體節圓滿落幕

房產要聞

重磅利好!2500個學位,海口濱江片區,要建九年一貫制學校!

數碼要聞

蘋果今年將推OLED版兩款新品,三星顯示供貨

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

藝術要聞

275米,東莞銀行新總部封頂!“燈籠”塔冠初顯

無障礙瀏覽 進入關懷版