網易首頁 > 網易號 > 正文申請入駐

Transformer與RNN合體，谷歌打下顯存門檻，解鎖超長上下文

2026-04-17 18:31:53　來源: 機器之心Pro

北京舉報

分享至

編輯｜澤南

最近，谷歌跟內存干上了。

上個月，谷歌的 TurboQuant 研究曾經引發過一場行業地震，其宣稱能直接把大模型最吃顯存的 KV Cache 壓縮幾倍，讓市場開始擔憂未來對內存的需求，引發了一波內存股暴跌，后續還有不小的學術爭議。

這個星期，又有一篇谷歌論文引發了 AI 圈的關注，作者表示他們提出的方法解決了大模型處理長文本時的「內存瓶頸」（又來了），但實施的是完全不同的技術路線。

他們新開一條道路，通過對于大模型架構的機制創新，賦予了 RNN 「可生長的記憶容量」，找到了一種兼顧 Transformer 與 RNN 優勢的新方法

該方法可以讓 AI 處理更長的文本，解鎖「超長上下文」能力，與此同時極大地降低了推理的資源門檻。

人們紛紛表示歡迎：大模型生產環境要的就是這個。

當前的大模型幾乎都是基于 Transformer 架構打造的，它占據統治地位，主要歸功于其可增長的記憶容量（注意力機制的計算和空間復雜度隨上下文長度呈二次方增長）。這使得 Transformer 極其擅長長上下文的信息召回（Recall）。

然而，這種二次方復雜度也導致了嚴重的算力和顯存瓶頸，使得處理超長文本的成本極高。

為解決這個問題，社區一直在復興 RNN、線性注意力模型（Linear Attention）以及狀態空間模型（SSM，如 Mamba 等）。這些循環架構的優勢在于記憶容量固定（復雜度為），推理速度快且顯存占用低。然而，它們的致命弱點在于：無論讀了多少文本，都必須把所有過去的信息壓縮到一個「固定大小」的隱藏狀態（Hidden State）中。

這種「信息漏斗」導致它們在密集召回任務（Recall-intensive tasks，比如從極長的文檔中精準提取某個細節）中表現往往遠不如 Transformer。

為打破僵局，來自 Google Research 的研究團隊提出了一種名為Memory Caching（MC）的技術，據說簡單而有效。

論文：《Memory Caching: RNNs with Growing Memory》
論文鏈接：https://arxiv.org/abs/2602.24281

在這項研究的視角中，存在一個架構光譜：一端是 Transformer（無壓縮，Token 級緩存），另一端是傳統的 RNN（全壓縮，單一記憶）。而「記憶緩存（MC）」則解鎖了介于兩者之間的新形態：將成組 Token 壓縮并緩存到長期記憶狀態中，然后在需要時進行檢索。

Transformer 會緩存每一個單獨的標記，而 RNN 則考慮一個固定大小的記憶，并將上下文中的一切壓縮到記憶的參數中。那么，如果我們把 RNN 的歷史記憶也緩存下來會怎樣？

簡單來說，與其讓 RNN 只維護一個不斷被覆蓋和更新的「當前狀態」，不如定期對這些隱藏狀態進行「快照打卡」（Caching checkpoints）。這樣，在進行信息檢索時，模型不僅可以查看當前的「在線記憶」，還能直接調取「緩存記憶」中的歷史快照，瞬間找回過去的相關信息。

在研究的過程中，作為概念驗證，研究人員提出了三種變體，基于過去的信息如何組合在一起。

1、門控殘差記憶（Gated Residual Memory）：使用查詢從過去檢索相關信息，然后執行類似注意力的池化來組合檢索到的信息。實際上，RNN 的記憶在增長，因此解碼成本也在增長：

2、記憶湯（Memory Soup）：另一種結合過去記憶的方式，是直接結合記憶的權重，而不是針對特定查詢的輸出。在這種情況下，我們需要對過去記憶的權重執行類似注意力的池化操作，然后對池化后的記憶執行一次檢索。同樣，這種變體相對于上下文長度具有不斷增長的有效記憶，因此解碼成本也在增長。

3、稀疏選擇性緩存（Sparse Selective Caching，SSC）：到目前為止，似乎沒有免費的午餐，我們需要在不斷增長的有效記憶和每 token 恒定的解碼成本之間做出選擇。

于是作者提出了 SSC，這是一種類似于 MoBA 的專家混合模型，在序列維度上稀疏地選擇過去緩存記憶的一個子集，從而引出一個模型，其有效記憶在增長，但其每 token 解碼成本保持相對恒定：

那么效果如何呢？

該方法可以作為一種通用框架，插入到各種現有的循環架構中，如線性注意力模型，或作者之前提出的深度內存模型 Titans 等。

實驗結果表明了其強大的有效性：

模型在語言建模和常識推理任務上的表現。

作者在 13 億參數的模型上進行了語言建模、召回密集型、長上下文以及 needle-in-a-haystack 等實驗，結果顯示 MC 相較于基礎模型提供了改進。其中包括：

長上下文能力提升：在語言建模和長上下文理解任務中，加入了 MC 機制的循環模型性能得到了全面提升。
縮小與 Transformer 的差距：在最具挑戰性的「上下文內召回（in-context recall）」任務中，加入了 MC 的模型擊敗了目前最先進（SOTA）的其他循環模型。
依然存在上限：雖然 MC 極大地彌補了 RNN 的召回短板，并極大縮小了與 Transformer 之間的性能差距，但論文也指出，在純粹的密集召回任務上限上，Transformer 依然保持著最佳的準確率。

總的來說，該研究利用一種極其優雅的算法直覺（緩存歷史狀態快照），解決了一個長期存在的理論難題，讓非 Transformer 架構在實用性上又向前邁進了一大步。

盡管在極限的密集召回上，它依然尚未徹底超越 Transformer，但新路已經鋪就，隨著 RNN、SSM 等架構的持續進化，Transformer 一家獨大的現狀或許要有所改變了？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.