網易首頁 > 網易號 > 正文申請入駐

頂會研究系列 | EFLA：可精確求解的穩定線性注意力！

2026-01-22 19:59:25　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區，始終堅持“中立、開放、共建、共創、合作”五項基本原則，歡迎加入共同成長。

wisemodel社區持續舉辦系列頂會會享，歡迎研究人員的團隊報名分享與投稿

線性注意力和 SSM 這兩年被頻繁拿出來討論，原因很簡單：softmax attention 的二次復雜度在長上下文場景下已經越來越難以接受。但與此同時，一個同樣反復出現的現象也越來越明顯——只要上下文一拉長、輸入尺度一放大，很多線性注意力模型就開始數值不穩定，性能迅速退化。

通常的解釋路徑是熟悉的：線性注意力缺少 softmax 的歸一化、對輸入能量敏感、需要額外的 gate 或 decay 機制來穩住訓練。但 EFLA 這篇論文提出了一個更底層、也更“數學正確”的解釋：問題不在注意力本身，而在于之前一直在用一個過于粗糙的數值方法去實現它。

項目地址：https://wisemodel.cn/codes/kkkkkleeiii/EFLA

01.

線性注意力其實在“解一個連續系統”

如果把 DeltaNet 這一類線性注意力的狀態更新寫下來，會發現它本質上是在維護一個 key→value 的關聯矩陣，并在每個時間步對這個矩陣做一次小幅修正。這個過程通常被解釋為 online regression 或 fast weights：

但 EFLA 指出，更自然的理解其實是：

這是一個連續時間動力系統，被強行離散化成了逐 token 的更新。

在連續時間里，這個系統的行為非常清晰：一方面，舊的記憶沿著當前 key 的方向指數衰減；另一方面，新的 value 沿著同一個方向被注入進狀態中。換句話說，這是一個帶衰減項和輸入項的一階線性 ODE。

而在代碼里看到的 DeltaNet 更新，其實只是對這個連續系統做了一步最簡單的數值積分。

02.

真正的問題：之前一直在用Euler

從數值分析的角度看，DeltaNet 使用的更新方式等價于顯式 Euler 方法。Euler 的優點是簡單、快，但它也是最低階的一種數值積分方法。它的誤差在單步看起來很小，但會隨著步數線性累積。

把這個事實代回線性注意力，就會發現很多“經驗現象”突然說得通了：

為什么序列一長就容易不穩？為什么 key 的范數一大，狀態就會爆？為什么在高能輸入或者 OOD scale 下模型直接崩掉？

不是模型設計出了問題，而是你在用一個一階方法，去長期積分一個本來就帶指數行為的系統。

03.

那為什么不直接“把系統解對”

聽起來很自然的一個想法是：既然這是一個連續系統，那能不能直接用更高階的方法，甚至直接算解析解？

答案通常是否定的。原因也很現實：連續系統的精確解會涉及矩陣指數，而對一般矩陣來說，解的計算代價是

，在注意力里根本不可接受。但 EFLA 的關鍵發現是：線性注意力里的這個系統，有一個被長期忽略的特殊結構。

04.

關鍵在于：這個矩陣幾乎永遠是rank-1

在 DeltaNet 和類似方法中，決定衰減方向的矩陣，實際上是由當前 key 的外積構成的。也就是說，它只有一個非零方向，本質上是 rank-1。

這個結構帶來了一個非常“白撿”的結果：矩陣指數可以被化簡成一個閉式表達，而且計算量仍然是線性的。

換句話說，原本看起來不可能的“精確解”，在這里突然變成了可計算的。

05.

EFLA做的事情，其實非常克制

最終得到的 EFLA 更新形式，和 DeltaNet 幾乎一模一樣:

原來直接使用的地方，被替換成了一個由 key 能量自動調節的系數。

這個系數的行為非常直觀：當 key 的能量很大時，更新會自然飽和，避免狀態被一次輸入沖垮；當 key 很弱時，它又會退化回原來的 delta rule 行為。重要的是，這不是人為設計的 gate，而是連續系統的精確解本來就應該長成這樣。

06.

穩定性不是“調出來的”，而是算出來的

這也解釋了一個論文中看似反直覺、但非常一致的實驗現象：EFLA 在訓練早期通常更穩、更抗噪，但在后期可能需要更大的全局學習率。原因并不復雜。精確解帶來的指數衰減，本身就會壓縮高能更新的幅度。如果學習率還沿用 DeltaNet 的設置，模型反而會“更新不夠”。這不是缺點，而是精確解的自然代價。

07.

工程上，它并不更難用

一個很容易被誤解的點是：EFLA 會不會犧牲并行性，或者只能串行計算？

答案是否定的。因為它的更新結構與 DeltaNet 完全同構，所有已有的 chunk-wise 并行技巧、硬件友好的實現路徑都可以直接復用。從工程視角看，它更像是把一個近似更新，替換成了一個物理上正確的更新核。

EFLA 并沒有試圖“發明一種更聰明的注意力”。它只是指出了一件被長期忽略的事實：線性注意力本來就是一個連續時間系統，而之前一直在用最低階的方法去解它。在 rank-1 這個極其常見的結構下，精確解并不昂貴。而一旦把系統解對了，很多穩定性問題會自然消失。

編輯：成蘊年

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.