![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。
wisemodel社區持續舉辦系列頂會會享,歡迎研究人員的團隊報名分享與投稿
線性注意力和 SSM 這兩年被頻繁拿出來討論,原因很簡單:softmax attention 的二次復雜度在長上下文場景下已經越來越難以接受。但與此同時,一個同樣反復出現的現象也越來越明顯——只要上下文一拉長、輸入尺度一放大,很多線性注意力模型就開始數值不穩定,性能迅速退化。
通常的解釋路徑是熟悉的:線性注意力缺少 softmax 的歸一化、對輸入能量敏感、需要額外的 gate 或 decay 機制來穩住訓練。但 EFLA 這篇論文提出了一個更底層、也更“數學正確”的解釋:問題不在注意力本身,而在于之前一直在用一個過于粗糙的數值方法去實現它。
![]()
項目地址:https://wisemodel.cn/codes/kkkkkleeiii/EFLA
01.
線性注意力其實在“解一個連續系統”
如果把 DeltaNet 這一類線性注意力的狀態更新寫下來,會發現它本質上是在維護一個 key→value 的關聯矩陣,并在每個時間步對這個矩陣做一次小幅修正。這個過程通常被解釋為 online regression 或 fast weights:
![]()
但 EFLA 指出,更自然的理解其實是:
這是一個連續時間動力系統,被強行離散化成了逐 token 的更新。
![]()
在連續時間里,這個系統的行為非常清晰:一方面,舊的記憶沿著當前 key 的方向指數衰減;另一方面,新的 value 沿著同一個方向被注入進狀態中。換句話說,這是一個帶衰減項和輸入項的一階線性 ODE。
而在代碼里看到的 DeltaNet 更新,其實只是對這個連續系統做了一步最簡單的數值積分。
02.
真正的問題:之前一直在用Euler
從數值分析的角度看,DeltaNet 使用的更新方式等價于顯式 Euler 方法。Euler 的優點是簡單、快,但它也是最低階的一種數值積分方法。它的誤差在單步看起來很小,但會隨著步數線性累積。
把這個事實代回線性注意力,就會發現很多“經驗現象”突然說得通了:
為什么序列一長就容易不穩?為什么 key 的范數一大,狀態就會爆?為什么在高能輸入或者 OOD scale 下模型直接崩掉?
不是模型設計出了問題,而是你在用一個一階方法,去長期積分一個本來就帶指數行為的系統。
03.
那為什么不直接“把系統解對”
聽起來很自然的一個想法是:既然這是一個連續系統,那能不能直接用更高階的方法,甚至直接算解析解?
答案通常是否定的。原因也很現實:連續系統的精確解會涉及矩陣指數,而對一般矩陣來說,解 的計算代價是
,在注意力里根本不可接受。但 EFLA 的關鍵發現是:線性注意力里的這個系統,有一個被長期忽略的特殊結構。
04.
關鍵在于:這個矩陣幾乎永遠是rank-1
在 DeltaNet 和類似方法中,決定衰減方向的矩陣,實際上是由當前 key 的外積構成的。也就是說,它只有一個非零方向,本質上是 rank-1。
![]()
這個結構帶來了一個非常“白撿”的結果:矩陣指數可以被化簡成一個閉式表達,而且計算量仍然是線性的。
換句話說,原本看起來不可能的“精確解”,在這里突然變成了可計算的。
05.
EFLA做的事情,其實非常克制
最終得到的 EFLA 更新形式,和 DeltaNet 幾乎一模一樣:
![]()
原來直接使用的地方,被替換成了一個由 key 能量自動調節的系數。
![]()
這個系數的行為非常直觀:當 key 的能量很大時,更新會自然飽和,避免狀態被一次輸入沖垮;當 key 很弱時,它又會退化回原來的 delta rule 行為。重要的是,這不是人為設計的 gate,而是連續系統的精確解本來就應該長成這樣。
06.
穩定性不是“調出來的”,而是算出來的
這也解釋了一個論文中看似反直覺、但非常一致的實驗現象:EFLA 在訓練早期通常更穩、更抗噪,但在后期可能需要更大的全局學習率。原因并不復雜。精確解帶來的指數衰減,本身就會壓縮高能更新的幅度。如果學習率還沿用 DeltaNet 的設置,模型反而會“更新不夠”。這不是缺點,而是精確解的自然代價。
07.
工程上,它并不更難用
一個很容易被誤解的點是:EFLA 會不會犧牲并行性,或者只能串行計算?
答案是否定的。因為它的更新結構與 DeltaNet 完全同構,所有已有的 chunk-wise 并行技巧、硬件友好的實現路徑都可以直接復用。從工程視角看,它更像是把一個近似更新,替換成了一個物理上正確的更新核。
EFLA 并沒有試圖“發明一種更聰明的注意力”。它只是指出了一件被長期忽略的事實:線性注意力本來就是一個連續時間系統,而之前一直在用最低階的方法去解它。在 rank-1 這個極其常見的結構下,精確解并不昂貴。而一旦把系統解對了,很多穩定性問題會自然消失。
編輯:成蘊年
----- END -----
wisemodel相關:
系列模型:
![]()
關于wisemodel更多
![]()
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.