337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

頂會研究系列 | EFLA:可精確求解的穩定線性注意力!

0
分享至


始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區,始終堅持“中立、開放、共建、共創、合作”五項基本原則,歡迎加入共同成長。

wisemodel社區持續舉辦系列頂會會享,歡迎研究人員的團隊報名分享與投稿

線性注意力和 SSM 這兩年被頻繁拿出來討論,原因很簡單:softmax attention 的二次復雜度在長上下文場景下已經越來越難以接受。但與此同時,一個同樣反復出現的現象也越來越明顯——只要上下文一拉長、輸入尺度一放大,很多線性注意力模型就開始數值不穩定,性能迅速退化。

通常的解釋路徑是熟悉的:線性注意力缺少 softmax 的歸一化、對輸入能量敏感、需要額外的 gate 或 decay 機制來穩住訓練。但 EFLA 這篇論文提出了一個更底層、也更“數學正確”的解釋:問題不在注意力本身,而在于之前一直在用一個過于粗糙的數值方法去實現它。


項目地址:https://wisemodel.cn/codes/kkkkkleeiii/EFLA

01.

線性注意力其實在“解一個連續系統”

如果把 DeltaNet 這一類線性注意力的狀態更新寫下來,會發現它本質上是在維護一個 key→value 的關聯矩陣,并在每個時間步對這個矩陣做一次小幅修正。這個過程通常被解釋為 online regression 或 fast weights:


但 EFLA 指出,更自然的理解其實是:

這是一個連續時間動力系統,被強行離散化成了逐 token 的更新。


在連續時間里,這個系統的行為非常清晰:一方面,舊的記憶沿著當前 key 的方向指數衰減;另一方面,新的 value 沿著同一個方向被注入進狀態中。換句話說,這是一個帶衰減項和輸入項的一階線性 ODE。

而在代碼里看到的 DeltaNet 更新,其實只是對這個連續系統做了一步最簡單的數值積分。

02.

真正的問題:之前一直在用Euler

從數值分析的角度看,DeltaNet 使用的更新方式等價于顯式 Euler 方法。Euler 的優點是簡單、快,但它也是最低階的一種數值積分方法。它的誤差在單步看起來很小,但會隨著步數線性累積。

把這個事實代回線性注意力,就會發現很多“經驗現象”突然說得通了:

為什么序列一長就容易不穩?為什么 key 的范數一大,狀態就會爆?為什么在高能輸入或者 OOD scale 下模型直接崩掉?

不是模型設計出了問題,而是你在用一個一階方法,去長期積分一個本來就帶指數行為的系統。

03.

那為什么不直接“把系統解對”

聽起來很自然的一個想法是:既然這是一個連續系統,那能不能直接用更高階的方法,甚至直接算解析解?

答案通常是否定的。原因也很現實:連續系統的精確解會涉及矩陣指數,而對一般矩陣來說,解 的計算代價是

,在注意力里根本不可接受。但 EFLA 的關鍵發現是:線性注意力里的這個系統,有一個被長期忽略的特殊結構。

04.

關鍵在于:這個矩陣幾乎永遠是rank-1

在 DeltaNet 和類似方法中,決定衰減方向的矩陣,實際上是由當前 key 的外積構成的。也就是說,它只有一個非零方向,本質上是 rank-1。


這個結構帶來了一個非常“白撿”的結果:矩陣指數可以被化簡成一個閉式表達,而且計算量仍然是線性的。

換句話說,原本看起來不可能的“精確解”,在這里突然變成了可計算的。

05.

EFLA做的事情,其實非常克制

最終得到的 EFLA 更新形式,和 DeltaNet 幾乎一模一樣:


原來直接使用的地方,被替換成了一個由 key 能量自動調節的系數。


這個系數的行為非常直觀:當 key 的能量很大時,更新會自然飽和,避免狀態被一次輸入沖垮;當 key 很弱時,它又會退化回原來的 delta rule 行為。重要的是,這不是人為設計的 gate,而是連續系統的精確解本來就應該長成這樣。

06.

穩定性不是“調出來的”,而是算出來的

這也解釋了一個論文中看似反直覺、但非常一致的實驗現象:EFLA 在訓練早期通常更穩、更抗噪,但在后期可能需要更大的全局學習率。原因并不復雜。精確解帶來的指數衰減,本身就會壓縮高能更新的幅度。如果學習率還沿用 DeltaNet 的設置,模型反而會“更新不夠”。這不是缺點,而是精確解的自然代價。

07.

工程上,它并不更難用

一個很容易被誤解的點是:EFLA 會不會犧牲并行性,或者只能串行計算?

答案是否定的。因為它的更新結構與 DeltaNet 完全同構,所有已有的 chunk-wise 并行技巧、硬件友好的實現路徑都可以直接復用。從工程視角看,它更像是把一個近似更新,替換成了一個物理上正確的更新核。

EFLA 并沒有試圖“發明一種更聰明的注意力”。它只是指出了一件被長期忽略的事實:線性注意力本來就是一個連續時間系統,而之前一直在用最低階的方法去解它。在 rank-1 這個極其常見的結構下,精確解并不昂貴。而一旦把系統解對了,很多穩定性問題會自然消失。

編輯:成蘊年

----- END -----

wisemodel相關:

系列模型:


關于wisemodel更多


1

歡迎持續關注和支持

開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。

2

歡迎加盟wisemodel開源社區

3

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。

向上滑動查看

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗外長:霍爾木茲海峽只對敵人關閉 中國、俄羅斯等國船只都安全通過了

伊朗外長:霍爾木茲海峽只對敵人關閉 中國、俄羅斯等國船只都安全通過了

閃電新聞
2026-03-26 10:48:55
蘋果憋了3年沒告訴你:你的充電器一直在"摸魚"

蘋果憋了3年沒告訴你:你的充電器一直在"摸魚"

全棧遛狗員
2026-03-25 23:00:33
小米捷報,誤傷寧德時代

小米捷報,誤傷寧德時代

ZAKER新聞
2026-03-26 22:10:32
在哪一瞬間,對你老公徹底失望了?網友:強行分居兩年,然后離婚

在哪一瞬間,對你老公徹底失望了?網友:強行分居兩年,然后離婚

另子維愛讀史
2026-03-24 21:15:00
49歲翁帆突傳“喜訊”!喪夫5個月后高調露面,狀態好到出人意料

49歲翁帆突傳“喜訊”!喪夫5個月后高調露面,狀態好到出人意料

查爾菲的筆記
2026-03-16 19:12:07
三次精準躲過斬首行動,卡尼突然現身反轉劇情,伊朗這局水太深了

三次精準躲過斬首行動,卡尼突然現身反轉劇情,伊朗這局水太深了

盛夏微涼
2026-03-24 18:10:08
王海團隊:已協助起訴黃天鵝

王海團隊:已協助起訴黃天鵝

南方都市報
2026-03-26 10:59:32
重返廣東!李春江有了新工作,亮相籃球場,崗位曝光,杜鋒期待

重返廣東!李春江有了新工作,亮相籃球場,崗位曝光,杜鋒期待

萌蘭聊個球
2026-03-26 13:02:53
2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

2-0晉級八強!中國女網15歲新星連續爆冷真猛:下一輪對決王曦雨

李喜林籃球絕殺
2026-03-26 17:04:26
國防部:菲方侵權挑釁只會遭到更加堅決應對

國防部:菲方侵權挑釁只會遭到更加堅決應對

界面新聞
2026-03-26 16:00:27
浙江省人大常委會決定任免部分省政府組成部門主要負責人

浙江省人大常委會決定任免部分省政府組成部門主要負責人

浙江發布
2026-03-26 10:04:01
不僅抗炎,這還是眼睛、大腦最愛的營養!

不僅抗炎,這還是眼睛、大腦最愛的營養!

FitEmpire健身領域
2026-03-26 14:53:07
你知道的高檔會所里消費有多高?網友:貧窮限制了我的想象

你知道的高檔會所里消費有多高?網友:貧窮限制了我的想象

夜深愛雜談
2026-03-14 21:25:13
寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

寫小說判十年,把生殖器放女孩嘴巴里判兩年九個月

昊軒看世界
2026-03-24 19:56:42
澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

澳門國民黨中將呂文貞突然說,我是李克農的人,該向組織報到了

鶴羽說個事
2026-03-25 21:56:09
薩拉赫離隊去向已明:不去沙特淘金,誓在歐洲巔峰再戰

薩拉赫離隊去向已明:不去沙特淘金,誓在歐洲巔峰再戰

樂道足球
2026-03-26 20:44:07
馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

馬英九疑似患失智癥,臺律師:大陸已注意到,沒讓其擔任統一大使

影孖看世界
2026-03-26 23:28:51
被伊朗打疼了?美以一邊要求停火30天,一邊密集調動特種部隊!

被伊朗打疼了?美以一邊要求停火30天,一邊密集調動特種部隊!

軍武次位面
2026-03-26 14:29:00
2026普法:強奸、通奸、嫖娼,只有這個行為會坐牢!

2026普法:強奸、通奸、嫖娼,只有這個行為會坐牢!

奇葩游戲醬
2026-03-26 05:01:32
美媒:以總理提議,特朗普拒絕

美媒:以總理提議,特朗普拒絕

環球時報國際
2026-03-27 00:13:22
2026-03-27 01:31:00
wisemodel開源社區 incentive-icons
wisemodel開源社區
始智AI wisemodel.cn開源社區,打造中國版“huggingface”
466文章數 14關注度
往期回顧 全部

科技要聞

美團發布外賣大戰后成績單:虧損超200億

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

頭條要聞

張雪峰留巨額遺產:二婚妻子或拿50% 剩下的女兒占1/3

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發聲!稱姐姐受身邊人挑撥

財經要聞

油價"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預售 CLTC最大續航815km

態度原創

游戲
房產
家居
教育
時尚

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

房產要聞

突發,三亞又有大批征遷補償方案出爐!

家居要聞

傍海而居 靜觀蝴蝶海

教育要聞

精準研判,提質增效丨我校召開2026屆畢業生就業工作研判會

400萬人愛過的女孩,被黃謠網暴180天后

無障礙瀏覽 進入關懷版