![]()
機(jī)器之心編譯
前些天,著名 AI 技術(shù)作家 Sebastian Raschka 發(fā)布了一份「LLM 架構(gòu)畫廊」,獲得了 AI 社區(qū)的高度關(guān)注和贊揚(yáng),參閱《DeepSeek、GPT、Qwen,所有大模型架構(gòu)圖都有,Karpathy:寶藏畫廊!》。
![]()
圖 1 :LLM 架構(gòu)圖庫及其視覺模型卡片概覽。
這個 LLM 架構(gòu)畫廊是如此受歡迎,也讓 Raschka 找到了合作伙伴開始生產(chǎn)實(shí)體海報。目前來看,銷量還很不錯。
![]()
圖 2 :帶有用于對比大小的隨機(jī)物體的架構(gòu)圖庫海報版本。
現(xiàn)在,時間才剛過去一周多,Raschka 又放出了另一篇重磅博客《現(xiàn)代 LLM 中注意力變體的可視化指南》。在這篇文章中,他回顧了近年來開發(fā)的并在著名的開放權(quán)重架構(gòu)中使用的所有注意力變體。他表示: 「我的目標(biāo)是使這個集合既能作為參考資料,又能作為輕量級的學(xué)習(xí)資源。」
![]()
博客地址:https://magazine.sebastianraschka.com/p/visual-attention-variants
機(jī)器之心編譯了這篇出色的博客,以饗讀者:
1. 多頭注意力 (MHA)
自注意力機(jī)制允許每個 token 查看序列中其他可見的 token ,為它們分配權(quán)重,并利用這些權(quán)重構(gòu)建一個新的具有上下文感知的輸入表示。
多頭注意力 (MHA) 是該理念在 Transformer 中的標(biāo)準(zhǔn)版本。它并行運(yùn)行多個具有不同學(xué)習(xí)投影的自注意力頭,然后將它們的輸出組合成一個更豐富的表示。
![]()
圖 3 :以 Olmo 2 為例的 MHA 架構(gòu)。
下面的部分首先快速介紹自注意力機(jī)制以解釋 MHA。這主要是作為一個快速概述,為相關(guān)的注意力概念(如分組查詢注意力、滑動窗口注意力等)奠定基礎(chǔ)。如果你對更長、更詳細(xì)的自注意力機(jī)制內(nèi)容感興趣,你可能會喜歡我的一篇較長的文章《理解并編寫 LLM 中的自注意力、多頭注意力、因果注意力與交叉注意力》。
地址: https://magazine.sebastianraschka.com/p/understanding-and-coding-self-attention
示例架構(gòu):GPT-2、OLMo 2 7B 和 OLMo 3 7B
1.2 歷史趣聞以及發(fā)明注意力機(jī)制的原因
注意力機(jī)制的出現(xiàn)早于 Transformer 和 MHA。它的直接背景是用于翻譯的編碼器和解碼器 RNN。
在那些較舊的系統(tǒng)中,編碼器 RNN 會逐個 token 地讀取源句子,并將其壓縮為隱藏狀態(tài)序列,或者在最簡單的版本中壓縮為一個最終狀態(tài)。然后,解碼器 RNN 必須從這個有限的摘要中生成目標(biāo)句子。這在簡短和簡單的情況下是有效的,但是一旦下一個輸出詞的相關(guān)信息位于輸入句子中的其他位置,它就會產(chǎn)生明顯的瓶頸。
簡而言之,局限性在于隱藏狀態(tài)無法存儲無限多的信息或上下文,有時直接回顧整個輸入序列會非常有用。
下面的翻譯示例展示了這種想法的一個局限性。例如,當(dāng)模型將問題過度視為逐詞映射時,句子可能保留了許多局部合理的詞匯選擇,但翻譯仍然會失敗。(頂部面板顯示了一個夸張的示例,我們逐詞翻譯句子;顯然,結(jié)果句子中的語法是錯誤的。)實(shí)際上,正確的下一個單詞取決于句子級別的結(jié)構(gòu)以及在該步驟中哪些早期的源單詞起作用。當(dāng)然,使用 RNN 仍然可以很好地進(jìn)行翻譯,但在處理較長序列或知識檢索任務(wù)時它會遇到困難,正如前面提到的,隱藏狀態(tài)只能存儲有限的信息。
![]()
圖 4 :即使許多單獨(dú)的詞匯選擇看起來很合理,翻譯也可能失敗,因?yàn)榫渥蛹墑e的結(jié)構(gòu)仍然很重要。
下圖更直接地展示了這種變化。當(dāng)解碼器生成一個輸出 token 時,它不應(yīng)受限于單一的壓縮內(nèi)存路徑。它應(yīng)該能夠直接追溯到更相關(guān)的輸入 token。
![]()
圖 5 :注意力機(jī)制通過讓當(dāng)前輸出位置回顧整個輸入序列,打破了 RNN 的瓶頸,其機(jī)制拋棄了僅依賴單一壓縮狀態(tài)的做法。
Transformer 保留了上述改進(jìn)版注意力 RNN 的核心思想,同時移除了循環(huán)結(jié)構(gòu)。在經(jīng)典的《Attention Is All You Need》論文中,注意力機(jī)制本身成為了主要的序列處理機(jī)制,它取代了以往僅作為 RNN 編碼器和解碼器一部分的角色。
在 Transformer 中,這種機(jī)制被稱為自注意力,序列中的每個 token 會計(jì)算所有其他 token 的權(quán)重,并利用這些權(quán)重將來自這些 token 的信息混合成一個新的表示。多頭注意力是并行運(yùn)行多次的相同機(jī)制。
1.3 掩碼注意力矩陣
對于一個包含 T 個 token 的序列,注意力機(jī)制需要為每個 token 提供一行權(quán)重,因此總體上我們得到一個 TxT 矩陣。
每一行回答一個簡單的問題。在更新這個 token 時,每個可見的 token 應(yīng)該有多重要?在僅包含解碼器的 LLM 中,未來的位置會被掩碼遮蔽,這就是為什么下圖中矩陣的右上部分被置灰的原因。
自注意力的本質(zhì)是在因果掩碼下學(xué)習(xí)這些 token 到 token 的權(quán)重模式,然后利用它們來構(gòu)建具有上下文感知的 token 表示。
![]()
圖 6 :一個具體的掩碼注意力矩陣,其中每一行屬于一個 token ,每個條目是一個注意力權(quán)重,未來 token 的條目被因果掩碼移除
1.4 自注意力內(nèi)部機(jī)制
下圖展示了 Transformer 如何從輸入嵌入 X 計(jì)算注意力矩陣(A),然后將其用于生成轉(zhuǎn)換后的輸入(Z)。
這里的 Q、K 和 V 代表查詢、鍵和值。一個 token 的查詢代表該 token 正在尋找的內(nèi)容,鍵代表每個 token 提供用于匹配的內(nèi)容,而值代表在計(jì)算出注意力權(quán)重后混合到輸出中的信息。
步驟如下:
- Wq、Wk 和 Wv 是將輸入嵌入投影到 Q、K 和 V 的權(quán)重矩陣
- QK^T 生成原始的 token 到 token 的相關(guān)性得分
- softmax 將這些得分轉(zhuǎn)換為我們在上一節(jié)中討論的歸一化注意力矩陣 A
- 將 A 應(yīng)用于 V 以生成輸出矩陣 Z
請注意,注意力矩陣并非單獨(dú)手動編寫的對象,它產(chǎn)生自 Q、K 和 softmax 過程。
![]()
圖 7 :完整的單頭流水線,從輸入嵌入 X 到歸一化的注意力矩陣 A 和輸出表示 Z。
下圖展示了與上圖相同的概念,區(qū)別在于注意力矩陣的計(jì)算隱藏在「縮放點(diǎn)積注意力」框中,并且我們僅針對一個輸入 token 執(zhí)行計(jì)算,不再針對所有輸入 token。這是為了展示單頭自注意力的緊湊形式,隨后在下一節(jié)中將其擴(kuò)展為多頭注意力。
![]()
圖 8 :一個注意力頭已經(jīng)是一個完整的機(jī)制。一組學(xué)習(xí)到的投影會生成一個注意力矩陣和一個具備上下文感知的輸出流。
1.5 從單頭到多頭注意力
一組 Wq/Wk/Wv 矩陣為我們提供了一個注意力頭,這意味著一個注意力矩陣和一個輸出矩陣 Z。(此概念在上一節(jié)中已說明。)
多頭注意力只需使用不同的學(xué)習(xí)投影矩陣并行運(yùn)行幾個這樣的頭。
這是很有用的做法,因?yàn)椴煌念^可以專門處理不同的 token 關(guān)系。一個頭可能專注于短暫的局部依賴關(guān)系,另一個頭關(guān)注更廣泛的語義鏈接,還有一個頭關(guān)注位置或句法結(jié)構(gòu)。
![]()
圖 9 :多頭注意力保持相同的基本注意力方法,但在多個頭之間并行重復(fù)該方法,以便模型可以同時學(xué)習(xí)多個 token 到 token 的模式。
2. 分組查詢注意力 (GQA)
分組查詢注意力是源自標(biāo)準(zhǔn) MHA 的注意力變體。它由 Joshua Ainslie 及其同事在 2023 年的論文《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》中提出。
它的做法讓幾個查詢頭共享相同的鍵值投影,摒棄了為每個查詢頭提供各自鍵和值的做法。這使得 KV 緩存的成本更低(主要是減少了內(nèi)存),同時也沒有對整體解碼器方案進(jìn)行太大的改變。
![]()
圖 10 :GQA 保持與 MHA 相同的整體注意力模式,但通過跨多個查詢頭共享它們來減少鍵值頭的數(shù)量。
示例架構(gòu)
- 稠密模型:Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B、SmolLM3 3B 和 Tiny Aya 3.35B。
- 稀疏模型(混合專家):Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B 和 Sarvam 30B。
2.1 為什么 GQA 變得受歡迎
在我的架構(gòu)比較文章中,我將 GQA 定位為經(jīng)典多頭注意力 (MHA) 的新標(biāo)準(zhǔn)替代方案。原因是標(biāo)準(zhǔn) MHA 為每個頭提供了自己的鍵和值,從建模的角度來看這是更優(yōu)的,但在推理過程中一旦我們必須將所有這些狀態(tài)保留在 KV 緩存中,成本就會很高。
在 GQA 中,我們保留較大的一組查詢頭,但我們減少了鍵值頭的數(shù)量并讓多個查詢共享它們。這降低了參數(shù)數(shù)量和 KV 緩存流量,并且無需像稍后將討論的多頭潛在注意力 (MLA) 那樣進(jìn)行大幅度的實(shí)現(xiàn)更改。
在實(shí)踐中,這使其成為并保持為那些希望找到比 MHA 更便宜但比 MLA 等較新的重度壓縮替代方案更易于實(shí)現(xiàn)的實(shí)驗(yàn)室的非常受歡迎的選擇。
2.2 GQA 內(nèi)存節(jié)省
GQA 在 KV 存儲方面節(jié)省了大量空間,因?yàn)槊繉游覀儽A舻逆I值頭越少,每個 token 所需的緩存狀態(tài)就越少。這就是為什么隨著序列長度的增加,GQA 變得更有用的原因。
GQA 也是一個光譜。如果我們一路減少到一個共享的 K/V 組,我們就實(shí)際上進(jìn)入了多查詢注意力的領(lǐng)域,它甚至更便宜,但可能會更明顯地?fù)p害建模質(zhì)量。最佳平衡點(diǎn)通常在多查詢注意力( 1 個共享組)和 MHA(其中 K/V 組等于查詢的數(shù)量)之間的某個位置,在這個位置,緩存節(jié)省量很大,但相對于 MHA 的建模性能下降保持在適度范圍內(nèi)。
![]()
圖 11 :越低越好。一旦上下文窗口擴(kuò)大,KV 緩存的節(jié)省就會變得更加明顯。
2.3 為什么 GQA 在 2026 年仍然重要
諸如 MLA 等更高級的變體正變得越來越受歡迎,因?yàn)樗鼈兛梢栽谙嗤?KV 效率水平下提供更好的建模性能(例如,如 DeepSeek-V2 論文的消融研究所討論的那樣),但它們也涉及更復(fù)雜的實(shí)現(xiàn)和更復(fù)雜的注意力堆棧。
GQA 仍然具有吸引力,因?yàn)樗哂蟹€(wěn)健性,更容易實(shí)現(xiàn),并且更容易訓(xùn)練(根據(jù)我的經(jīng)驗(yàn),需要調(diào)整的超參數(shù)更少)。
這就是為什么一些較新的發(fā)布版本仍在此處刻意保持經(jīng)典設(shè)計(jì)的原因。例如,在我的春季架構(gòu)文章中,我提到 MiniMax M2.5 和 Nanbeige 4.1 是保持非常經(jīng)典設(shè)計(jì)的模型,僅使用分組查詢注意力,而沒有堆砌其他效率技巧。Sarvam 也是一個非常有用的比較對象: 30B 模型保留了經(jīng)典的 GQA ,而 105B 版本則切換到了 MLA。
![]()
圖 12 :105B Sarvam(使用 MLA)與 30B Sarvam(使用 GQA)以及使用普通 MHA 的總 KV 緩存大小對比。
3. 多頭潛在注意力 (MLA)
多頭潛在注意力 (MLA) 背后的動機(jī)與分組查詢注意力 (GQA) 相似。兩者都是用于降低 KV 緩存內(nèi)存需求的解決方案。GQA 和 MLA 之間的區(qū)別在于,MLA 通過壓縮存儲的內(nèi)容來縮小緩存,它拋棄了通過共享頭來減少存儲的 K/V 數(shù)量的方式。
![]()
圖 13 :與 GQA 不同,MLA 并非通過對頭進(jìn)行分組來降低 KV 成本。它通過緩存壓縮的潛在表示來降低成本。請注意,它也應(yīng)用于查詢,為簡單起見未顯示
MLA 最初在 DeepSeek-V2 論文中提出,成為 DeepSeek 時代標(biāo)志性的理念(特別是在 DeepSeek-V3 和 R1 之后)。它比 GQA 的實(shí)現(xiàn)更復(fù)雜,服務(wù)部署也更復(fù)雜,但如今,一旦模型大小和上下文長度變得足夠大以至于緩存流量開始占據(jù)主導(dǎo)地位,它通常也會變得更具吸引力,因?yàn)樵谙嗤膬?nèi)存減少率下,它可以保持更好的建模性能(稍后會詳細(xì)介紹)。
示例架構(gòu):DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3 和 Sarvam 105B
3.1 壓縮機(jī)制
放棄像 MHA 和 GQA 中那樣緩存全分辨率的鍵和值張量,MLA 選擇存儲一種潛在表示,并在需要時重建可用狀態(tài)。從本質(zhì)上講,這是一種嵌入在注意力機(jī)制中的緩存壓縮策略,如上圖所示。
下圖顯示了與常規(guī) MHA 相比節(jié)省的空間。
![]()
圖 14 :一旦上下文長度增加,與緩存全張量 K/V 相比,緩存潛在表示所帶來的節(jié)省變得非常明顯
3.2 MLA 消融實(shí)驗(yàn)
DeepSeek-V2 論文提供了一些消融實(shí)驗(yàn)結(jié)果,其中 GQA 在建模性能方面表現(xiàn)得比 MHA 差,而 MLA 表現(xiàn)得更好,如果在仔細(xì)調(diào)整的情況下,甚至可以超越 MHA。這比「它(也)節(jié)省了內(nèi)存」是一個強(qiáng)有力的多得多的理由。
換句話說,MLA 之所以成為 DeepSeek 更受青睞的注意力機(jī)制,除去其本身的高效,它在大規(guī)模下看起來也是一種保持質(zhì)量的效率舉措。(但同事們也告訴我,MLA 只有在特定尺寸下效果良好。對于較小的模型,比方說小于 100B ,GQA 似乎效果更好,或者至少更容易調(diào)整和完善。)
![]()
圖 15 :在這里,GQA 降至 MHA 以下,而 MLA 保持競爭力甚至略微超越 MHA。底層論文:DeepSeek-V2。
下面又是 30B Sarvam 中的 GQA 與 105B Sarvam 中的 MLA 之間的比較。
![]()
圖 16 :GQA 和 MLA 正在從不同方向解決同一個瓶頸。其權(quán)衡點(diǎn)在于簡單性與大型模型更好的建模性能之間的取舍。
3.3 MLA 在 DeepSeek 之后如何傳播
自從 DeepSeek V3/R1、V3.1 等版本在 V2 中引入該設(shè)計(jì)并將其標(biāo)準(zhǔn)化后,它開始出現(xiàn)在第二波架構(gòu)中。Kimi K2 保留了 DeepSeek 的方案并對其進(jìn)行了擴(kuò)展。GLM-5 采用了 MLA 連同 DeepSeek 稀疏注意力(來自 DeepSeek V3.2 )。Ling 2.5 將 MLA 與線性注意力混合架構(gòu)結(jié)合在一起。Sarvam 發(fā)布了兩個模型,其中 30B 模型保留了經(jīng)典的 GQA,而 105B 模型切換到了 MLA。
最后一對特別有用,因?yàn)樗鼘⒓夹g(shù)復(fù)雜性的討論放在了一邊。即,Sarvam 團(tuán)隊(duì)實(shí)現(xiàn)了這兩種變體,并刻意選擇在一個變體中使用 GQA ,而在另一個變體中使用 MLA。因此,在某種意義上,這使得 MLA 給人的感覺少了一點(diǎn)理論上的替代方案的意味,多了一點(diǎn)家族模型擴(kuò)展后具體的架構(gòu)升級路徑的意味。
4. 滑動窗口注意力 (SWA)
滑動窗口注意力通過限制每個位置可以關(guān)注的先前 token 數(shù)量,來降低長上下文推理的內(nèi)存和計(jì)算成本。這里摒棄了關(guān)注整個前綴的做法,每個 token 僅關(guān)注其位置周圍近期 token 的固定窗口。由于注意力被限制在局部的 token 鄰域,這種機(jī)制通常被稱為局部注意力。
一些架構(gòu)將這些局部層與偶爾的全局注意力層結(jié)合在一起,以便信息仍然可以在整個序列中傳播。
![]()
圖 17 :概念上的轉(zhuǎn)變很簡單。常規(guī)注意力是全局注意力,而滑動窗口注意力是局部注意力。全局注意力讓每個 token 都能看到完整的前綴;SWA 將許多這樣的層轉(zhuǎn)變?yōu)榫植孔⒁饬?/p>
示例架構(gòu):Gemma 3 27B、OLMo 3 32B、Xiaomi MiMo-V2-Flash、Arcee Trinity、Step 3.5 Flash 和 Tiny Aya
4.1 以 Gemma 3 作為參考點(diǎn)
Gemma 3 仍然是最近最清晰的 SWA 示例之一,因?yàn)樗苋菀着c Gemma 2 進(jìn)行比較。Gemma 2 已經(jīng)使用了一種混合注意力設(shè)置,局部層與全局層的比例為 1:1 ,并具有 4096 個 token 的窗口。Gemma 3 將這一比例進(jìn)一步推至 5:1 ,并將窗口大小減小到 1024。
關(guān)鍵發(fā)現(xiàn)并不在于局部注意力更便宜,因?yàn)檫@已經(jīng)是眾所周知的。從 Gemma 3 的消融研究中得出的更有趣的結(jié)論是,更激進(jìn)地使用這種方法似乎對建模性能的影響微乎其微。
![]()
Gemma 消融研究表明,較小的窗口和更激進(jìn)的局部與全局比例對困惑度的影響很小。底層論文:Gemma 3
4.2 比例與窗口大小
在實(shí)踐中,說一個模型「使用 SWA」并不意味著它僅依賴于 SWA。通常重要的是局部到全局的層模式和注意力窗口大小。例如:
- Gemma 3 和 Xiaomi 使用 5:1 的局部到全局模式。
- OLMo 3 和 Arcee Trinity 使用 3:1 的模式。
- Xiaomi 還使用 128 的窗口大小,這比 Gemma 的 1024 小得多,因此也更加激進(jìn)。
- SWA 本質(zhì)上是一個旋鈕,可以對其進(jìn)行不同程度的激進(jìn)調(diào)整。
![]()
圖 18 :長上下文的節(jié)省來自于將許多全注意力層轉(zhuǎn)變?yōu)榫植孔⒁饬樱@減少了這些層需要考慮的緩存上下文的數(shù)量
4.3 將 SWA 與 GQA 結(jié)合
SWA 經(jīng)常與 GQA 一起出現(xiàn),因?yàn)檫@兩個想法解決了同一個推理問題的不同部分。SWA 減少了局部層必須考慮的上下文數(shù)量。GQA 減少了每個 token 貢獻(xiàn)給緩存的鍵值狀態(tài)的數(shù)量。
這就是為什么許多最近的稠密模型會同時使用兩者,摒棄了將它們視為替代方案的做法。Gemma 3 在這里又是一個很好的參考點(diǎn),因?yàn)樗谕粋€架構(gòu)中結(jié)合了滑動窗口注意力和分組查詢注意力。
5. DeepSeek 稀疏注意力 (DSA)
DeepSeek 稀疏注意力是出現(xiàn)在 DeepSeek V3.2 系列中,并隨后在 GLM-5 中再次出現(xiàn)的架構(gòu)變化之一。
具體來說,DeepSeek V3.2 將其與多頭潛在注意力 (MLA) 結(jié)合使用,而 GLM-5 采用相同組合的大致原因也相同,即在上下文長度變大時降低推理成本。
示例架構(gòu):DeepSeek V3.2 和 GLM-5
5.1 相對于滑動窗口注意力的變化
在滑動窗口注意力中,當(dāng)前 token 放棄關(guān)注完整的前綴,它只關(guān)注固定的局部窗口。這也是 DeepSeek 稀疏注意力背后相同的廣義概念,即每個 token 也只關(guān)注先前 token 的一個子集。
然而,所選取的 token 并沒有由固定寬度的局部窗口決定。作為替代,DeepSeek 稀疏注意力使用了一種學(xué)習(xí)到的稀疏模式。簡而言之,它使用了一種索引器加選擇器的設(shè)置,其中閃電索引器計(jì)算相關(guān)性得分,而 token 選擇器僅保留一小部分得分較高的過去位置。
選取 token 子集的方式是與滑動窗口注意力的主要區(qū)別。滑動窗口注意力將局部性硬編碼。DeepSeek 稀疏注意力仍然將注意力限制在一個子集上,但它讓模型決定哪些先前的 token 值得回顧。
![]()
圖 19 :與滑動窗口注意力類似,DeepSeek 稀疏注意力也將每個 token 限制在先前 token 的一個子集內(nèi),只不過它沒有通過固定的局部窗口來實(shí)現(xiàn)這一點(diǎn)
5.2 DeepSeek 稀疏注意力與 MLA
DeepSeek V3.2 同時使用了多頭潛在注意力 (MLA) 和 DeepSeek 稀疏注意力。MLA 通過壓縮存儲的內(nèi)容來降低 KV 緩存成本。DeepSeek 稀疏注意力減少了模型必須回顧的先前上下文數(shù)量。換句話說,一個優(yōu)化了緩存表示,另一個在其基礎(chǔ)上優(yōu)化了注意力模式。
![]()
圖 20 :DeepSeek V3.2 是明顯的參考點(diǎn),因?yàn)檫@是與稀疏注意力理念聯(lián)系最緊密的模型家族。
稀疏模式并不隨機(jī)。第一階段是一個閃電索引器,它為每個新的查詢 token 對之前的 token 進(jìn)行評分。它利用 MLA 的壓縮 token 表示,并在先前的上下文中計(jì)算一個學(xué)習(xí)到的相似度得分,因此模型可以對哪些早期位置值得回顧進(jìn)行排名。
第二階段是 token 選擇器。它僅保留一個較小的、得分較高的子集,例如過去位置的 top-k 集合,并將該子集轉(zhuǎn)換為稀疏注意力掩碼。因此,重點(diǎn)在于 DeepSeek 稀疏注意力避開了硬編碼稀疏模式的做法,它會去學(xué)習(xí)保留哪些過去的 token。
![]()
圖 21 :該機(jī)制由一個為先前 token 評分的閃電索引器和一個僅保留較小子集用于注意力的選擇器組成
DeepSeek 稀疏注意力相對較新且實(shí)現(xiàn)起來相對復(fù)雜,這也是為什么它尚未像分組查詢注意力 (GQA) 那樣被廣泛采用的原因。
6. 門控注意力 (Gated Attention)
將門控注意力理解為一個經(jīng)過修改的全注意力塊最為妥當(dāng),它脫離了作為一個獨(dú)立注意力家族的范疇。
它通常出現(xiàn)在混合堆棧中,這些堆棧仍然保留偶爾的全注意力層用于精確的內(nèi)容檢索,但在原本熟悉的縮放點(diǎn)積注意力塊之上添加了一些以穩(wěn)定性為導(dǎo)向的更改。
![]()
圖 22 :Trinity Large 是一個有用的對比對象,因?yàn)殚T控注意力并不僅僅是 Qwen 的想法(稍后會詳細(xì)介紹)。在這里,在一個不同的長上下文架構(gòu)中,門控出現(xiàn)在縮放點(diǎn)積注意力輸出之后,并在輸出投影之前
6.1 門控注意力的應(yīng)用位置
Qwen3-Next 和 Qwen3.5 架構(gòu)表明,最近的混合架構(gòu)(在下一節(jié)中介紹)并沒有在所有地方取代注意力。作為一種妥協(xié),它們用更便宜的替代方案取代了大多數(shù)注意力層,并在堆棧中保留了較少數(shù)量的全注意力層。
那些保留下來的全注意力層通常就是門控注意力出現(xiàn)的地方。Qwen3-Next 和 Qwen3.5 將其與 Gated DeltaNet 一起以 3:1 的模式使用。
撇開混合架構(gòu)不談,Trinity 在一個更傳統(tǒng)的注意力堆棧中使用了相關(guān)的門控理念,如上圖所示。
6.2 門控注意力與標(biāo)準(zhǔn)注意力的比較
Qwen 風(fēng)格的混合架構(gòu)或 Trinity(非混合架構(gòu))中的門控注意力塊,本質(zhì)上是標(biāo)準(zhǔn)縮悉點(diǎn)積注意力在之上加上了一些修改。在最初的門控注意力論文中,這些修改被視作一種方法,用于使保留在混合堆棧中的全注意力層的行為更具可預(yù)測性。
該塊看起來仍然像標(biāo)準(zhǔn)的(全)注意力,但它增加了:
- 一個輸出門,用于在將注意力結(jié)果加回殘差之前對其進(jìn)行縮放;
- 一種中心為零的 QK-Norm 變體,取代了用于 q 和 k 的標(biāo)準(zhǔn) RMSNorm ;
- 局部 RoPE。
這些修改未達(dá)到 MLA 或線性注意力的規(guī)模,它們純粹是應(yīng)用于一個本來就熟悉的注意力塊的穩(wěn)定性和控制修改。
![]()
圖 23 :在 Qwen3-Next 和 Qwen3.5 中,門控注意力作為全注意力層出現(xiàn),它定期地阻斷連續(xù)運(yùn)行的 Gated DeltaNet 塊。
請注意,上圖還包含了 Gated DeltaNet ,我們將在下面的小節(jié)中對其進(jìn)行介紹。
7. 混合注意力 (Hybrid Attention)
混合注意力是一種更廣泛的設(shè)計(jì)模式,它超越了單一的特定機(jī)制。總體思路是保留類似 Transformer 的堆棧,但使用更便宜的線性或狀態(tài)空間序列模塊來替換大多數(shù)昂貴的全注意力層。
其動機(jī)在于長上下文效率。全注意力隨序列長度呈二次方增長,因此一旦模型轉(zhuǎn)向 128k 、 256k 或 1M token 這樣的上下文,注意力的內(nèi)存和計(jì)算成本就會變得非常高昂,以至于在大多數(shù)層中使用更便宜的序列模塊,同時僅保留少量更繁重的檢索層變得更加合理。(請注意,不過這會帶來一些建模性能方面的權(quán)衡。)
在 Qwen3-Next 中,這種模式表現(xiàn)為 Gated DeltaNet 和門控注意力塊的 3:1 混合。Gated DeltaNet 也與 Mamba-2 密切相關(guān)(例如,請參閱《Gated Delta Networks: Improving Mamba2 with Delta Rule》論文),并且該機(jī)制可以被理解為 DeltaNet 風(fēng)格的快速權(quán)重更新與 Mamba 風(fēng)格門控的結(jié)合。后來的架構(gòu)保留了相同的整體思路,但換成了其他的輕量級序列混合器,例如 Kimi Delta Attention 、Lightning Attention 或標(biāo)準(zhǔn)的 Mamba-2。
![]()
圖 24 :基本的混合模式,其中大多數(shù)塊是更便宜的序列混合器,每四個塊恢復(fù)一個繁重的注意力層
7.1 Qwen3-Next 中的 Gated DeltaNet
據(jù)我所知,首個采用混合注意力的接近旗艦級 LLM 的顯著例子是 2025 年的 Qwen3-Next ,它并未完全移除注意力機(jī)制,其做法是將三個 Gated DeltaNet 塊與一個門控注意力塊混合。
在這里,輕量級的 Gated DeltaNet 塊承擔(dān)了大部分長上下文的工作,并使內(nèi)存增長比全注意力平緩得多。保留較重的門控注意力層是因?yàn)?DeltaNet 在基于內(nèi)容的檢索方面不夠精確。
在 Gated DeltaNet 塊內(nèi),模型連同兩個學(xué)習(xí)到的門(α,β)一起計(jì)算查詢、鍵和值向量。它使用 delta 規(guī)則更新寫入一個小的快速權(quán)重內(nèi)存,擺脫了形成通常的 token 到 token 注意力矩陣的步驟。粗略地說,內(nèi)存存儲了過去信息的壓縮運(yùn)行摘要,而門控制了添加多少新信息以及保留多少先驗(yàn)狀態(tài)。
這使得 Gated DeltaNet 成為一種線性注意力或循環(huán)風(fēng)格的機(jī)制,它絕不僅僅是對 MHA 的又一次微調(diào)。相對于 Mamba-2 ,兩者的密切聯(lián)系在于它們都屬于線性時間門控序列模型家族,但 Gated DeltaNet 使用的是 DeltaNet 風(fēng)格的快速權(quán)重內(nèi)存更新,這取代了 Mamba 的狀態(tài)空間更新。
![]()
圖 25 :混合架構(gòu)背后的實(shí)際動機(jī)在內(nèi)存曲線中顯示。使用 Gated DeltaNet 的混合堆棧隨著上下文長度的增長比普通的全注意力緩慢得多
Qwen3.5 將之前的 Qwen3-Next 混合架構(gòu)引入了 Qwen 的主打旗艦系列,這是一個有趣的舉動。這基本上標(biāo)志著混合策略取得了成功,并且我們將來可能會看到更多采用這種架構(gòu)的模型。
![]()
圖 26 :Qwen3.5 展示了 Qwen 團(tuán)隊(duì)將之前的 Qwen3-Next 側(cè)支提升到了主要模型線中,擺脫了將其作為一次性效率變體的地位
7.2 Kimi Linear 與改進(jìn)的 Delta Attention
Kimi Linear 保留了相同的廣泛 Transformer 骨架和相同的 3:1 模式,但它改變了配方的兩半。
在輕量級方面,Kimi Delta Attention 是 Gated DeltaNet 的改進(jìn)版。Qwen3-Next 為每個頭使用標(biāo)量門來控制內(nèi)存衰減,Kimi 則使用通道級門控,這賦予了其對內(nèi)存更新的更精細(xì)控制。在重量級方面,Kimi 用門控 MLA 層替換了 Qwen3-Next 的門控注意力層。
因此,這仍然是與 Qwen3-Next 和 Qwen3.5 相同的更廣泛的模式,但這兩個成分都發(fā)生了(輕微的)變化。即,大多數(shù)層仍然由更便宜的線性風(fēng)格機(jī)制處理,并且仍然保留周期性的重型層以實(shí)現(xiàn)更強(qiáng)的檢索能力。
![]()
圖 27 :Kimi Linear 保持了相同的整體混合模式,同時改變了堆棧的輕量級部分和較重的注意力部分
7.3 Ling 2.5 與 Lightning Attention
Ling 2.5 展示了在輕量級方面的另一種替換。Ling 放下了 Gated DeltaNet ,使用了一種稱為 Lightning Attention 的稍微簡單一些的循環(huán)線性注意力變體。在重量級方面,它保留了來自 DeepSeek 的 MLA。
大多數(shù)序列混合發(fā)生在更便宜的線性注意力塊中,同時保留了少量較重的層以維持更強(qiáng)的檢索。不同之處在于特定的輕量級機(jī)制現(xiàn)在是 Lightning Attention ,脫離了對 DeltaNet 或 Kimi Delta Attention 的依賴。
![]()
圖 28 :Ling 2.5 和 Qwen3.5 都是線性注意力混合架構(gòu),盡管 Ling 采用了 Lightning Attention 和 MLA,避開了 Qwen 的方案
Ling 2.5 更多地針對長上下文效率,其目標(biāo)并非絕對的基準(zhǔn)測試領(lǐng)先地位。根據(jù) Ling 團(tuán)隊(duì)的說法,據(jù)報道它在處理 32k token 時比 Kimi K2 快得多,這正是這些混合架構(gòu)所追求的實(shí)際回報。
![]()
圖 29 :Ling 2.5 作為一個強(qiáng)大的效率升級版推出,在同樣的 1 萬億參數(shù)規(guī)模下,其 32k-token 的吞吐量遠(yuǎn)高于 Kimi K2
Nemotron 與 Mamba-2
Nemotron 將該模式進(jìn)一步推離了 Transformer 基線。Nemotron 3 Nano 是一個 Mamba-Transformer 混合架構(gòu),它將 Mamba-2 序列建模塊與稀疏 MoE 層交錯排列,并且僅在一小部分層中使用自注意力。
這是上述相同基本權(quán)衡的更極端版本。在這里,輕量級序列模塊是一個 Mamba-2 狀態(tài)空間塊,這取代了 DeltaNet 風(fēng)格的快速權(quán)重更新,但基本的權(quán)衡是相似的。
![]()
圖 30 :Nemotron 3 Nano 使用 Mamba-2 完成大部分序列建模工作,自注意力僅出現(xiàn)在一小部分層中
更大的 Nemotron 3 Super 保留了 Mamba-2 混合注意力方法,并添加了其他以效率為導(dǎo)向的更改,例如潛在 MoE 和用于推測解碼的共享權(quán)重多 token 預(yù)測 (MTP)。
![]()
圖 31 :Nemotron 3 Super 保留了 Mamba-2 混合注意力模式,同時在其基礎(chǔ)上添加了潛在 MoE 和共享權(quán)重 MTP
結(jié)論
當(dāng)然,在大量文獻(xiàn)中還有更多(主要是小眾的)注意力變體我在這里沒有介紹。本文的重點(diǎn)集中于目前在最先進(jìn)的(開放權(quán)重)模型中使用的那些變體。
我特別期待 (1) 看到全新的Mamba-3層被集成到上述混合架構(gòu)中(替換 Gated DeltaNet ),以及 (2)注意力殘差 (attention residuals)被廣泛使用。
在實(shí)踐中,你可能還會想知道目前「最好」的架構(gòu)是什么。這很難回答,因?yàn)闆]有公開的實(shí)驗(yàn)在相同的訓(xùn)練數(shù)據(jù)上訓(xùn)練不同的架構(gòu)等。
因此,我們目前只能回答對于給定問題最佳(經(jīng)過訓(xùn)練的)模型選擇是什么。在我看來,混合架構(gòu)仍然是一個新奇事物,其主要賣點(diǎn)主要是(長上下文)效率,它在一定程度上拋棄了單純強(qiáng)調(diào)建模性能的追求。因此,我認(rèn)為它們是智能體上下文(如 OpenClaw )的絕佳選擇。
就我個人而言,我認(rèn)為混合架構(gòu)的問題也在于推理堆棧尚未得到充分優(yōu)化,我發(fā)現(xiàn)當(dāng)使用更經(jīng)典的設(shè)置(如帶有分組查詢注意力的 GPT-OSS )在本地運(yùn)行 LLM 時,我獲得了更好的 tok/sec 吞吐量。
無論如何,我很好奇DeepSeek V4會帶來什么,因?yàn)樵谶^去的 2 年里,DeepSeek 一直是非常可靠的趨勢引領(lǐng)者。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.