必看！Sebastian Raschka新博客盤點(diǎn)了所有主要注意力機(jī)制

2026-03-23 15:23:48　來源: 機(jī)器之心Pro

北京舉報

分享至

機(jī)器之心編譯

前些天，著名 AI 技術(shù)作家 Sebastian Raschka 發(fā)布了一份「LLM 架構(gòu)畫廊」，獲得了 AI 社區(qū)的高度關(guān)注和贊揚(yáng)，參閱《DeepSeek、GPT、Qwen，所有大模型架構(gòu)圖都有，Karpathy：寶藏畫廊！》。

圖 1 ：LLM 架構(gòu)圖庫及其視覺模型卡片概覽。

這個 LLM 架構(gòu)畫廊是如此受歡迎，也讓 Raschka 找到了合作伙伴開始生產(chǎn)實(shí)體海報。目前來看，銷量還很不錯。

圖 2 ：帶有用于對比大小的隨機(jī)物體的架構(gòu)圖庫海報版本。

現(xiàn)在，時間才剛過去一周多，Raschka 又放出了另一篇重磅博客《現(xiàn)代 LLM 中注意力變體的可視化指南》。在這篇文章中，他回顧了近年來開發(fā)的并在著名的開放權(quán)重架構(gòu)中使用的所有注意力變體。他表示：「我的目標(biāo)是使這個集合既能作為參考資料，又能作為輕量級的學(xué)習(xí)資源。」

博客地址：https://magazine.sebastianraschka.com/p/visual-attention-variants

機(jī)器之心編譯了這篇出色的博客，以饗讀者：

1. 多頭注意力 (MHA)

自注意力機(jī)制允許每個 token 查看序列中其他可見的 token ，為它們分配權(quán)重，并利用這些權(quán)重構(gòu)建一個新的具有上下文感知的輸入表示。

多頭注意力 (MHA) 是該理念在 Transformer 中的標(biāo)準(zhǔn)版本。它并行運(yùn)行多個具有不同學(xué)習(xí)投影的自注意力頭，然后將它們的輸出組合成一個更豐富的表示。

圖 3 ：以 Olmo 2 為例的 MHA 架構(gòu)。

下面的部分首先快速介紹自注意力機(jī)制以解釋 MHA。這主要是作為一個快速概述，為相關(guān)的注意力概念（如分組查詢注意力、滑動窗口注意力等）奠定基礎(chǔ)。如果你對更長、更詳細(xì)的自注意力機(jī)制內(nèi)容感興趣，你可能會喜歡我的一篇較長的文章《理解并編寫 LLM 中的自注意力、多頭注意力、因果注意力與交叉注意力》。

地址： https://magazine.sebastianraschka.com/p/understanding-and-coding-self-attention

示例架構(gòu)：GPT-2、OLMo 2 7B 和 OLMo 3 7B

1.2 歷史趣聞以及發(fā)明注意力機(jī)制的原因

注意力機(jī)制的出現(xiàn)早于 Transformer 和 MHA。它的直接背景是用于翻譯的編碼器和解碼器 RNN。

在那些較舊的系統(tǒng)中，編碼器 RNN 會逐個 token 地讀取源句子，并將其壓縮為隱藏狀態(tài)序列，或者在最簡單的版本中壓縮為一個最終狀態(tài)。然后，解碼器 RNN 必須從這個有限的摘要中生成目標(biāo)句子。這在簡短和簡單的情況下是有效的，但是一旦下一個輸出詞的相關(guān)信息位于輸入句子中的其他位置，它就會產(chǎn)生明顯的瓶頸。

簡而言之，局限性在于隱藏狀態(tài)無法存儲無限多的信息或上下文，有時直接回顧整個輸入序列會非常有用。

下面的翻譯示例展示了這種想法的一個局限性。例如，當(dāng)模型將問題過度視為逐詞映射時，句子可能保留了許多局部合理的詞匯選擇，但翻譯仍然會失敗。（頂部面板顯示了一個夸張的示例，我們逐詞翻譯句子；顯然，結(jié)果句子中的語法是錯誤的。）實(shí)際上，正確的下一個單詞取決于句子級別的結(jié)構(gòu)以及在該步驟中哪些早期的源單詞起作用。當(dāng)然，使用 RNN 仍然可以很好地進(jìn)行翻譯，但在處理較長序列或知識檢索任務(wù)時它會遇到困難，正如前面提到的，隱藏狀態(tài)只能存儲有限的信息。

圖 4 ：即使許多單獨(dú)的詞匯選擇看起來很合理，翻譯也可能失敗，因?yàn)榫渥蛹墑e的結(jié)構(gòu)仍然很重要。

下圖更直接地展示了這種變化。當(dāng)解碼器生成一個輸出 token 時，它不應(yīng)受限于單一的壓縮內(nèi)存路徑。它應(yīng)該能夠直接追溯到更相關(guān)的輸入 token。

圖 5 ：注意力機(jī)制通過讓當(dāng)前輸出位置回顧整個輸入序列，打破了 RNN 的瓶頸，其機(jī)制拋棄了僅依賴單一壓縮狀態(tài)的做法。

Transformer 保留了上述改進(jìn)版注意力 RNN 的核心思想，同時移除了循環(huán)結(jié)構(gòu)。在經(jīng)典的《Attention Is All You Need》論文中，注意力機(jī)制本身成為了主要的序列處理機(jī)制，它取代了以往僅作為 RNN 編碼器和解碼器一部分的角色。

在 Transformer 中，這種機(jī)制被稱為自注意力，序列中的每個 token 會計(jì)算所有其他 token 的權(quán)重，并利用這些權(quán)重將來自這些 token 的信息混合成一個新的表示。多頭注意力是并行運(yùn)行多次的相同機(jī)制。

1.3 掩碼注意力矩陣

對于一個包含 T 個 token 的序列，注意力機(jī)制需要為每個 token 提供一行權(quán)重，因此總體上我們得到一個 TxT 矩陣。

每一行回答一個簡單的問題。在更新這個 token 時，每個可見的 token 應(yīng)該有多重要？在僅包含解碼器的 LLM 中，未來的位置會被掩碼遮蔽，這就是為什么下圖中矩陣的右上部分被置灰的原因。

自注意力的本質(zhì)是在因果掩碼下學(xué)習(xí)這些 token 到 token 的權(quán)重模式，然后利用它們來構(gòu)建具有上下文感知的 token 表示。

圖 6 ：一個具體的掩碼注意力矩陣，其中每一行屬于一個 token ，每個條目是一個注意力權(quán)重，未來 token 的條目被因果掩碼移除

1.4 自注意力內(nèi)部機(jī)制

下圖展示了 Transformer 如何從輸入嵌入 X 計(jì)算注意力矩陣（A），然后將其用于生成轉(zhuǎn)換后的輸入（Z）。

這里的 Q、K 和 V 代表查詢、鍵和值。一個 token 的查詢代表該 token 正在尋找的內(nèi)容，鍵代表每個 token 提供用于匹配的內(nèi)容，而值代表在計(jì)算出注意力權(quán)重后混合到輸出中的信息。

步驟如下：

Wq、Wk 和 Wv 是將輸入嵌入投影到 Q、K 和 V 的權(quán)重矩陣
QK^T 生成原始的 token 到 token 的相關(guān)性得分
softmax 將這些得分轉(zhuǎn)換為我們在上一節(jié)中討論的歸一化注意力矩陣 A
將 A 應(yīng)用于 V 以生成輸出矩陣 Z

請注意，注意力矩陣并非單獨(dú)手動編寫的對象，它產(chǎn)生自 Q、K 和 softmax 過程。

圖 7 ：完整的單頭流水線，從輸入嵌入 X 到歸一化的注意力矩陣 A 和輸出表示 Z。

下圖展示了與上圖相同的概念，區(qū)別在于注意力矩陣的計(jì)算隱藏在「縮放點(diǎn)積注意力」框中，并且我們僅針對一個輸入 token 執(zhí)行計(jì)算，不再針對所有輸入 token。這是為了展示單頭自注意力的緊湊形式，隨后在下一節(jié)中將其擴(kuò)展為多頭注意力。

圖 8 ：一個注意力頭已經(jīng)是一個完整的機(jī)制。一組學(xué)習(xí)到的投影會生成一個注意力矩陣和一個具備上下文感知的輸出流。

1.5 從單頭到多頭注意力

一組 Wq/Wk/Wv 矩陣為我們提供了一個注意力頭，這意味著一個注意力矩陣和一個輸出矩陣 Z。（此概念在上一節(jié)中已說明。）

多頭注意力只需使用不同的學(xué)習(xí)投影矩陣并行運(yùn)行幾個這樣的頭。

這是很有用的做法，因?yàn)椴煌念^可以專門處理不同的 token 關(guān)系。一個頭可能專注于短暫的局部依賴關(guān)系，另一個頭關(guān)注更廣泛的語義鏈接，還有一個頭關(guān)注位置或句法結(jié)構(gòu)。

圖 9 ：多頭注意力保持相同的基本注意力方法，但在多個頭之間并行重復(fù)該方法，以便模型可以同時學(xué)習(xí)多個 token 到 token 的模式。

2. 分組查詢注意力 (GQA)

分組查詢注意力是源自標(biāo)準(zhǔn) MHA 的注意力變體。它由 Joshua Ainslie 及其同事在 2023 年的論文《GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints》中提出。

它的做法讓幾個查詢頭共享相同的鍵值投影，摒棄了為每個查詢頭提供各自鍵和值的做法。這使得 KV 緩存的成本更低（主要是減少了內(nèi)存），同時也沒有對整體解碼器方案進(jìn)行太大的改變。

圖 10 ：GQA 保持與 MHA 相同的整體注意力模式，但通過跨多個查詢頭共享它們來減少鍵值頭的數(shù)量。

示例架構(gòu)

稠密模型：Llama 3 8B、Qwen3 4B、Gemma 3 27B、Mistral Small 3.1 24B、SmolLM3 3B 和 Tiny Aya 3.35B。
稀疏模型（混合專家）：Llama 4 Maverick、Qwen3 235B-A22B、Step 3.5 Flash 196B 和 Sarvam 30B。

2.1 為什么 GQA 變得受歡迎

在我的架構(gòu)比較文章中，我將 GQA 定位為經(jīng)典多頭注意力 (MHA) 的新標(biāo)準(zhǔn)替代方案。原因是標(biāo)準(zhǔn) MHA 為每個頭提供了自己的鍵和值，從建模的角度來看這是更優(yōu)的，但在推理過程中一旦我們必須將所有這些狀態(tài)保留在 KV 緩存中，成本就會很高。

在 GQA 中，我們保留較大的一組查詢頭，但我們減少了鍵值頭的數(shù)量并讓多個查詢共享它們。這降低了參數(shù)數(shù)量和 KV 緩存流量，并且無需像稍后將討論的多頭潛在注意力 (MLA) 那樣進(jìn)行大幅度的實(shí)現(xiàn)更改。

在實(shí)踐中，這使其成為并保持為那些希望找到比 MHA 更便宜但比 MLA 等較新的重度壓縮替代方案更易于實(shí)現(xiàn)的實(shí)驗(yàn)室的非常受歡迎的選擇。

2.2 GQA 內(nèi)存節(jié)省

GQA 在 KV 存儲方面節(jié)省了大量空間，因?yàn)槊繉游覀儽Ａ舻逆I值頭越少，每個 token 所需的緩存狀態(tài)就越少。這就是為什么隨著序列長度的增加，GQA 變得更有用的原因。

GQA 也是一個光譜。如果我們一路減少到一個共享的 K/V 組，我們就實(shí)際上進(jìn)入了多查詢注意力的領(lǐng)域，它甚至更便宜，但可能會更明顯地?fù)p害建模質(zhì)量。最佳平衡點(diǎn)通常在多查詢注意力（ 1 個共享組）和 MHA（其中 K/V 組等于查詢的數(shù)量）之間的某個位置，在這個位置，緩存節(jié)省量很大，但相對于 MHA 的建模性能下降保持在適度范圍內(nèi)。

圖 11 ：越低越好。一旦上下文窗口擴(kuò)大，KV 緩存的節(jié)省就會變得更加明顯。

2.3 為什么 GQA 在 2026 年仍然重要

諸如 MLA 等更高級的變體正變得越來越受歡迎，因?yàn)樗鼈兛梢栽谙嗤?KV 效率水平下提供更好的建模性能（例如，如 DeepSeek-V2 論文的消融研究所討論的那樣），但它們也涉及更復(fù)雜的實(shí)現(xiàn)和更復(fù)雜的注意力堆棧。

GQA 仍然具有吸引力，因?yàn)樗哂蟹€(wěn)健性，更容易實(shí)現(xiàn)，并且更容易訓(xùn)練（根據(jù)我的經(jīng)驗(yàn)，需要調(diào)整的超參數(shù)更少）。

這就是為什么一些較新的發(fā)布版本仍在此處刻意保持經(jīng)典設(shè)計(jì)的原因。例如，在我的春季架構(gòu)文章中，我提到 MiniMax M2.5 和 Nanbeige 4.1 是保持非常經(jīng)典設(shè)計(jì)的模型，僅使用分組查詢注意力，而沒有堆砌其他效率技巧。Sarvam 也是一個非常有用的比較對象： 30B 模型保留了經(jīng)典的 GQA ，而 105B 版本則切換到了 MLA。

圖 12 ：105B Sarvam（使用 MLA）與 30B Sarvam（使用 GQA）以及使用普通 MHA 的總 KV 緩存大小對比。

3. 多頭潛在注意力 (MLA)

多頭潛在注意力 (MLA) 背后的動機(jī)與分組查詢注意力 (GQA) 相似。兩者都是用于降低 KV 緩存內(nèi)存需求的解決方案。GQA 和 MLA 之間的區(qū)別在于，MLA 通過壓縮存儲的內(nèi)容來縮小緩存，它拋棄了通過共享頭來減少存儲的 K/V 數(shù)量的方式。

圖 13 ：與 GQA 不同，MLA 并非通過對頭進(jìn)行分組來降低 KV 成本。它通過緩存壓縮的潛在表示來降低成本。請注意，它也應(yīng)用于查詢，為簡單起見未顯示

MLA 最初在 DeepSeek-V2 論文中提出，成為 DeepSeek 時代標(biāo)志性的理念（特別是在 DeepSeek-V3 和 R1 之后）。它比 GQA 的實(shí)現(xiàn)更復(fù)雜，服務(wù)部署也更復(fù)雜，但如今，一旦模型大小和上下文長度變得足夠大以至于緩存流量開始占據(jù)主導(dǎo)地位，它通常也會變得更具吸引力，因?yàn)樵谙嗤膬?nèi)存減少率下，它可以保持更好的建模性能（稍后會詳細(xì)介紹）。

示例架構(gòu)：DeepSeek V3、Kimi K2、GLM-5、Ling 2.5、Mistral Large 3 和 Sarvam 105B

3.1 壓縮機(jī)制

放棄像 MHA 和 GQA 中那樣緩存全分辨率的鍵和值張量，MLA 選擇存儲一種潛在表示，并在需要時重建可用狀態(tài)。從本質(zhì)上講，這是一種嵌入在注意力機(jī)制中的緩存壓縮策略，如上圖所示。

下圖顯示了與常規(guī) MHA 相比節(jié)省的空間。

圖 14 ：一旦上下文長度增加，與緩存全張量 K/V 相比，緩存潛在表示所帶來的節(jié)省變得非常明顯

3.2 MLA 消融實(shí)驗(yàn)

DeepSeek-V2 論文提供了一些消融實(shí)驗(yàn)結(jié)果，其中 GQA 在建模性能方面表現(xiàn)得比 MHA 差，而 MLA 表現(xiàn)得更好，如果在仔細(xì)調(diào)整的情況下，甚至可以超越 MHA。這比「它（也）節(jié)省了內(nèi)存」是一個強(qiáng)有力的多得多的理由。

換句話說，MLA 之所以成為 DeepSeek 更受青睞的注意力機(jī)制，除去其本身的高效，它在大規(guī)模下看起來也是一種保持質(zhì)量的效率舉措。（但同事們也告訴我，MLA 只有在特定尺寸下效果良好。對于較小的模型，比方說小于 100B ，GQA 似乎效果更好，或者至少更容易調(diào)整和完善。）

圖 15 ：在這里，GQA 降至 MHA 以下，而 MLA 保持競爭力甚至略微超越 MHA。底層論文：DeepSeek-V2。

下面又是 30B Sarvam 中的 GQA 與 105B Sarvam 中的 MLA 之間的比較。

圖 16 ：GQA 和 MLA 正在從不同方向解決同一個瓶頸。其權(quán)衡點(diǎn)在于簡單性與大型模型更好的建模性能之間的取舍。

3.3 MLA 在 DeepSeek 之后如何傳播

自從 DeepSeek V3/R1、V3.1 等版本在 V2 中引入該設(shè)計(jì)并將其標(biāo)準(zhǔn)化后，它開始出現(xiàn)在第二波架構(gòu)中。Kimi K2 保留了 DeepSeek 的方案并對其進(jìn)行了擴(kuò)展。GLM-5 采用了 MLA 連同 DeepSeek 稀疏注意力（來自 DeepSeek V3.2 ）。Ling 2.5 將 MLA 與線性注意力混合架構(gòu)結(jié)合在一起。Sarvam 發(fā)布了兩個模型，其中 30B 模型保留了經(jīng)典的 GQA，而 105B 模型切換到了 MLA。

最后一對特別有用，因?yàn)樗鼘⒓夹g(shù)復(fù)雜性的討論放在了一邊。即，Sarvam 團(tuán)隊(duì)實(shí)現(xiàn)了這兩種變體，并刻意選擇在一個變體中使用 GQA ，而在另一個變體中使用 MLA。因此，在某種意義上，這使得 MLA 給人的感覺少了一點(diǎn)理論上的替代方案的意味，多了一點(diǎn)家族模型擴(kuò)展后具體的架構(gòu)升級路徑的意味。

4. 滑動窗口注意力 (SWA)

滑動窗口注意力通過限制每個位置可以關(guān)注的先前 token 數(shù)量，來降低長上下文推理的內(nèi)存和計(jì)算成本。這里摒棄了關(guān)注整個前綴的做法，每個 token 僅關(guān)注其位置周圍近期 token 的固定窗口。由于注意力被限制在局部的 token 鄰域，這種機(jī)制通常被稱為局部注意力。

一些架構(gòu)將這些局部層與偶爾的全局注意力層結(jié)合在一起，以便信息仍然可以在整個序列中傳播。

圖 17 ：概念上的轉(zhuǎn)變很簡單。常規(guī)注意力是全局注意力，而滑動窗口注意力是局部注意力。全局注意力讓每個 token 都能看到完整的前綴；SWA 將許多這樣的層轉(zhuǎn)變?yōu)榫植孔⒁饬?/p>

示例架構(gòu)：Gemma 3 27B、OLMo 3 32B、Xiaomi MiMo-V2-Flash、Arcee Trinity、Step 3.5 Flash 和 Tiny Aya

4.1 以 Gemma 3 作為參考點(diǎn)

Gemma 3 仍然是最近最清晰的 SWA 示例之一，因?yàn)樗苋菀着c Gemma 2 進(jìn)行比較。Gemma 2 已經(jīng)使用了一種混合注意力設(shè)置，局部層與全局層的比例為 1:1 ，并具有 4096 個 token 的窗口。Gemma 3 將這一比例進(jìn)一步推至 5:1 ，并將窗口大小減小到 1024。

關(guān)鍵發(fā)現(xiàn)并不在于局部注意力更便宜，因?yàn)檫@已經(jīng)是眾所周知的。從 Gemma 3 的消融研究中得出的更有趣的結(jié)論是，更激進(jìn)地使用這種方法似乎對建模性能的影響微乎其微。

Gemma 消融研究表明，較小的窗口和更激進(jìn)的局部與全局比例對困惑度的影響很小。底層論文：Gemma 3

4.2 比例與窗口大小

在實(shí)踐中，說一個模型「使用 SWA」并不意味著它僅依賴于 SWA。通常重要的是局部到全局的層模式和注意力窗口大小。例如：

Gemma 3 和 Xiaomi 使用 5:1 的局部到全局模式。
OLMo 3 和 Arcee Trinity 使用 3:1 的模式。
Xiaomi 還使用 128 的窗口大小，這比 Gemma 的 1024 小得多，因此也更加激進(jìn)。
SWA 本質(zhì)上是一個旋鈕，可以對其進(jìn)行不同程度的激進(jìn)調(diào)整。

圖 18 ：長上下文的節(jié)省來自于將許多全注意力層轉(zhuǎn)變?yōu)榫植孔⒁饬樱@減少了這些層需要考慮的緩存上下文的數(shù)量

4.3 將 SWA 與 GQA 結(jié)合

SWA 經(jīng)常與 GQA 一起出現(xiàn)，因?yàn)檫@兩個想法解決了同一個推理問題的不同部分。SWA 減少了局部層必須考慮的上下文數(shù)量。GQA 減少了每個 token 貢獻(xiàn)給緩存的鍵值狀態(tài)的數(shù)量。

這就是為什么許多最近的稠密模型會同時使用兩者，摒棄了將它們視為替代方案的做法。Gemma 3 在這里又是一個很好的參考點(diǎn)，因?yàn)樗谕粋€架構(gòu)中結(jié)合了滑動窗口注意力和分組查詢注意力。

5. DeepSeek 稀疏注意力 (DSA)

DeepSeek 稀疏注意力是出現(xiàn)在 DeepSeek V3.2 系列中，并隨后在 GLM-5 中再次出現(xiàn)的架構(gòu)變化之一。

具體來說，DeepSeek V3.2 將其與多頭潛在注意力 (MLA) 結(jié)合使用，而 GLM-5 采用相同組合的大致原因也相同，即在上下文長度變大時降低推理成本。

示例架構(gòu)：DeepSeek V3.2 和 GLM-5

5.1 相對于滑動窗口注意力的變化

在滑動窗口注意力中，當(dāng)前 token 放棄關(guān)注完整的前綴，它只關(guān)注固定的局部窗口。這也是 DeepSeek 稀疏注意力背后相同的廣義概念，即每個 token 也只關(guān)注先前 token 的一個子集。

然而，所選取的 token 并沒有由固定寬度的局部窗口決定。作為替代，DeepSeek 稀疏注意力使用了一種學(xué)習(xí)到的稀疏模式。簡而言之，它使用了一種索引器加選擇器的設(shè)置，其中閃電索引器計(jì)算相關(guān)性得分，而 token 選擇器僅保留一小部分得分較高的過去位置。

選取 token 子集的方式是與滑動窗口注意力的主要區(qū)別。滑動窗口注意力將局部性硬編碼。DeepSeek 稀疏注意力仍然將注意力限制在一個子集上，但它讓模型決定哪些先前的 token 值得回顧。

圖 19 ：與滑動窗口注意力類似，DeepSeek 稀疏注意力也將每個 token 限制在先前 token 的一個子集內(nèi)，只不過它沒有通過固定的局部窗口來實(shí)現(xiàn)這一點(diǎn)

5.2 DeepSeek 稀疏注意力與 MLA

DeepSeek V3.2 同時使用了多頭潛在注意力 (MLA) 和 DeepSeek 稀疏注意力。MLA 通過壓縮存儲的內(nèi)容來降低 KV 緩存成本。DeepSeek 稀疏注意力減少了模型必須回顧的先前上下文數(shù)量。換句話說，一個優(yōu)化了緩存表示，另一個在其基礎(chǔ)上優(yōu)化了注意力模式。

圖 20 ：DeepSeek V3.2 是明顯的參考點(diǎn)，因?yàn)檫@是與稀疏注意力理念聯(lián)系最緊密的模型家族。

稀疏模式并不隨機(jī)。第一階段是一個閃電索引器，它為每個新的查詢 token 對之前的 token 進(jìn)行評分。它利用 MLA 的壓縮 token 表示，并在先前的上下文中計(jì)算一個學(xué)習(xí)到的相似度得分，因此模型可以對哪些早期位置值得回顧進(jìn)行排名。

第二階段是 token 選擇器。它僅保留一個較小的、得分較高的子集，例如過去位置的 top-k 集合，并將該子集轉(zhuǎn)換為稀疏注意力掩碼。因此，重點(diǎn)在于 DeepSeek 稀疏注意力避開了硬編碼稀疏模式的做法，它會去學(xué)習(xí)保留哪些過去的 token。

圖 21 ：該機(jī)制由一個為先前 token 評分的閃電索引器和一個僅保留較小子集用于注意力的選擇器組成

DeepSeek 稀疏注意力相對較新且實(shí)現(xiàn)起來相對復(fù)雜，這也是為什么它尚未像分組查詢注意力 (GQA) 那樣被廣泛采用的原因。

6. 門控注意力 (Gated Attention)

將門控注意力理解為一個經(jīng)過修改的全注意力塊最為妥當(dāng)，它脫離了作為一個獨(dú)立注意力家族的范疇。

它通常出現(xiàn)在混合堆棧中，這些堆棧仍然保留偶爾的全注意力層用于精確的內(nèi)容檢索，但在原本熟悉的縮放點(diǎn)積注意力塊之上添加了一些以穩(wěn)定性為導(dǎo)向的更改。

圖 22 ：Trinity Large 是一個有用的對比對象，因?yàn)殚T控注意力并不僅僅是 Qwen 的想法（稍后會詳細(xì)介紹）。在這里，在一個不同的長上下文架構(gòu)中，門控出現(xiàn)在縮放點(diǎn)積注意力輸出之后，并在輸出投影之前

6.1 門控注意力的應(yīng)用位置

Qwen3-Next 和 Qwen3.5 架構(gòu)表明，最近的混合架構(gòu)（在下一節(jié)中介紹）并沒有在所有地方取代注意力。作為一種妥協(xié)，它們用更便宜的替代方案取代了大多數(shù)注意力層，并在堆棧中保留了較少數(shù)量的全注意力層。

那些保留下來的全注意力層通常就是門控注意力出現(xiàn)的地方。Qwen3-Next 和 Qwen3.5 將其與 Gated DeltaNet 一起以 3:1 的模式使用。

撇開混合架構(gòu)不談，Trinity 在一個更傳統(tǒng)的注意力堆棧中使用了相關(guān)的門控理念，如上圖所示。

6.2 門控注意力與標(biāo)準(zhǔn)注意力的比較

Qwen 風(fēng)格的混合架構(gòu)或 Trinity（非混合架構(gòu)）中的門控注意力塊，本質(zhì)上是標(biāo)準(zhǔn)縮悉點(diǎn)積注意力在之上加上了一些修改。在最初的門控注意力論文中，這些修改被視作一種方法，用于使保留在混合堆棧中的全注意力層的行為更具可預(yù)測性。

該塊看起來仍然像標(biāo)準(zhǔn)的（全）注意力，但它增加了：

一個輸出門，用于在將注意力結(jié)果加回殘差之前對其進(jìn)行縮放；
一種中心為零的 QK-Norm 變體，取代了用于 q 和 k 的標(biāo)準(zhǔn) RMSNorm ；
局部 RoPE。

這些修改未達(dá)到 MLA 或線性注意力的規(guī)模，它們純粹是應(yīng)用于一個本來就熟悉的注意力塊的穩(wěn)定性和控制修改。

圖 23 ：在 Qwen3-Next 和 Qwen3.5 中，門控注意力作為全注意力層出現(xiàn)，它定期地阻斷連續(xù)運(yùn)行的 Gated DeltaNet 塊。

請注意，上圖還包含了 Gated DeltaNet ，我們將在下面的小節(jié)中對其進(jìn)行介紹。

7. 混合注意力 (Hybrid Attention)

混合注意力是一種更廣泛的設(shè)計(jì)模式，它超越了單一的特定機(jī)制。總體思路是保留類似 Transformer 的堆棧，但使用更便宜的線性或狀態(tài)空間序列模塊來替換大多數(shù)昂貴的全注意力層。

其動機(jī)在于長上下文效率。全注意力隨序列長度呈二次方增長，因此一旦模型轉(zhuǎn)向 128k 、 256k 或 1M token 這樣的上下文，注意力的內(nèi)存和計(jì)算成本就會變得非常高昂，以至于在大多數(shù)層中使用更便宜的序列模塊，同時僅保留少量更繁重的檢索層變得更加合理。（請注意，不過這會帶來一些建模性能方面的權(quán)衡。）

在 Qwen3-Next 中，這種模式表現(xiàn)為 Gated DeltaNet 和門控注意力塊的 3:1 混合。Gated DeltaNet 也與 Mamba-2 密切相關(guān)（例如，請參閱《Gated Delta Networks: Improving Mamba2 with Delta Rule》論文），并且該機(jī)制可以被理解為 DeltaNet 風(fēng)格的快速權(quán)重更新與 Mamba 風(fēng)格門控的結(jié)合。后來的架構(gòu)保留了相同的整體思路，但換成了其他的輕量級序列混合器，例如 Kimi Delta Attention 、Lightning Attention 或標(biāo)準(zhǔn)的 Mamba-2。

圖 24 ：基本的混合模式，其中大多數(shù)塊是更便宜的序列混合器，每四個塊恢復(fù)一個繁重的注意力層

7.1 Qwen3-Next 中的 Gated DeltaNet

據(jù)我所知，首個采用混合注意力的接近旗艦級 LLM 的顯著例子是 2025 年的 Qwen3-Next ，它并未完全移除注意力機(jī)制，其做法是將三個 Gated DeltaNet 塊與一個門控注意力塊混合。

在這里，輕量級的 Gated DeltaNet 塊承擔(dān)了大部分長上下文的工作，并使內(nèi)存增長比全注意力平緩得多。保留較重的門控注意力層是因?yàn)?DeltaNet 在基于內(nèi)容的檢索方面不夠精確。

在 Gated DeltaNet 塊內(nèi)，模型連同兩個學(xué)習(xí)到的門（α，β）一起計(jì)算查詢、鍵和值向量。它使用 delta 規(guī)則更新寫入一個小的快速權(quán)重內(nèi)存，擺脫了形成通常的 token 到 token 注意力矩陣的步驟。粗略地說，內(nèi)存存儲了過去信息的壓縮運(yùn)行摘要，而門控制了添加多少新信息以及保留多少先驗(yàn)狀態(tài)。

這使得 Gated DeltaNet 成為一種線性注意力或循環(huán)風(fēng)格的機(jī)制，它絕不僅僅是對 MHA 的又一次微調(diào)。相對于 Mamba-2 ，兩者的密切聯(lián)系在于它們都屬于線性時間門控序列模型家族，但 Gated DeltaNet 使用的是 DeltaNet 風(fēng)格的快速權(quán)重內(nèi)存更新，這取代了 Mamba 的狀態(tài)空間更新。

圖 25 ：混合架構(gòu)背后的實(shí)際動機(jī)在內(nèi)存曲線中顯示。使用 Gated DeltaNet 的混合堆棧隨著上下文長度的增長比普通的全注意力緩慢得多

Qwen3.5 將之前的 Qwen3-Next 混合架構(gòu)引入了 Qwen 的主打旗艦系列，這是一個有趣的舉動。這基本上標(biāo)志著混合策略取得了成功，并且我們將來可能會看到更多采用這種架構(gòu)的模型。

圖 26 ：Qwen3.5 展示了 Qwen 團(tuán)隊(duì)將之前的 Qwen3-Next 側(cè)支提升到了主要模型線中，擺脫了將其作為一次性效率變體的地位

7.2 Kimi Linear 與改進(jìn)的 Delta Attention

Kimi Linear 保留了相同的廣泛 Transformer 骨架和相同的 3:1 模式，但它改變了配方的兩半。

在輕量級方面，Kimi Delta Attention 是 Gated DeltaNet 的改進(jìn)版。Qwen3-Next 為每個頭使用標(biāo)量門來控制內(nèi)存衰減，Kimi 則使用通道級門控，這賦予了其對內(nèi)存更新的更精細(xì)控制。在重量級方面，Kimi 用門控 MLA 層替換了 Qwen3-Next 的門控注意力層。

因此，這仍然是與 Qwen3-Next 和 Qwen3.5 相同的更廣泛的模式，但這兩個成分都發(fā)生了（輕微的）變化。即，大多數(shù)層仍然由更便宜的線性風(fēng)格機(jī)制處理，并且仍然保留周期性的重型層以實(shí)現(xiàn)更強(qiáng)的檢索能力。

圖 27 ：Kimi Linear 保持了相同的整體混合模式，同時改變了堆棧的輕量級部分和較重的注意力部分

7.3 Ling 2.5 與 Lightning Attention

Ling 2.5 展示了在輕量級方面的另一種替換。Ling 放下了 Gated DeltaNet ，使用了一種稱為 Lightning Attention 的稍微簡單一些的循環(huán)線性注意力變體。在重量級方面，它保留了來自 DeepSeek 的 MLA。

大多數(shù)序列混合發(fā)生在更便宜的線性注意力塊中，同時保留了少量較重的層以維持更強(qiáng)的檢索。不同之處在于特定的輕量級機(jī)制現(xiàn)在是 Lightning Attention ，脫離了對 DeltaNet 或 Kimi Delta Attention 的依賴。

圖 28 ：Ling 2.5 和 Qwen3.5 都是線性注意力混合架構(gòu)，盡管 Ling 采用了 Lightning Attention 和 MLA，避開了 Qwen 的方案

Ling 2.5 更多地針對長上下文效率，其目標(biāo)并非絕對的基準(zhǔn)測試領(lǐng)先地位。根據(jù) Ling 團(tuán)隊(duì)的說法，據(jù)報道它在處理 32k token 時比 Kimi K2 快得多，這正是這些混合架構(gòu)所追求的實(shí)際回報。

圖 29 ：Ling 2.5 作為一個強(qiáng)大的效率升級版推出，在同樣的 1 萬億參數(shù)規(guī)模下，其 32k-token 的吞吐量遠(yuǎn)高于 Kimi K2

Nemotron 與 Mamba-2

Nemotron 將該模式進(jìn)一步推離了 Transformer 基線。Nemotron 3 Nano 是一個 Mamba-Transformer 混合架構(gòu)，它將 Mamba-2 序列建模塊與稀疏 MoE 層交錯排列，并且僅在一小部分層中使用自注意力。

這是上述相同基本權(quán)衡的更極端版本。在這里，輕量級序列模塊是一個 Mamba-2 狀態(tài)空間塊，這取代了 DeltaNet 風(fēng)格的快速權(quán)重更新，但基本的權(quán)衡是相似的。

圖 30 ：Nemotron 3 Nano 使用 Mamba-2 完成大部分序列建模工作，自注意力僅出現(xiàn)在一小部分層中

更大的 Nemotron 3 Super 保留了 Mamba-2 混合注意力方法，并添加了其他以效率為導(dǎo)向的更改，例如潛在 MoE 和用于推測解碼的共享權(quán)重多 token 預(yù)測 (MTP)。

圖 31 ：Nemotron 3 Super 保留了 Mamba-2 混合注意力模式，同時在其基礎(chǔ)上添加了潛在 MoE 和共享權(quán)重 MTP

結(jié)論

當(dāng)然，在大量文獻(xiàn)中還有更多（主要是小眾的）注意力變體我在這里沒有介紹。本文的重點(diǎn)集中于目前在最先進(jìn)的（開放權(quán)重）模型中使用的那些變體。

我特別期待 (1) 看到全新的Mamba-3層被集成到上述混合架構(gòu)中（替換 Gated DeltaNet ），以及 (2)注意力殘差 (attention residuals)被廣泛使用。

在實(shí)踐中，你可能還會想知道目前「最好」的架構(gòu)是什么。這很難回答，因?yàn)闆]有公開的實(shí)驗(yàn)在相同的訓(xùn)練數(shù)據(jù)上訓(xùn)練不同的架構(gòu)等。

因此，我們目前只能回答對于給定問題最佳（經(jīng)過訓(xùn)練的）模型選擇是什么。在我看來，混合架構(gòu)仍然是一個新奇事物，其主要賣點(diǎn)主要是（長上下文）效率，它在一定程度上拋棄了單純強(qiáng)調(diào)建模性能的追求。因此，我認(rèn)為它們是智能體上下文（如 OpenClaw ）的絕佳選擇。

就我個人而言，我認(rèn)為混合架構(gòu)的問題也在于推理堆棧尚未得到充分優(yōu)化，我發(fā)現(xiàn)當(dāng)使用更經(jīng)典的設(shè)置（如帶有分組查詢注意力的 GPT-OSS ）在本地運(yùn)行 LLM 時，我獲得了更好的 tok/sec 吞吐量。

無論如何，我很好奇DeepSeek V4會帶來什么，因?yàn)樵谶^去的 2 年里，DeepSeek 一直是非常可靠的趨勢引領(lǐng)者。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.