網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

創(chuàng)新Transformer！面壁基于稀疏-線性混合架構(gòu)SALA訓(xùn)練9B模型，端側(cè)跑通百萬(wàn)上下文

2026-02-12 04:41:05　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

9B模型實(shí)現(xiàn)端側(cè)百萬(wàn)上下文推理，比同尺寸模型速度最高提升 3.5 倍。

眾所周知，Transformer 及其核心的全注意力機(jī)制（Full Attention）雖長(zhǎng)期占據(jù)大模型架構(gòu)的核心地位，但平方級(jí)計(jì)算復(fù)雜度、高額顯存占用的瓶頸，早已成為實(shí)現(xiàn)超長(zhǎng)上下文處理與模型規(guī)模化應(yīng)用的 “攔路虎”。敢于挑戰(zhàn)這一固有權(quán)威，需要的不僅是實(shí)現(xiàn) AGI 長(zhǎng)遠(yuǎn)目標(biāo)勇于創(chuàng)新的魄力，更需要有獨(dú)到的技術(shù)視野以及突破技術(shù)壁壘的硬實(shí)力。從 DeepSeek 的稀疏注意力（DSA）、MiniMax 的線性注意力、到月之暗面的線性注意力（KDA），大家紛紛投入注意力架構(gòu)的革新競(jìng)技場(chǎng)。

今天，面壁智能也在這場(chǎng)變革中邁出了關(guān)鍵一步：正式發(fā)布行業(yè)首個(gè)大規(guī)模訓(xùn)練的稀疏-線性注意力混合架構(gòu) SALA（Sparse Attention-Linear Attention，簡(jiǎn)稱(chēng)SALA），以及基于該架構(gòu)的文本模型 MiniCPM-SALA，以追求更長(zhǎng)文本處理能力與極致的推理性?xún)r(jià)比。MiniCPM-SALA 不僅在多項(xiàng)長(zhǎng)文本理解與生成評(píng)測(cè)中優(yōu)勢(shì)明顯，且在知識(shí)問(wèn)答、數(shù)學(xué)推理、代碼生成等核心能力維度上，保持了與同規(guī)模全注意力模型相當(dāng)?shù)淖吭剿剑瑢?shí)現(xiàn)了“長(zhǎng)短兼?zhèn)洹钡木C合性能表現(xiàn)，以及極致推理性?xún)r(jià)比。

▍MiniCPM-SALA 亮點(diǎn)一覽

? 架構(gòu)革新：“稀疏-線性”注意力混合架構(gòu)，在顯著降低推理開(kāi)銷(xiāo)與顯存占用的同時(shí)，克服了純線性架構(gòu)在長(zhǎng)程信息召回上的精度瓶頸，效率性能兼顧。

? 卓越性能：采用HyPE（混合位置編碼）來(lái)有效協(xié)調(diào)短上下文和長(zhǎng)上下文的性能。在保持通用能力（如知識(shí)、數(shù)學(xué)和編碼）與其他8B全注意力模型相當(dāng)?shù)耐瑫r(shí)，MiniCPM-SALA 在多個(gè)長(zhǎng)上下文基準(zhǔn)測(cè)試中表現(xiàn)出明顯優(yōu)勢(shì)。

? 高效推理：不使用投機(jī)采樣等加速算法，在云端推理芯片上，當(dāng)序列長(zhǎng)度為256K詞元時(shí)推理速度高達(dá) Qwen3-8B 的 3.5 倍，并支持在云端芯片和消費(fèi)級(jí)端側(cè) GPU 上進(jìn)行高達(dá)一百萬(wàn)詞元上下文長(zhǎng)度的推理。

▍相關(guān)鏈接

GitHub 鏈接：

https://github.com/openbmb/minicpm

HuggingFace 鏈接：

https://huggingface.co/openbmb/MiniCPM-SALA

Model Scope 鏈接：

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

GitCode鏈接：

https://ai.gitcode.com/OpenBMB/MiniCPM-SALA

MiniCPM-SALA 技術(shù)報(bào)告：

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

為何混合架構(gòu)是更優(yōu)解

傳統(tǒng) Transformer 模型在處理長(zhǎng)文本時(shí)，其核心的全注意力機(jī)制會(huì)導(dǎo)致計(jì)算量隨文本長(zhǎng)度呈平方級(jí)增長(zhǎng)，同時(shí)生成過(guò)程中需要緩存的鍵值對(duì)也會(huì)占用大量顯存。現(xiàn)有的解決方案主要分為線性注意力與稀疏注意力兩大流派，但純線性注意力存在精度損失的短板，純稀疏注意力又有著存儲(chǔ)瓶頸的限制。

MiniCPM-SALA 首創(chuàng)稀疏-線性混合注意力架構(gòu)，巧妙地解決了這一核心矛盾。模型中 75% 的層采用線性注意力（Lightning Attention），負(fù)責(zé)信息的高效全局流轉(zhuǎn)。其余 25% 的層采用稀疏注意力（InfLLM-v2），專(zhuān)注于精準(zhǔn)捕捉局部關(guān)鍵信息，黃金配比實(shí)現(xiàn)計(jì)算效率與語(yǔ)義精度的平衡。

MiniCPM-SALA 模型架構(gòu)

相關(guān)研究論文現(xiàn)已公開(kāi)：

? 稀疏-線性混合注意力：

https://arxiv.org/pdf/2601.22156

? InfLLM v2：

https://arxiv.org/pdf/2509.24663

不止于「長(zhǎng)」，更在于「強(qiáng)」

MiniCPM-SALA 具備優(yōu)異的長(zhǎng)度泛化能力。在不使用任何額外技術(shù)（如YaRN）的前提下，MiniCPM-SALA 可以將上下文長(zhǎng)度拓展至2048K。

在云端推理芯片上評(píng)估從 64K 到 1024K 詞元的不同序列長(zhǎng)度下的效率，MiniCPM-SALA 在所有測(cè)試配置中均表現(xiàn)出顯著的效率優(yōu)勢(shì)，在非量化設(shè)置下始終保持更低的延遲。在 256K 序列長(zhǎng)度下，MiniCPM-SALA 相比 Qwen3-8B 實(shí)現(xiàn)了約 3.5 倍的加速。

在更長(zhǎng)序列（512K 及 1M 長(zhǎng)文本）上，同尺寸開(kāi)源模型已經(jīng)遭遇顯存爆炸的情況下，MiniCPM-SALA 依舊能夠穩(wěn)定推理，讓 MiniCPM-SALA 在汽車(chē)、手機(jī)、具身機(jī)器人等更多端側(cè)領(lǐng)域應(yīng)用成為可能。

此外，在模型僅有 9B 參數(shù)的前提下，MiniCPM-SALA 在知識(shí)問(wèn)答、數(shù)學(xué)推理、代碼生成等核心能力維度上保持了與同規(guī)模全注意力模型相當(dāng)?shù)淖吭剿剑瑢?shí)現(xiàn)了“長(zhǎng)短兼?zhèn)洹钡木C合性能表現(xiàn)。

邀你挑戰(zhàn)推理極限

為進(jìn)一步探索 SALA 混合注意力架構(gòu)在實(shí)際部署中的性能極限，OpenBMB聯(lián)合 SGLang 、 NVIDIA 、面壁智能共同發(fā)起 2026 稀疏算子加速大獎(jiǎng)賽（SOAR）。大賽聚焦于稀疏化算子融合與編譯優(yōu)化等底層硬核課題，挑戰(zhàn)在消費(fèi)級(jí) GPU 上實(shí)現(xiàn)百萬(wàn)級(jí)詞元推理與 KV Cache 的極致效率，協(xié)同攻克長(zhǎng)文本處理的性能最優(yōu)解。誠(chéng)邀全球技術(shù)極客基于 SGLang 推理框架與 NVIDIA 硬件特性展開(kāi)極限攻關(guān)，打破硬件物理瓶頸，共同定義下一代高效推理的性能新基線。

比賽官網(wǎng):https://soar.openbmb.cn/

技術(shù)報(bào)告

01 引言 (Introduction)

隨著大模型能力日益強(qiáng)大，其應(yīng)用場(chǎng)景正經(jīng)歷著深刻的范式轉(zhuǎn)變，從簡(jiǎn)單的問(wèn)答發(fā)展到愈發(fā)復(fù)雜的任務(wù)。在這些高級(jí)應(yīng)用場(chǎng)景中，模型不能再局限于處理碎片化信息。相反，模型必須具備處理超長(zhǎng)上下文的能力，例如一次性閱讀整本技術(shù)手冊(cè)、分析跨越數(shù)萬(wàn)行代碼的依賴(lài)關(guān)系，或在多日的人機(jī)協(xié)作中維持連貫的任務(wù)狀態(tài)和記憶。在這種背景下，百萬(wàn)級(jí)詞元的處理將會(huì)成為前沿大模型的關(guān)鍵能力。然而，作為當(dāng)前主流大模型基礎(chǔ)的Transformer架構(gòu)在處理超長(zhǎng)序列時(shí)面臨著嚴(yán)重的計(jì)算瓶頸。這一瓶頸主要體現(xiàn)在兩個(gè)維度：

? 計(jì)算復(fù)雜度的“計(jì)算墻”（Compute Bottleneck）：在標(biāo)準(zhǔn)注意力機(jī)制中，計(jì)算復(fù)雜度隨序列長(zhǎng)度 N 呈二次方增長(zhǎng)。當(dāng)上下文擴(kuò)展到百萬(wàn)詞元時(shí)，預(yù)填充（Pre-filling）階段的巨大開(kāi)銷(xiāo)會(huì)導(dǎo)致首個(gè)詞元生成時(shí)間（TTFT）急劇增加；

? KV-Cache 的“顯存墻”（Memory Bottleneck）：在自回歸生成過(guò)程中，模型必須存儲(chǔ)所有歷史詞元的 Key 和 Value 狀態(tài)以避免重復(fù)計(jì)算。對(duì)于典型的 8B 參數(shù)模型，即使利用分組查詢(xún)注意力（GQA），百萬(wàn)級(jí)詞元所需的 KV-Cache 也可能達(dá)到數(shù)十甚至上百 GB。

為了解決上述挑戰(zhàn)，現(xiàn)有的解決方案存在兩種主要范式：稀疏注意力（Sparse Attention）和線性注意力（Linear Attention）。這兩種方法各具獨(dú)特的優(yōu)勢(shì)和固有的局限性。稀疏注意力方法試圖通過(guò)僅計(jì)算注意力矩陣中最顯著的部分（例如通過(guò)滑動(dòng)窗口或全局錨點(diǎn)）來(lái)打破計(jì)算墻。然而，這些方法具有“稀疏計(jì)算，稠密存儲(chǔ)”的特點(diǎn)。雖然局部計(jì)算減少了即時(shí)處理開(kāi)銷(xiāo)，但模型仍需保留完整的 KV-Cache 以支持上下文信息的檢索。線性注意力利用循環(huán)計(jì)算成功地將計(jì)算復(fù)雜度降低到 O(N) 。然而，這種極致的效率從根本上是通過(guò)對(duì)上下文信息的有損壓縮實(shí)現(xiàn)的，容易導(dǎo)致性能受損。

MiniCPM-SALA 采用了一種稀疏與線性注意力的混合架構(gòu)，專(zhuān)為實(shí)現(xiàn)高效的超長(zhǎng)序列建模而設(shè)計(jì)。該架構(gòu)結(jié)合了 InfLLM-V2 的高保真局部建模能力與 Lightning Attention 的全局計(jì)算效率。通過(guò)這種集成方法，模型顯著降低了推理開(kāi)銷(xiāo)和內(nèi)存消耗，同時(shí)解決了純線性架構(gòu)在長(zhǎng)距離信息處理中典型的精度瓶頸。

主要貢獻(xiàn)如下：

? 創(chuàng)新架構(gòu)設(shè)計(jì)：提出了一種稀疏-線性混合注意力機(jī)制 SALA，將 25% 的 InfLLM-V2 和 75% 的 Lightning Attention 相結(jié)合，可在性能與效率之間取得良好的平衡。通過(guò)利用稀疏注意力對(duì)局部細(xì)節(jié)的細(xì)粒度關(guān)注，以及線性注意力在長(zhǎng)上下文時(shí) O(N) 的計(jì)算效率，該架構(gòu)在序列長(zhǎng)度增加時(shí)仍能保持較高的性能。

? 高效訓(xùn)練范式：MiniCPM-SALA 證明了 Transformer 到混合架構(gòu)的轉(zhuǎn)換范式是構(gòu)建混合模型的高效策略。這種方法通過(guò)對(duì)預(yù)訓(xùn)練權(quán)重進(jìn)行架構(gòu)轉(zhuǎn)換，規(guī)避了冷啟動(dòng)訓(xùn)練的低效性，總訓(xùn)練量?jī)H是從頭開(kāi)始訓(xùn)練同水平模型的 25%。

? 強(qiáng)大的綜合性能：采用 HyPE（混合位置編碼）來(lái)有效協(xié)調(diào)短上下文和長(zhǎng)上下文的性能。在保持通用能力（如知識(shí)、數(shù)學(xué)和編碼）與 Qwen3-8B 等現(xiàn)代全注意力模型相當(dāng)?shù)耐瑫r(shí)，MiniCPM-SALA 在多個(gè)長(zhǎng)上下文基準(zhǔn)測(cè)試中表現(xiàn)出明顯優(yōu)勢(shì)。

? 優(yōu)越的推理效率：MiniCPM-SALA 在長(zhǎng)上下文場(chǎng)景中展示了顯著的資源和速度優(yōu)勢(shì)。在 NVIDIA A6000D GPU 上，當(dāng)序列長(zhǎng)度為 256K 詞元時(shí)，MiniCPM-SALA 的推理速度高達(dá)Qwen3-8B 的 3.5 倍。此外，MiniCPM-SALA 支持在 NVIDIA A6000D 和 5090 GPU 上進(jìn)行高達(dá) 1 百萬(wàn)詞元上下文長(zhǎng)度的推理，而 Qwen3-8B 在此長(zhǎng)度下會(huì)面臨顯存不足（OOM）的問(wèn)題。這些結(jié)果展示了 MiniCPM-SALA 在端側(cè)長(zhǎng)文本應(yīng)用中的強(qiáng)大潛力。

02模型架構(gòu)

（1）總體架構(gòu)設(shè)計(jì)

MiniCPM-SALA 建立在交替式混合注意力架構(gòu)之上。如圖1所示，有別于傳統(tǒng) Transformer 采用同構(gòu)全注意力層堆疊的模式，該架構(gòu)通過(guò)層級(jí)異構(gòu)設(shè)計(jì)打破了單一機(jī)制在百萬(wàn)級(jí)長(zhǎng)序列建模中的性能瓶頸。模型采用了 25% 的稀疏注意力與 75% 的線性注意力進(jìn)行混合配比。為了顯著降低算力開(kāi)銷(xiāo)，MiniCPM-SALA 利用 HALO 算法將預(yù)訓(xùn)練的全注意力 Transformer 轉(zhuǎn)換為混合架構(gòu)模型進(jìn)行持續(xù)訓(xùn)練，而非從頭構(gòu)建。

Figure1：MiniCPM-SALA 模型架構(gòu)

（2）稀疏注意力模塊

MiniCPM-SALA 采用了 InfLLM-V2 作為 25% 稀疏注意力模塊。InfLLM-V2 是一種可切換的稀疏注意力框架，其核心特點(diǎn)在于通過(guò)精細(xì)的塊選擇機(jī)制，讓每個(gè) Query 僅處理一小部分關(guān)鍵的 Key 和 Value，從而大幅提升長(zhǎng)文本處理效率。得益于 InfLLM-V2 可切換的特性，我們?cè)谀Ｐ偷拈L(zhǎng)文本訓(xùn)練過(guò)程中打開(kāi)稀疏模式，而在標(biāo)準(zhǔn)長(zhǎng)度的訓(xùn)練中（例如 4096 詞元）關(guān)閉稀疏模式。我們?cè)谛∫?guī)模實(shí)驗(yàn)上驗(yàn)證輸出門(mén)控機(jī)制對(duì)于提升模型的通用能力有幫助，因此我們也對(duì)稀疏注意力層加入了輸出門(mén)控機(jī)制。

（3）線性注意力模塊

在線性注意力組件選擇上，盡管當(dāng)前涌現(xiàn)出 RWKV-7、GDN 和 KDA 等多種先進(jìn)的線性 Token Mixing 模塊，但由于 Lightning Attention 在計(jì)算范式上與全注意力機(jī)制更為接近，能夠與 HALO 轉(zhuǎn)換算法實(shí)現(xiàn)更優(yōu)的適配度，因此我們最終選定其作為線性層的核心算子。同時(shí)，我們使用了與 HypeNet 相同的架構(gòu)細(xì)節(jié)，包括 QK-normalization、GQA-to-MHA transformation 和輸出門(mén)控機(jī)制，這些設(shè)置可以有效提升模型訓(xùn)練的穩(wěn)定性，并且可以取得更好的模型性能。

（4）混合位置編碼

我們沿用了 HypeNet 提出的 HyPE (Hybrid Position Encoding）策略。該策略針對(duì)混合架構(gòu)中不同注意力機(jī)制的特性進(jìn)行了差異化設(shè)計(jì)：在線性注意力層，我們保留了 RoPE (Rotary Positional Embedding)，旨在最大程度保持與轉(zhuǎn)換前全注意力模型在參數(shù)分布與特征空間上的一致性，從而降低轉(zhuǎn)換帶來(lái)的性能損失。

而在稀疏注意力層，我們則采用了 NoPE (No Position Encoding）策略。這一設(shè)計(jì)的核心優(yōu)勢(shì)在于，稀疏層的歷史 KV-Cache 不再耦合任何位置信息。這有效規(guī)避了 RoPE 在處理超長(zhǎng)序列時(shí)固有的長(zhǎng)距離衰減問(wèn)題，使得模型在檢索極遠(yuǎn)距離的歷史信息時(shí)，不再受制于位置編碼帶來(lái)的數(shù)值抑制，從而顯著增強(qiáng)了模型的長(zhǎng)距離召回能力。

03模型訓(xùn)練

模型整體訓(xùn)練過(guò)程如下表所示：

? 架構(gòu)轉(zhuǎn)換 (HALO)：這一階段旨在將 Transformer 模型從全注意力轉(zhuǎn)換為混合架構(gòu)。此階段主要沿用了 HALO 轉(zhuǎn)換方法。具體地，MiniCPM-SALA 的訓(xùn)練配置在兩個(gè)方面不同于標(biāo)準(zhǔn)的 HALO 方法。首先，關(guān)于層選擇，MiniCPM-SALA 保留第一層和最后一層不進(jìn)行轉(zhuǎn)換，以提高訓(xùn)練過(guò)程的穩(wěn)定性。對(duì)于其余層，使用 HALO 的層選擇算法來(lái)確定哪些層被保留為全注意力層。這些保留的全注意力層隨后在后續(xù)階段被訓(xùn)練為稀疏注意力。與標(biāo)準(zhǔn) HALO 的第二個(gè)區(qū)別是，我們不執(zhí)行 HALO 流程中的最終微調(diào)步驟。取而代之的是，我們進(jìn)行更廣泛的持續(xù)預(yù)訓(xùn)練和后訓(xùn)練，如后續(xù)步驟所述。此階段的訓(xùn)練過(guò)程非常高效，僅使用了 1.3B 詞元，序列長(zhǎng)度為 512 詞元。此外，在此階段僅轉(zhuǎn)換后的線性注意力層是可訓(xùn)練的，所有其他參數(shù)保持凍結(jié)。

? 持續(xù) Stable 訓(xùn)練：利用上一階段結(jié)束的模型作為本階段訓(xùn)練的起點(diǎn)，在 MiniCPM-4.0 的預(yù)訓(xùn)練數(shù)據(jù)集上進(jìn)行進(jìn)一步訓(xùn)練。此階段的主要目標(biāo)是促進(jìn)轉(zhuǎn)換后的線性注意力層與模型的其他組件（包括全注意力層、FFN 層和嵌入層）更好地適配。此過(guò)程的序列長(zhǎng)度設(shè)置為 4K 詞元，總訓(xùn)練量為 314.6B 詞元。由于序列長(zhǎng)度仍然相對(duì)較短，為了保持計(jì)算效率，在此階段關(guān)閉了稀疏注意力層。本階段學(xué)習(xí)率設(shè)置為 7.5e-3。

? Short-Decay 訓(xùn)練：第三階段的學(xué)習(xí)率從 7.5e-3 以指數(shù)衰減的形式降低至 3.75e-4。此過(guò)程使用 4K 詞元的序列長(zhǎng)度，共訓(xùn)練 1T 詞元，也是 MiniCPM-SALA 整個(gè)開(kāi)發(fā)流程中訓(xùn)練量最大的環(huán)節(jié)。在數(shù)據(jù)方面，在 MiniCPM-4.0 Decay 訓(xùn)練數(shù)據(jù)的基礎(chǔ)上，顯著增加了 L2 高質(zhì)量篩選數(shù)據(jù)的權(quán)重（數(shù)據(jù)分級(jí)標(biāo)準(zhǔn)參考 Data Science and Technology Towards AGI Part I: Tiered Data Management），并引入了大量的 PDF 語(yǔ)料庫(kù)和 L3 合成數(shù)據(jù)。這種方法旨在通過(guò)高信息密度的數(shù)據(jù)組合來(lái)增強(qiáng)通用能力和邏輯推理能力，從而實(shí)現(xiàn)對(duì)海量知識(shí)的高效壓縮和內(nèi)化。

? Long-Decay 訓(xùn)練：本階段將上下文窗口從 4K 逐步擴(kuò)展到 32K、160K，最后擴(kuò)展到 520K 詞元，每個(gè)階段分別使用 102.2B、 62.9B 和 50.6B 詞元的數(shù)據(jù)量。學(xué)習(xí)率在 32K 時(shí)從 3e-4 衰減至 2e-4，然后在 160K 時(shí)衰減至 1e-4，最后在 520K 時(shí)衰減至 3.75e-5。在此階段，我們對(duì)長(zhǎng)上下文數(shù)據(jù)的比例進(jìn)行上采樣，以使模型更好地與長(zhǎng)序列分布對(duì)齊。鑒于稀疏注意力在較長(zhǎng)序列中計(jì)算優(yōu)勢(shì)較為明顯，我們?cè)诖穗A段啟用稀疏注意力機(jī)制并保持全參數(shù)訓(xùn)練，從而允許模型有效地學(xué)習(xí)稀疏注意力和線性注意力之間的協(xié)同作用。

? SFT：此階段的 SFT 語(yǔ)料庫(kù)由高質(zhì)量的推理密集型數(shù)據(jù)組成，包括代碼、數(shù)學(xué)、知識(shí)、函數(shù)調(diào)用和一般對(duì)話(huà)。這種選擇旨在充分激發(fā)復(fù)雜邏輯下的推理和任務(wù)執(zhí)行能力。此外，我們專(zhuān)門(mén)合成了長(zhǎng)上下文數(shù)據(jù)，以提高信息檢索和跨文檔理解的能力。在 SFT 階段，我們依次在 64K 和 140K 的上下文長(zhǎng)度下進(jìn)行訓(xùn)練，分別使用了 204.5B 和 213.3B 詞元的數(shù)據(jù)量。稀疏注意力在整個(gè)過(guò)程中保持啟用狀態(tài)。

04 模型能力測(cè)試

短榜能力測(cè)試：

長(zhǎng)榜能力測(cè)試：

超長(zhǎng)序列能力測(cè)試：

上述結(jié)果表明，MiniCPM-SALA 在不損害短榜能力的前提下，有效提升了長(zhǎng)文本能力。MiniCPM-SALA 還有一個(gè)顯著的亮點(diǎn)是，具備優(yōu)異的長(zhǎng)度泛化能力。在不使用任何額外技術(shù)（如YaRN）的前提下，MiniCPM-SALA 可以有效外推至 2048K長(zhǎng)度。

05 計(jì)算效率測(cè)試

我們?cè)u(píng)估了 MiniCPM-SALA 和 Qwen3-8B 在不同硬件和序列長(zhǎng)度下的推理速度。我們不僅在云端推理芯片（如 NVIDIA A6000D）上進(jìn)行了實(shí)驗(yàn)，還在消費(fèi)級(jí)端側(cè) GPU（如 NVIDIA 5090）上進(jìn)行了測(cè)試。對(duì)于每種序列長(zhǎng)度，我們測(cè)量了首字延遲（Time To First Token, TTFT）和端到端延遲。前者作為預(yù)填充速度的指標(biāo)，而后者反映了預(yù)填充和解碼階段的綜合性能。為了使評(píng)估與實(shí)際部署場(chǎng)景保持一致，我們?cè)u(píng)估了非量化模型以及經(jīng) GPTQ INT4 量化壓縮后的模型的推理延遲。

圖 2 展示了在 NVIDIA A6000D GPU（96GB 顯存）上 Qwen3-8B 與 MiniCPM-SALA 推理延遲的全面對(duì)比。我們?cè)u(píng)估了從 64K 到 1024K 詞元的不同序列長(zhǎng)度下的效率。如圖所示，MiniCPM-SALA 在所有測(cè)試配置中均表現(xiàn)出顯著的效率優(yōu)勢(shì)。在非量化設(shè)置下，MiniCPM-SALA 始終保持更低的延遲。值得注意的是，在 256K 序列長(zhǎng)度下，MiniCPM-SALA 將 TTFT 從 180.8 秒（Qwen3）降低至僅 51.6 秒，實(shí)現(xiàn)了約 3.5 倍的加速。

結(jié)果也顯示了 MiniCPM-SALA 在顯存利用率方面的優(yōu)勢(shì)。當(dāng) Qwen3-8B 在 512K 和 1024K 序列長(zhǎng)度下遭遇顯存溢出（OOM）時(shí)，MiniCPM-SALA 成功處理了這些超長(zhǎng)上下文。

圖 3 展示了 MiniCPM-SALA 在顯存有限的硬件上的優(yōu)勢(shì)。在 RTX 5090（32GB 顯存）上，基線模型 Qwen3-8B 比在 A6000D 上明顯更早觸及“內(nèi)存墻”，在非量化設(shè)置下僅 128K 詞元、量化設(shè)置下 256K 詞元時(shí)即觸發(fā) OOM 錯(cuò)誤。相比之下，MiniCPM-SALA 成功擴(kuò)展至 1024K詞元的上下文長(zhǎng)度且未出現(xiàn)顯存溢出的問(wèn)題。這表明 MiniCPM-SALA 使得在消費(fèi)級(jí)端側(cè) GPU 上處理 1 百萬(wàn)詞元成為可能。

06 結(jié)論

整體而言，我們通過(guò)融合稀疏注意力與線性注意力，構(gòu)建了一種面向長(zhǎng)上下文高效建模的混合架構(gòu)，從而在模型能力與長(zhǎng)上下文處理效率之間實(shí)現(xiàn)了出色的平衡。在過(guò)去一段時(shí)間里，稀疏注意力與線性注意力的相關(guān)研究已分別展現(xiàn)出解決大模型長(zhǎng)上下文問(wèn)題的顯著潛力；而在2026年，稀疏?線性混合架構(gòu)無(wú)疑將成為該領(lǐng)域最具實(shí)效的技術(shù)方向之一。

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.