337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

創(chuàng)新Transformer!面壁基于稀疏-線性混合架構(gòu)SALA訓(xùn)練9B模型,端側(cè)跑通百萬(wàn)上下文

0
分享至


9B模型實(shí)現(xiàn)端側(cè)百萬(wàn)上下文推理, 比同尺寸模型速度最高提升 3.5 倍。

眾所周知,Transformer 及其核心的全注意力機(jī)制(Full Attention)雖長(zhǎng)期占據(jù)大模型架構(gòu)的核心地位,但平方級(jí)計(jì)算復(fù)雜度、高額顯存占用的瓶頸,早已成為實(shí)現(xiàn)超長(zhǎng)上下文處理與模型規(guī)模化應(yīng)用的 “攔路虎”。敢于挑戰(zhàn)這一固有權(quán)威,需要的不僅是實(shí)現(xiàn) AGI 長(zhǎng)遠(yuǎn)目標(biāo)勇于創(chuàng)新的魄力,更需要有獨(dú)到的技術(shù)視野以及突破技術(shù)壁壘的硬實(shí)力。從 DeepSeek 的稀疏注意力(DSA)、MiniMax 的線性注意力、到月之暗面的線性注意力(KDA),大家紛紛投入注意力架構(gòu)的革新競(jìng)技場(chǎng)。

今天,面壁智能也在這場(chǎng)變革中邁出了關(guān)鍵一步:正式發(fā)布行業(yè)首個(gè)大規(guī)模訓(xùn)練的稀疏-線性注意力混合架構(gòu) SALA(Sparse Attention-Linear Attention,簡(jiǎn)稱(chēng)SALA),以及基于該架構(gòu)的文本模型 MiniCPM-SALA,以追求更長(zhǎng)文本處理能力與極致的推理性?xún)r(jià)比。MiniCPM-SALA 不僅在多項(xiàng)長(zhǎng)文本理解與生成評(píng)測(cè)中優(yōu)勢(shì)明顯,且在知識(shí)問(wèn)答、數(shù)學(xué)推理、代碼生成等核心能力維度上,保持了與同規(guī)模全注意力模型相當(dāng)?shù)淖吭剿剑瑢?shí)現(xiàn)了“長(zhǎng)短兼?zhèn)洹钡木C合性能表現(xiàn),以及極致推理性?xún)r(jià)比。

▍MiniCPM-SALA 亮點(diǎn)一覽

? 架構(gòu)革新:“稀疏-線性”注意力混合架構(gòu),在顯著降低推理開(kāi)銷(xiāo)與顯存占用的同時(shí),克服了純線性架構(gòu)在長(zhǎng)程信息召回上的精度瓶頸,效率性能兼顧。

? 卓越性能:采用HyPE(混合位置編碼)來(lái)有效協(xié)調(diào)短上下文和長(zhǎng)上下文的性能。在保持通用能力(如知識(shí)、數(shù)學(xué)和編碼)與其他8B全注意力模型相當(dāng)?shù)耐瑫r(shí),MiniCPM-SALA 在多個(gè)長(zhǎng)上下文基準(zhǔn)測(cè)試中表現(xiàn)出明顯優(yōu)勢(shì)。

? 高效推理:不使用投機(jī)采樣等加速算法,在云端推理芯片上,當(dāng)序列長(zhǎng)度為256K詞元時(shí)推理速度高達(dá) Qwen3-8B 的 3.5 倍,并支持在云端芯片和消費(fèi)級(jí)端側(cè) GPU 上進(jìn)行高達(dá)一百萬(wàn)詞元上下文長(zhǎng)度的推理。

相關(guān)鏈接

GitHub 鏈接:

https://github.com/openbmb/minicpm

HuggingFace 鏈接:

https://huggingface.co/openbmb/MiniCPM-SALA

Model Scope 鏈接:

https://www.modelscope.cn/models/OpenBMB/MiniCPM-SALA

GitCode鏈接

https://ai.gitcode.com/OpenBMB/MiniCPM-SALA

MiniCPM-SALA 技術(shù)報(bào)告:

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

01


為何混合架構(gòu)是更優(yōu)解

傳統(tǒng) Transformer 模型在處理長(zhǎng)文本時(shí),其核心的全注意力機(jī)制會(huì)導(dǎo)致計(jì)算量隨文本長(zhǎng)度呈平方級(jí)增長(zhǎng),同時(shí)生成過(guò)程中需要緩存的鍵值對(duì)也會(huì)占用大量顯存。現(xiàn)有的解決方案主要分為線性注意力與稀疏注意力兩大流派,但純線性注意力存在精度損失的短板,純稀疏注意力又有著存儲(chǔ)瓶頸的限制。


MiniCPM-SALA 首創(chuàng)稀疏-線性混合注意力架構(gòu),巧妙地解決了這一核心矛盾。模型中 75% 的層采用線性注意力(Lightning Attention),負(fù)責(zé)信息的高效全局流轉(zhuǎn)。其余 25% 的層采用稀疏注意力(InfLLM-v2),專(zhuān)注于精準(zhǔn)捕捉局部關(guān)鍵信息,黃金配比實(shí)現(xiàn)計(jì)算效率與語(yǔ)義精度的平衡。


MiniCPM-SALA 模型架構(gòu)

相關(guān)研究論文現(xiàn)已公開(kāi):

? 稀疏-線性混合注意力:

https://arxiv.org/pdf/2601.22156

? InfLLM v2:

https://arxiv.org/pdf/2509.24663

02


不止于「長(zhǎng)」,更在于「強(qiáng)」

MiniCPM-SALA 具備優(yōu)異的長(zhǎng)度泛化能力。在不使用任何額外技術(shù)(如YaRN)的前提下,MiniCPM-SALA 可以將上下文長(zhǎng)度拓展至2048K。



在云端推理芯片上評(píng)估從 64K 到 1024K 詞元的不同序列長(zhǎng)度下的效率,MiniCPM-SALA 在所有測(cè)試配置中均表現(xiàn)出顯著的效率優(yōu)勢(shì),在非量化設(shè)置下始終保持更低的延遲。在 256K 序列長(zhǎng)度下,MiniCPM-SALA 相比 Qwen3-8B 實(shí)現(xiàn)了約 3.5 倍的加速。



在更長(zhǎng)序列(512K 及 1M 長(zhǎng)文本)上,同尺寸開(kāi)源模型已經(jīng)遭遇顯存爆炸的情況下,MiniCPM-SALA 依舊能夠穩(wěn)定推理,讓 MiniCPM-SALA 在汽車(chē)、手機(jī)、具身機(jī)器人等更多端側(cè)領(lǐng)域應(yīng)用成為可能。

此外,在模型僅有 9B 參數(shù)的前提下,MiniCPM-SALA 在知識(shí)問(wèn)答、數(shù)學(xué)推理、代碼生成等核心能力維度上保持了與同規(guī)模全注意力模型相當(dāng)?shù)淖吭剿剑瑢?shí)現(xiàn)了“長(zhǎng)短兼?zhèn)洹钡木C合性能表現(xiàn)。


03


邀你挑戰(zhàn)推理極限

為進(jìn)一步探索 SALA 混合注意力架構(gòu)在實(shí)際部署中的性能極限,OpenBMB聯(lián)合 SGLang 、 NVIDIA 、面壁智能共同發(fā)起 2026 稀疏算子加速大獎(jiǎng)賽(SOAR)。大賽聚焦于稀疏化算子融合與編譯優(yōu)化等底層硬核課題,挑戰(zhàn)在消費(fèi)級(jí) GPU 上實(shí)現(xiàn)百萬(wàn)級(jí)詞元推理與 KV Cache 的極致效率,協(xié)同攻克長(zhǎng)文本處理的性能最優(yōu)解。誠(chéng)邀全球技術(shù)極客基于 SGLang 推理框架與 NVIDIA 硬件特性展開(kāi)極限攻關(guān),打破硬件物理瓶頸,共同定義下一代高效推理的性能新基線。

比賽官網(wǎng):https://soar.openbmb.cn/


04


技術(shù)報(bào)告

01 引言 (Introduction)

隨著大模型能力日益強(qiáng)大,其應(yīng)用場(chǎng)景正經(jīng)歷著深刻的范式轉(zhuǎn)變,從簡(jiǎn)單的問(wèn)答發(fā)展到愈發(fā)復(fù)雜的任務(wù)。在這些高級(jí)應(yīng)用場(chǎng)景中,模型不能再局限于處理碎片化信息。相反,模型必須具備處理超長(zhǎng)上下文的能力,例如一次性閱讀整本技術(shù)手冊(cè)、分析跨越數(shù)萬(wàn)行代碼的依賴(lài)關(guān)系,或在多日的人機(jī)協(xié)作中維持連貫的任務(wù)狀態(tài)和記憶。在這種背景下,百萬(wàn)級(jí)詞元的處理將會(huì)成為前沿大模型的關(guān)鍵能力。然而,作為當(dāng)前主流大模型基礎(chǔ)的Transformer架構(gòu)在處理超長(zhǎng)序列時(shí)面臨著嚴(yán)重的計(jì)算瓶頸。這一瓶頸主要體現(xiàn)在兩個(gè)維度:

? 計(jì)算復(fù)雜度的“計(jì)算墻”(Compute Bottleneck):在標(biāo)準(zhǔn)注意力機(jī)制中,計(jì)算復(fù)雜度隨序列長(zhǎng)度 N 呈二次方增長(zhǎng)。當(dāng)上下文擴(kuò)展到百萬(wàn)詞元時(shí),預(yù)填充(Pre-filling)階段的巨大開(kāi)銷(xiāo)會(huì)導(dǎo)致首個(gè)詞元生成時(shí)間(TTFT)急劇增加;

? KV-Cache 的“顯存墻”(Memory Bottleneck):在自回歸生成過(guò)程中,模型必須存儲(chǔ)所有歷史詞元的 Key 和 Value 狀態(tài)以避免重復(fù)計(jì)算。對(duì)于典型的 8B 參數(shù)模型,即使利用分組查詢(xún)注意力(GQA),百萬(wàn)級(jí)詞元所需的 KV-Cache 也可能達(dá)到數(shù)十甚至上百 GB。

為了解決上述挑戰(zhàn),現(xiàn)有的解決方案存在兩種主要范式:稀疏注意力(Sparse Attention)和線性注意力(Linear Attention)。這兩種方法各具獨(dú)特的優(yōu)勢(shì)和固有的局限性。稀疏注意力方法試圖通過(guò)僅計(jì)算注意力矩陣中最顯著的部分(例如通過(guò)滑動(dòng)窗口或全局錨點(diǎn))來(lái)打破計(jì)算墻。然而,這些方法具有“稀疏計(jì)算,稠密存儲(chǔ)”的特點(diǎn)。雖然局部計(jì)算減少了即時(shí)處理開(kāi)銷(xiāo),但模型仍需保留完整的 KV-Cache 以支持上下文信息的檢索。線性注意力利用循環(huán)計(jì)算成功地將計(jì)算復(fù)雜度降低到 O(N) 。然而,這種極致的效率從根本上是通過(guò)對(duì)上下文信息的有損壓縮實(shí)現(xiàn)的,容易導(dǎo)致性能受損。

MiniCPM-SALA 采用了一種稀疏與線性注意力的混合架構(gòu),專(zhuān)為實(shí)現(xiàn)高效的超長(zhǎng)序列建模而設(shè)計(jì)。該架構(gòu)結(jié)合了 InfLLM-V2 的高保真局部建模能力與 Lightning Attention 的全局計(jì)算效率。通過(guò)這種集成方法,模型顯著降低了推理開(kāi)銷(xiāo)和內(nèi)存消耗,同時(shí)解決了純線性架構(gòu)在長(zhǎng)距離信息處理中典型的精度瓶頸。

主要貢獻(xiàn)如下:

? 創(chuàng)新架構(gòu)設(shè)計(jì):提出了一種稀疏-線性混合注意力機(jī)制 SALA,將 25% 的 InfLLM-V2 和 75% 的 Lightning Attention 相結(jié)合,可在性能與效率之間取得良好的平衡。通過(guò)利用稀疏注意力對(duì)局部細(xì)節(jié)的細(xì)粒度關(guān)注,以及線性注意力在長(zhǎng)上下文時(shí) O(N) 的計(jì)算效率,該架構(gòu)在序列長(zhǎng)度增加時(shí)仍能保持較高的性能。

? 高效訓(xùn)練范式:MiniCPM-SALA 證明了 Transformer 到混合架構(gòu)的轉(zhuǎn)換范式是構(gòu)建混合模型的高效策略。這種方法通過(guò)對(duì)預(yù)訓(xùn)練權(quán)重進(jìn)行架構(gòu)轉(zhuǎn)換,規(guī)避了冷啟動(dòng)訓(xùn)練的低效性,總訓(xùn)練量?jī)H是從頭開(kāi)始訓(xùn)練同水平模型的 25%。

? 強(qiáng)大的綜合性能:采用 HyPE(混合位置編碼)來(lái)有效協(xié)調(diào)短上下文和長(zhǎng)上下文的性能。在保持通用能力(如知識(shí)、數(shù)學(xué)和編碼)與 Qwen3-8B 等現(xiàn)代全注意力模型相當(dāng)?shù)耐瑫r(shí),MiniCPM-SALA 在多個(gè)長(zhǎng)上下文基準(zhǔn)測(cè)試中表現(xiàn)出明顯優(yōu)勢(shì)。

? 優(yōu)越的推理效率:MiniCPM-SALA 在長(zhǎng)上下文場(chǎng)景中展示了顯著的資源和速度優(yōu)勢(shì)。在 NVIDIA A6000D GPU 上,當(dāng)序列長(zhǎng)度為 256K 詞元時(shí),MiniCPM-SALA 的推理速度高達(dá)Qwen3-8B 的 3.5 倍。此外,MiniCPM-SALA 支持在 NVIDIA A6000D 和 5090 GPU 上進(jìn)行高達(dá) 1 百萬(wàn)詞元上下文長(zhǎng)度的推理,而 Qwen3-8B 在此長(zhǎng)度下會(huì)面臨顯存不足(OOM)的問(wèn)題。這些結(jié)果展示了 MiniCPM-SALA 在端側(cè)長(zhǎng)文本應(yīng)用中的強(qiáng)大潛力。

02模型架構(gòu)

(1)總體架構(gòu)設(shè)計(jì)

MiniCPM-SALA 建立在交替式混合注意力架構(gòu)之上。如圖1所示,有別于傳統(tǒng) Transformer 采用同構(gòu)全注意力層堆疊的模式,該架構(gòu)通過(guò)層級(jí)異構(gòu)設(shè)計(jì)打破了單一機(jī)制在百萬(wàn)級(jí)長(zhǎng)序列建模中的性能瓶頸。模型采用了 25% 的稀疏注意力與 75% 的線性注意力進(jìn)行混合配比。為了顯著降低算力開(kāi)銷(xiāo),MiniCPM-SALA 利用 HALO 算法將預(yù)訓(xùn)練的全注意力 Transformer 轉(zhuǎn)換為混合架構(gòu)模型進(jìn)行持續(xù)訓(xùn)練,而非從頭構(gòu)建。


Figure1:MiniCPM-SALA 模型架構(gòu)

(2)稀疏注意力模塊

MiniCPM-SALA 采用了 InfLLM-V2 作為 25% 稀疏注意力模塊。InfLLM-V2 是一種可切換的稀疏注意力框架,其核心特點(diǎn)在于通過(guò)精細(xì)的塊選擇機(jī)制,讓每個(gè) Query 僅處理一小部分關(guān)鍵的 Key 和 Value,從而大幅提升長(zhǎng)文本處理效率。得益于 InfLLM-V2 可切換的特性,我們?cè)谀P偷拈L(zhǎng)文本訓(xùn)練過(guò)程中打開(kāi)稀疏模式,而在標(biāo)準(zhǔn)長(zhǎng)度的訓(xùn)練中(例如 4096 詞元)關(guān)閉稀疏模式。我們?cè)谛∫?guī)模實(shí)驗(yàn)上驗(yàn)證輸出門(mén)控機(jī)制對(duì)于提升模型的通用能力有幫助,因此我們也對(duì)稀疏注意力層加入了輸出門(mén)控機(jī)制。

(3)線性注意力模塊

在線性注意力組件選擇上,盡管當(dāng)前涌現(xiàn)出 RWKV-7、GDN 和 KDA 等多種先進(jìn)的線性 Token Mixing 模塊,但由于 Lightning Attention 在計(jì)算范式上與全注意力機(jī)制更為接近,能夠與 HALO 轉(zhuǎn)換算法實(shí)現(xiàn)更優(yōu)的適配度,因此我們最終選定其作為線性層的核心算子。同時(shí),我們使用了與 HypeNet 相同的架構(gòu)細(xì)節(jié),包括 QK-normalization、GQA-to-MHA transformation 和輸出門(mén)控機(jī)制,這些設(shè)置可以有效提升模型訓(xùn)練的穩(wěn)定性,并且可以取得更好的模型性能。

(4)混合位置編碼

我們沿用了 HypeNet 提出的 HyPE (Hybrid Position Encoding)策略。該策略針對(duì)混合架構(gòu)中不同注意力機(jī)制的特性進(jìn)行了差異化設(shè)計(jì):在線性注意力層,我們保留了 RoPE (Rotary Positional Embedding),旨在最大程度保持與轉(zhuǎn)換前全注意力模型在參數(shù)分布與特征空間上的一致性,從而降低轉(zhuǎn)換帶來(lái)的性能損失。

而在稀疏注意力層,我們則采用了 NoPE (No Position Encoding)策略。這一設(shè)計(jì)的核心優(yōu)勢(shì)在于,稀疏層的歷史 KV-Cache 不再耦合任何位置信息。這有效規(guī)避了 RoPE 在處理超長(zhǎng)序列時(shí)固有的長(zhǎng)距離衰減問(wèn)題,使得模型在檢索極遠(yuǎn)距離的歷史信息時(shí),不再受制于位置編碼帶來(lái)的數(shù)值抑制,從而顯著增強(qiáng)了模型的長(zhǎng)距離召回能力。

03模型訓(xùn)練

模型整體訓(xùn)練過(guò)程如下表所示:


? 架構(gòu)轉(zhuǎn)換 (HALO):這一階段旨在將 Transformer 模型從全注意力轉(zhuǎn)換為混合架構(gòu)。此階段主要沿用了 HALO 轉(zhuǎn)換方法。具體地,MiniCPM-SALA 的訓(xùn)練配置在兩個(gè)方面不同于標(biāo)準(zhǔn)的 HALO 方法。首先,關(guān)于層選擇,MiniCPM-SALA 保留第一層和最后一層不進(jìn)行轉(zhuǎn)換,以提高訓(xùn)練過(guò)程的穩(wěn)定性。對(duì)于其余層,使用 HALO 的層選擇算法來(lái)確定哪些層被保留為全注意力層。這些保留的全注意力層隨后在后續(xù)階段被訓(xùn)練為稀疏注意力。與標(biāo)準(zhǔn) HALO 的第二個(gè)區(qū)別是,我們不執(zhí)行 HALO 流程中的最終微調(diào)步驟。取而代之的是,我們進(jìn)行更廣泛的持續(xù)預(yù)訓(xùn)練和后訓(xùn)練,如后續(xù)步驟所述。此階段的訓(xùn)練過(guò)程非常高效,僅使用了 1.3B 詞元,序列長(zhǎng)度為 512 詞元。此外,在此階段僅轉(zhuǎn)換后的線性注意力層是可訓(xùn)練的,所有其他參數(shù)保持凍結(jié)。

? 持續(xù) Stable 訓(xùn)練:利用上一階段結(jié)束的模型作為本階段訓(xùn)練的起點(diǎn),在 MiniCPM-4.0 的預(yù)訓(xùn)練數(shù)據(jù)集上進(jìn)行進(jìn)一步訓(xùn)練。此階段的主要目標(biāo)是促進(jìn)轉(zhuǎn)換后的線性注意力層與模型的其他組件(包括全注意力層、FFN 層和嵌入層)更好地適配。此過(guò)程的序列長(zhǎng)度設(shè)置為 4K 詞元,總訓(xùn)練量為 314.6B 詞元。由于序列長(zhǎng)度仍然相對(duì)較短,為了保持計(jì)算效率,在此階段關(guān)閉了稀疏注意力層。本階段學(xué)習(xí)率設(shè)置為 7.5e-3。

? Short-Decay 訓(xùn)練:第三階段的學(xué)習(xí)率從 7.5e-3 以指數(shù)衰減的形式降低至 3.75e-4。此過(guò)程使用 4K 詞元的序列長(zhǎng)度,共訓(xùn)練 1T 詞元,也是 MiniCPM-SALA 整個(gè)開(kāi)發(fā)流程中訓(xùn)練量最大的環(huán)節(jié)。在數(shù)據(jù)方面,在 MiniCPM-4.0 Decay 訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,顯著增加了 L2 高質(zhì)量篩選數(shù)據(jù)的權(quán)重(數(shù)據(jù)分級(jí)標(biāo)準(zhǔn)參考 Data Science and Technology Towards AGI Part I: Tiered Data Management),并引入了大量的 PDF 語(yǔ)料庫(kù)和 L3 合成數(shù)據(jù)。這種方法旨在通過(guò)高信息密度的數(shù)據(jù)組合來(lái)增強(qiáng)通用能力和邏輯推理能力,從而實(shí)現(xiàn)對(duì)海量知識(shí)的高效壓縮和內(nèi)化。

? Long-Decay 訓(xùn)練:本階段將上下文窗口從 4K 逐步擴(kuò)展到 32K、160K,最后擴(kuò)展到 520K 詞元,每個(gè)階段分別使用 102.2B、 62.9B 和 50.6B 詞元的數(shù)據(jù)量。學(xué)習(xí)率在 32K 時(shí)從 3e-4 衰減至 2e-4,然后在 160K 時(shí)衰減至 1e-4,最后在 520K 時(shí)衰減至 3.75e-5。在此階段,我們對(duì)長(zhǎng)上下文數(shù)據(jù)的比例進(jìn)行上采樣,以使模型更好地與長(zhǎng)序列分布對(duì)齊。鑒于稀疏注意力在較長(zhǎng)序列中計(jì)算優(yōu)勢(shì)較為明顯,我們?cè)诖穗A段啟用稀疏注意力機(jī)制并保持全參數(shù)訓(xùn)練,從而允許模型有效地學(xué)習(xí)稀疏注意力和線性注意力之間的協(xié)同作用。

? SFT:此階段的 SFT 語(yǔ)料庫(kù)由高質(zhì)量的推理密集型數(shù)據(jù)組成,包括代碼、數(shù)學(xué)、知識(shí)、函數(shù)調(diào)用和一般對(duì)話(huà)。這種選擇旨在充分激發(fā)復(fù)雜邏輯下的推理和任務(wù)執(zhí)行能力。此外,我們專(zhuān)門(mén)合成了長(zhǎng)上下文數(shù)據(jù),以提高信息檢索和跨文檔理解的能力。在 SFT 階段,我們依次在 64K 和 140K 的上下文長(zhǎng)度下進(jìn)行訓(xùn)練,分別使用了 204.5B 和 213.3B 詞元的數(shù)據(jù)量。稀疏注意力在整個(gè)過(guò)程中保持啟用狀態(tài)。

04 模型能力測(cè)試

短榜能力測(cè)試:


長(zhǎng)榜能力測(cè)試:


超長(zhǎng)序列能力測(cè)試:


上述結(jié)果表明,MiniCPM-SALA 在不損害短榜能力的前提下,有效提升了長(zhǎng)文本能力。MiniCPM-SALA 還有一個(gè)顯著的亮點(diǎn)是,具備優(yōu)異的長(zhǎng)度泛化能力。在不使用任何額外技術(shù)(如YaRN)的前提下,MiniCPM-SALA 可以有效外推至 2048K長(zhǎng)度。

05 計(jì)算效率測(cè)試

我們?cè)u(píng)估了 MiniCPM-SALA 和 Qwen3-8B 在不同硬件和序列長(zhǎng)度下的推理速度。我們不僅在云端推理芯片(如 NVIDIA A6000D)上進(jìn)行了實(shí)驗(yàn),還在消費(fèi)級(jí)端側(cè) GPU(如 NVIDIA 5090)上進(jìn)行了測(cè)試。對(duì)于每種序列長(zhǎng)度,我們測(cè)量了首字延遲(Time To First Token, TTFT)和端到端延遲。前者作為預(yù)填充速度的指標(biāo),而后者反映了預(yù)填充和解碼階段的綜合性能。為了使評(píng)估與實(shí)際部署場(chǎng)景保持一致,我們?cè)u(píng)估了非量化模型以及經(jīng) GPTQ INT4 量化壓縮后的模型的推理延遲。

圖 2 展示了在 NVIDIA A6000D GPU(96GB 顯存)上 Qwen3-8B 與 MiniCPM-SALA 推理延遲的全面對(duì)比。我們?cè)u(píng)估了從 64K 到 1024K 詞元的不同序列長(zhǎng)度下的效率。如圖所示,MiniCPM-SALA 在所有測(cè)試配置中均表現(xiàn)出顯著的效率優(yōu)勢(shì)。在非量化設(shè)置下,MiniCPM-SALA 始終保持更低的延遲。值得注意的是,在 256K 序列長(zhǎng)度下,MiniCPM-SALA 將 TTFT 從 180.8 秒(Qwen3)降低至僅 51.6 秒,實(shí)現(xiàn)了約 3.5 倍的加速。

結(jié)果也顯示了 MiniCPM-SALA 在顯存利用率方面的優(yōu)勢(shì)。當(dāng) Qwen3-8B 在 512K 和 1024K 序列長(zhǎng)度下遭遇顯存溢出(OOM)時(shí),MiniCPM-SALA 成功處理了這些超長(zhǎng)上下文。

圖 3 展示了 MiniCPM-SALA 在顯存有限的硬件上的優(yōu)勢(shì)。在 RTX 5090(32GB 顯存)上,基線模型 Qwen3-8B 比在 A6000D 上明顯更早觸及“內(nèi)存墻”,在非量化設(shè)置下僅 128K 詞元、量化設(shè)置下 256K 詞元時(shí)即觸發(fā) OOM 錯(cuò)誤。相比之下,MiniCPM-SALA 成功擴(kuò)展至 1024K詞元的上下文長(zhǎng)度且未出現(xiàn)顯存溢出的問(wèn)題。這表明 MiniCPM-SALA 使得在消費(fèi)級(jí)端側(cè) GPU 上處理 1 百萬(wàn)詞元成為可能。



06 結(jié)論

整體而言,我們通過(guò)融合稀疏注意力與線性注意力,構(gòu)建了一種面向長(zhǎng)上下文高效建模的混合架構(gòu),從而在 模型能力與長(zhǎng)上下文處理效率之間實(shí)現(xiàn)了出色的平衡。在過(guò)去一段時(shí)間里,稀疏注意力與線性注意力的相關(guān)研究已分別展現(xiàn)出解決大模型長(zhǎng)上下文問(wèn)題的顯著潛力;而在2026年,稀疏?線性混合架構(gòu)無(wú)疑將成為該領(lǐng)域最具實(shí)效的技術(shù)方向之一。

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
毛主席去世后,123國(guó)發(fā)來(lái)唁電表哀悼,唯獨(dú)這個(gè)國(guó)家公開(kāi)發(fā)文“警告”中國(guó)

毛主席去世后,123國(guó)發(fā)來(lái)唁電表哀悼,唯獨(dú)這個(gè)國(guó)家公開(kāi)發(fā)文“警告”中國(guó)

老杉說(shuō)歷史
2026-03-21 19:25:09
熱搜第一!山姆回應(yīng)“冷鮮豬肉數(shù)月前屠宰”!網(wǎng)友:今年會(huì)費(fèi)剛續(xù)完…

熱搜第一!山姆回應(yīng)“冷鮮豬肉數(shù)月前屠宰”!網(wǎng)友:今年會(huì)費(fèi)剛續(xù)完…

北京商報(bào)
2026-03-21 12:06:17
女網(wǎng)紅爆料:交1萬(wàn)住少林3天,凌晨爭(zhēng)進(jìn)方丈房間,釋永信這次栽了

女網(wǎng)紅爆料:交1萬(wàn)住少林3天,凌晨爭(zhēng)進(jìn)方丈房間,釋永信這次栽了

未曾青梅
2026-03-21 23:04:09
“梅姨”案關(guān)鍵記錄者之一,河南廣電“都市大先生”團(tuán)隊(duì)核心記者魏華逝世!申聰父親悼念:他的報(bào)道讓更多人關(guān)注尋親群體,給我希望和力量

“梅姨”案關(guān)鍵記錄者之一,河南廣電“都市大先生”團(tuán)隊(duì)核心記者魏華逝世!申聰父親悼念:他的報(bào)道讓更多人關(guān)注尋親群體,給我希望和力量

大象新聞
2026-03-21 20:45:04
愛(ài)潑斯坦案又曝新瓜,太勁爆了…

愛(ài)潑斯坦案又曝新瓜,太勁爆了…

七叔東山再起
2026-03-21 21:06:32
伊方:擊中F-16戰(zhàn)機(jī),已摧毀200多架飛行器!伊朗投入全新進(jìn)攻戰(zhàn)術(shù)和更現(xiàn)代化系統(tǒng),發(fā)動(dòng)大規(guī)模打擊!伊朗先進(jìn)導(dǎo)彈有多難攔?專(zhuān)家解讀

伊方:擊中F-16戰(zhàn)機(jī),已摧毀200多架飛行器!伊朗投入全新進(jìn)攻戰(zhàn)術(shù)和更現(xiàn)代化系統(tǒng),發(fā)動(dòng)大規(guī)模打擊!伊朗先進(jìn)導(dǎo)彈有多難攔?專(zhuān)家解讀

每日經(jīng)濟(jì)新聞
2026-03-21 22:28:34
特朗普:當(dāng)美國(guó)想結(jié)束與伊朗沖突時(shí),以色列也會(huì)同步

特朗普:當(dāng)美國(guó)想結(jié)束與伊朗沖突時(shí),以色列也會(huì)同步

界面新聞
2026-03-21 07:18:17
董潔自曝體重從80斤漲到90斤:已經(jīng)不敢上稱(chēng),調(diào)養(yǎng)身體反而長(zhǎng)胖了;網(wǎng)友:太離譜,健康美才最重要

董潔自曝體重從80斤漲到90斤:已經(jīng)不敢上稱(chēng),調(diào)養(yǎng)身體反而長(zhǎng)胖了;網(wǎng)友:太離譜,健康美才最重要

臺(tái)州交通廣播
2026-03-21 23:07:07
馬繼華炮轟樊振東!指責(zé)他拖累隊(duì)友,質(zhì)問(wèn)歸隊(duì)與否給句痛快話(huà)

馬繼華炮轟樊振東!指責(zé)他拖累隊(duì)友,質(zhì)問(wèn)歸隊(duì)與否給句痛快話(huà)

小徐講八卦
2026-03-21 17:19:49
105-104!肯納德三分絕殺,詹姆斯創(chuàng)紀(jì)錄,湖人險(xiǎn)勝魔術(shù)迎9連勝

105-104!肯納德三分絕殺,詹姆斯創(chuàng)紀(jì)錄,湖人險(xiǎn)勝魔術(shù)迎9連勝

全景體育V
2026-03-22 09:44:02
伊朗又?jǐn)嗑W(wǎng)!或擬永久切斷互聯(lián)網(wǎng)!日均經(jīng)濟(jì)損失1850萬(wàn)美元

伊朗又?jǐn)嗑W(wǎng)!或擬永久切斷互聯(lián)網(wǎng)!日均經(jīng)濟(jì)損失1850萬(wàn)美元

深度報(bào)
2026-03-21 22:26:24
海底撈前員工發(fā)帖吐槽“點(diǎn)炮制度”,疑遭跨省約談幕后

海底撈前員工發(fā)帖吐槽“點(diǎn)炮制度”,疑遭跨省約談幕后

鳳凰網(wǎng)財(cái)經(jīng)
2026-03-22 00:00:10
成品油價(jià)即將迎來(lái)“五連漲”,下周一加滿(mǎn)一箱油可能將多花80元,周末記得加滿(mǎn)油

成品油價(jià)即將迎來(lái)“五連漲”,下周一加滿(mǎn)一箱油可能將多花80元,周末記得加滿(mǎn)油

揚(yáng)子晚報(bào)
2026-03-21 07:37:10
驚天大逆轉(zhuǎn)!哈登末節(jié)超神!米切爾27+7+3殺死比賽,錫安打爆騎士

驚天大逆轉(zhuǎn)!哈登末節(jié)超神!米切爾27+7+3殺死比賽,錫安打爆騎士

Tracy的籃球博物館
2026-03-22 09:37:29
等了13年,潘粵明終于可以接兒子回家過(guò)周末,董潔這次放手了

等了13年,潘粵明終于可以接兒子回家過(guò)周末,董潔這次放手了

未曾青梅
2026-03-21 23:05:47
官場(chǎng)奇案:汕頭大火燒死中紀(jì)委調(diào)查員,是天災(zāi)還是人禍?

官場(chǎng)奇案:汕頭大火燒死中紀(jì)委調(diào)查員,是天災(zāi)還是人禍?

午夜故事會(huì)
2024-03-28 11:35:01
徹底炸鍋!伊朗馬里萬(wàn)市民點(diǎn)火封路,硬剛革命衛(wèi)隊(duì)與巴斯基民兵

徹底炸鍋!伊朗馬里萬(wàn)市民點(diǎn)火封路,硬剛革命衛(wèi)隊(duì)與巴斯基民兵

老馬拉車(chē)莫少裝
2026-03-21 14:08:22
牛!烏克蘭英雄在地下掩體里堅(jiān)持作戰(zhàn)了471天

牛!烏克蘭英雄在地下掩體里堅(jiān)持作戰(zhàn)了471天

老馬拉車(chē)莫少裝
2026-03-21 00:10:44
60年前,金門(mén)戰(zhàn)役里被俘的3000名我軍將士,如今都怎么樣了

60年前,金門(mén)戰(zhàn)役里被俘的3000名我軍將士,如今都怎么樣了

老范談史
2026-03-17 09:58:57
“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

深藍(lán)夜讀
2025-09-24 16:00:09
2026-03-22 10:16:49
AI科技評(píng)論 incentive-icons
AI科技評(píng)論
點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
7136文章數(shù) 20742關(guān)注度
往期回顧 全部

科技要聞

庫(kù)克在華這四天,一場(chǎng)既定的市場(chǎng)秀

頭條要聞

男子在壺口瀑布外拍視頻喊"門(mén)口要錢(qián)"被投訴 景區(qū)回應(yīng)

頭條要聞

男子在壺口瀑布外拍視頻喊"門(mén)口要錢(qián)"被投訴 景區(qū)回應(yīng)

體育要聞

誰(shuí)在決定字母哥未來(lái)?

娛樂(lè)要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財(cái)經(jīng)要聞

睡夢(mèng)中欠債1.2萬(wàn)?這只“蝦”殺瘋了

汽車(chē)要聞

小鵬汽車(chē)2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

手機(jī)
親子
旅游
房產(chǎn)
公開(kāi)課

手機(jī)要聞

一加Ace 6至尊版已備案:天璣9500深度特調(diào) 性能火力全開(kāi)

親子要聞

“鋅”是聰明根!春天孩子多吃高鋅菜,腦子靈、記性好、個(gè)頭猛長(zhǎng)

旅游要聞

推出四條核心特色線路產(chǎn)品,嶗山風(fēng)景區(qū)2026旅行商大會(huì)舉辦

房產(chǎn)要聞

全城狂送1000杯咖啡!網(wǎng)易房產(chǎn)【早C計(jì)劃】,即刻啟動(dòng)!

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版