網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

大模型又出新架構(gòu)，面壁這次把Transformer上下文能力拉滿了

2026-02-14 09:39:30　來(lái)源: 卡爾的AI沃茨

北京舉報(bào)

分享至

我有點(diǎn)好奇一個(gè)問題，

讓現(xiàn)階段一個(gè)百萬(wàn)上下文的大模型讀一本百萬(wàn)字的小說(shuō)，需要推理嗎？

可能大部分時(shí)候不需要，它需要的只是記住，記住第一章的主角在最后一章說(shuō)了什么。

現(xiàn)在傳統(tǒng)的Transformer架構(gòu)只有一種處理方式，全靠硬算。它像一個(gè)過于認(rèn)真的前排學(xué)霸，為了記住最后一章的內(nèi)容，把前面九十九萬(wàn)字的內(nèi)容跟每一個(gè)新生成的字都做一次對(duì)比計(jì)算。

這樣會(huì)占大量的顯存，計(jì)算量也會(huì)平方級(jí)增長(zhǎng)。

這一周新的大模型也是不停刷新，MiniMax M2.5，GLM5，Gemini 3.1 Pro Preview，DeepSeek新版本（疑似V4），我都希望他們可以接入我的OpenClaw里面，做一個(gè)長(zhǎng)對(duì)話長(zhǎng)記憶的模型。

昨天，面壁還發(fā)了一篇新論文，提出了一個(gè)叫SALA（Sparse Attention-Linear Attention）的混合注意力架構(gòu)。它給出了一個(gè)新觀點(diǎn)，

該快的地方就得快，該準(zhǔn)的地方必須準(zhǔn)。

https://github.com/OpenBMB/MiniCPM/blob/main/docs/MiniCPM_SALA.pdf

在他們的SALA架構(gòu)里，

一部分模塊專門負(fù)責(zé)快，

另一部分模塊專門負(fù)責(zé)準(zhǔn)。

結(jié)果就是，基于SALA架構(gòu)的模型，在端側(cè)顯卡上，第一次把百萬(wàn)的長(zhǎng)文本推理，穩(wěn)穩(wěn)跑通了。

我們來(lái)看一個(gè)具體的例子，

模型在處理百萬(wàn)字小說(shuō)時(shí)，內(nèi)部發(fā)生了什么。

每生成一個(gè)新詞，模型都要把它和前面所有詞語(yǔ)的鍵值對(duì)，也就是KV Cache，全部計(jì)算一遍。計(jì)算復(fù)雜度是隨著文本長(zhǎng)度平方級(jí)增長(zhǎng)的，

同時(shí)，這個(gè)KV Cache會(huì)像滾雪球一樣，迅速吃掉你所有的顯存。把上下文從一萬(wàn)字拉到一百萬(wàn)字，計(jì)算量不是漲一百倍，是飆升一萬(wàn)倍。

這就是為什么傳統(tǒng)架構(gòu)在長(zhǎng)上下文任務(wù)面前，會(huì)同時(shí)撞上計(jì)算墻和顯存墻。

這幾十萬(wàn)字的上下文，大部分可能只是背景描述，真正關(guān)鍵的信息也許就那么幾句。

但模型為了找到這幾句關(guān)鍵信息，付出的代價(jià)是把所有內(nèi)容都用最高精度過了一遍。

來(lái)看看SALA的幾個(gè)關(guān)鍵的設(shè)計(jì)，

首先是兩種模塊的分工。

線性注意力，我們這里可以理解為負(fù)責(zé)準(zhǔn)的模塊，面壁選用的是Lightning Attention，挑出那些最關(guān)鍵的局部信息進(jìn)行精細(xì)計(jì)算。稀疏注意力，則是負(fù)責(zé)快的模塊，面壁選用的是InfLLM v2，會(huì)高效計(jì)算所有信息。

SALA就是把這兩者結(jié)合了起來(lái)。整個(gè)模型里，75%的層是負(fù)責(zé)準(zhǔn)的線性注意力，剩下的25%，是負(fù)責(zé)快的稀疏注意力。這個(gè)比例經(jīng)過大量實(shí)驗(yàn)找出的效率與精度之間的平衡點(diǎn)。

在不使用任何額外技術(shù)（如YaRN）的前提下，MiniCPM-SALA 可以將上下文長(zhǎng)度拓展至2048K。

怎么保證它們能好好合作，不是互相干擾呢？

SALA用了一個(gè)叫HyPE的混合位置編碼策略。在線性層，它保留了RoPE，保證短文本能力不受影響。在稀疏層，它去掉了位置編碼，避免了信息在長(zhǎng)距離傳遞時(shí)的衰減問題。

模型在檢索幾萬(wàn)甚至幾十萬(wàn)token之前的內(nèi)容時(shí)，依然能保持高精度。

最后是模型怎么來(lái)的。

這里有一個(gè)核心問題，要訓(xùn)練一個(gè)全新的混合架構(gòu)模型，成本超級(jí)高。

面壁沒有從零開始，反而是提出了一個(gè)叫HALO的訓(xùn)練范式。簡(jiǎn)單來(lái)說(shuō)，就是拿一個(gè)已經(jīng)訓(xùn)練好的全注意力模型，比如MiniCPM-4.0，通過架構(gòu)轉(zhuǎn)換，把它的一部分層變成線性注意力，另一部分變成稀疏注意力，然后進(jìn)行持續(xù)訓(xùn)練。

這種方式，就像是給一輛性能不錯(cuò)的汽車做改裝升級(jí)，而不是重新設(shè)計(jì)一輛新車。它繼承了原模型已經(jīng)學(xué)到的所有知識(shí)和能力，只是讓它學(xué)會(huì)了用一種更高效的方式去工作。相比從頭訓(xùn)練，這個(gè)方法的成本直接降低了大約75%。

這個(gè)訓(xùn)練過程也很有講究，分為架構(gòu)轉(zhuǎn)換，穩(wěn)定訓(xùn)練，短衰減，長(zhǎng)衰減和微調(diào)五個(gè)階段。特別是在長(zhǎng)衰減階段，模型逐步把上下文長(zhǎng)度從4K擴(kuò)展到520K，讓模型充分學(xué)習(xí)兩種注意力機(jī)制協(xié)同。

我們來(lái)看效果數(shù)據(jù)。

這次面壁并沒有用一堆榜單來(lái)證明自己，是出了真實(shí)場(chǎng)景下的性能數(shù)據(jù)，對(duì)比的是同等規(guī)模的全注意力模型Qwen3-8B，我挑幾個(gè)關(guān)鍵數(shù)據(jù)，

在推理速度上，當(dāng)上下文長(zhǎng)度達(dá)到256K時(shí)，MiniCPM-SALA的速度是Qwen3-8B的3.5倍。

這個(gè)提升完全來(lái)自架構(gòu)本身的優(yōu)勢(shì)。

在顯存占用上，在RTX 5090這樣的消費(fèi)級(jí)顯卡上，Qwen3-8B在上下文長(zhǎng)度達(dá)到128K時(shí)，就會(huì)因?yàn)轱@存不足而崩潰。而MiniCPM-SALA可以穩(wěn)穩(wěn)地跑到1M，也就是一百萬(wàn)token的長(zhǎng)度。

但我是個(gè)挑剔的人，

用了會(huì)丟信息的注意力，模型是不是沒腦子了？

這也是這篇工作最有價(jià)值的部分。實(shí)驗(yàn)數(shù)據(jù)顯示，MiniCPM-SALA在數(shù)學(xué)，代碼，知識(shí)問答這些常規(guī)能力上，和同規(guī)模的全注意力模型基本持平，沒有出現(xiàn)明顯的性能折損。

傳統(tǒng)的全注意力模型，在處理長(zhǎng)文本時(shí)，它的注意力容量被大量消耗在維持局部依賴上，比如識(shí)別一個(gè)多詞組成的人名。而SALA架構(gòu)，把這些任務(wù)交給了更高效的模塊，從而釋放了稀疏注意力層的容量，讓它們可以更專注于建立全局的，跨越超長(zhǎng)距離的上下文聯(lián)系。

為了推動(dòng)這個(gè)架構(gòu)落地，面壁聯(lián)合了SGLang和NVIDIA，發(fā)起了一個(gè)稀疏算子加速大獎(jiǎng)賽SOAR。

SALA雖然在架構(gòu)上做好了，

但底層的計(jì)算算子，相比已經(jīng)被優(yōu)化到極致的FlashAttention，還有很大提升空間。

這個(gè)比賽就是邀請(qǐng)全球的開發(fā)者，一起來(lái)把SALA這臺(tái)新引擎的性能，壓榨到極限。

平時(shí)測(cè)評(píng)模型測(cè)多了，

都是Coding，Coding，Coding，

我很高興看到還不斷能有新的架構(gòu)，

新的算法出現(xiàn)，

就算是DeepSeek這一年，

更新模型的同時(shí)也沒停過公開自己的算法，

面壁過去這一年也是不停發(fā)端側(cè)模型的工作，

我覺得就這速度都不需要五年十年，

可能過個(gè)兩三年，

在小天才手表上也能跑個(gè)大大大模型。

@ 作者 / 卡爾

最后，感謝你看到這里如果喜歡這篇文章，不妨順手給我們點(diǎn)贊｜在看｜轉(zhuǎn)發(fā)｜評(píng)論

如果想要第一時(shí)間收到推送，不妨給我個(gè)星標(biāo)

如果你有更有趣的玩法，歡迎在評(píng)論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.