網易首頁 > 網易號 > 正文申請入駐

奧特曼宣判Transformer死刑，Mamba?3正在接管下一代AI架構

2026-03-18 14:09:40　來源: 人工智能學家

北京舉報

分享至

如果說過去七年是 Transformer 的黃金時代，那么 2026 年開始，空氣里已經隱隱飄著“范式更替”的味道。就在不久前，Sam Altman 在斯坦福的一場訪談里拋出重磅判斷（這次不吹牛了?！）：Transformer的壽命快到頭了，下一代架構已經在路上

奧特曼在最新訪談中直言，我們所追求的 AGI 可能只是一次“熱身”。真正的革命正在醞釀——下一代架構突破已經在路上。現有的高階大模型已經具備足夠的認知力，它們不只是工具，而是人類智力的杠桿，正在親手推開另一個技術范式的大門。

這場革命的核心，正是由 Albert Gu 和 Tri Dao 在 2023 年底提出的全新架構：Mamba。它徹底繞開了注意力機制，改用狀態空間模型（SSM）來處理序列。簡單來說，Transformer 讀一句話要讓每個詞和其他所有詞“對視”一遍，而 Mamba 只維護一個固定大小的記憶狀態，線性時間就能完成，推理吞吐量直接快上五倍。

到了 2026 年初，Mamba 已經進化到第三代——Mamba?3。

01為什么Mamba?3是當下最值得關注的架構突破？

Transformer 的成功毋庸置疑，它撐起了 GPT、Claude、Gemini 等一系列劃時代模型。但它也有一個無法回避的致命弱點——算力黑洞。序列長度翻十倍，計算量直接翻一百倍，KV Cache 隨著上下文線性膨脹，推理成本高到讓大模型部署變成“富人游戲”。當模型越來越大、上下文越來越長、推理越來越頻繁，Transformer 的結構性瓶頸已經成為整個行業的天花板。

于是，另一條路線悄然崛起：線性模型（SSM / State Space Models）。它們不依賴全局注意力，而是通過固定大小的狀態向量來處理序列，理論上能做到線性復雜度+常數內存。

從 S4 到Mamba?1，再到 2024 年的 Mamba?2，這條路線一路狂飆，甚至被 NVIDIA、微軟、AI21 等巨頭大規模采用。

但線性模型也有自己的短板，它們的表達能力不如 Transformer，尤其在狀態跟蹤、復雜動態建模上表現乏力，它們的離散化方法粗糙，理論基礎薄弱，它們的推理階段雖然復雜度低，但在 GPU 上卻是典型的 memory?bound，算力利用率極低。

就在這種“希望與瓶頸并存”的關鍵節點，Mamba?3出現了！

這不是一次常規的版本升級，而是一場徹底的架構重構。它的核心理念只有一句話：Inference?First（推理優先）。

不是為了訓練更快，而是為了推理更強，不是為了模型更大，而是為了模型更聰明，不是為了延續舊范式，而是為了打開新范式的大門。

Mamba?3 的三大創新——指數?梯形離散化、復數狀態空間模型、MIMO推理結構，分別對應線性模型的三大痛點：精度、能力、效率。

研究團隊由當今 SSM 領域最強的組合構成：

CMU（Carnegie Mellon University）：SSM 理論源頭，Albert Gu、Zico Kolter 坐鎮。

Princeton University：工程實現與大規模實驗。

Together AI（Tri Dao）：FlashAttention 發明者，GPU kernel 優化大師。

Cartesia AI：SSM 商業化落地團隊。

這支隊伍幾乎囊括了整個 SSM 體系的核心人物，是名副其實的“原班人馬 + 工程鐵軍”。

從 S4 到 Mamba?1，再到Mamba?2，SSM 的發展史本身就是一條不斷逼近Transformer 的曲線。而 Mamba?3 的出現，則讓這條曲線第一次出現了明顯的“超越拐點”。

02從Transformer到Mamba的技術演進

Transformer 的故事已經講了太久，但它的成功與局限，恰恰構成了 Mamba?3 崛起的背景。

Transformer 的最大優勢，是它的全局注意力機制。每個 token 都能與其他所有 token 交互，這讓模型具備了極強的表達能力，尤其在語言建模、推理、代碼生成等任務上表現驚艷。

但這種“全局對視”也帶來了巨大的代價，計算復雜度O(n2)，序列越長越難受；KV Cache線性增長，推理時內存壓力爆炸；長上下文成本高昂，讓大模型的推理變成奢侈品。

當上下文從 4K → 128K → 1M，Transformer 的結構性矛盾被無限放大。這不是工程優化能解決的問題，而是架構本身的限制。

于是，另一條路線開始被重新審視：狀態空間模型（SSM）。

圖1：左：指數梯形規則誘導的結構化掩模是衰減和雙頻卷積掩模的乘積。右圖：Euler（保持端點）與梯形（平均端點）積分近似。

SSM 的核心思想非常簡單，不讓所有 token 互相“對視”，而是維護一個固定大小的“狀態向量”，隨著序列推進不斷更新。這意味著計算復雜度線性、內存占用常數級、天然適合長序列。

從 S4 到 S5，SSM 在學術界逐漸成熟。從 Mamba?1 到 Mamba?2，它開始進入工業界，成為 Transformer 的重要替代方案。

Mamba?1 解決了訓練效率問題， Mamba?2 進一步優化了推理速度；但它們仍然存在三個關鍵缺陷：

離散化方法粗糙，表達能力有限。
無法處理復雜的狀態跟蹤任務。
推理階段算力利用率極低（memory?bound）。

這三點限制了線性模型的上限，也讓它們始終無法真正撼動 Transformer 的統治地位。

Mamba?3 的設計哲學正是在這種背景下誕生的。

它不是為了讓模型訓練更快，而是為了讓模型推理更強。不是為了讓模型更大，而是為了讓模型更聰明。

Inference?First（推理優先）是 Mamba?3 的靈魂。

它的目標非常明確，在保持線性復雜度的前提下，同時提升模型的表達能力、狀態跟蹤能力與推理硬件效率。

這也是為什么 Mamba?3 被視為“后Transformer 時代”的重要候選架構。

03核心創新一：指數?梯形離散化（Exponential?Trapezoidal）

如果把 Mamba?1/2 比作一臺“能跑但不夠精密”的線性引擎，那么 Mamba?3 做的第一件事，就是把這臺引擎的燃油系統徹底換掉。過去的 Mamba?1/2 使用的是最簡單的 Euler 離散化，這種方法的優點是快，但缺點也非常明顯，它只有一階精度，誤差會隨著序列長度不斷累積，像滾雪球一樣越滾越大。

在長序列任務里，這種誤差累積會直接限制模型對局部結構的表達能力。你可以把它想象成模型每走一步都會“踩偏一點點”，走得越遠，偏差越大。

Mamba?2 的狀態更新公式非常簡單，核心形式是：

其中

這看起來還不錯，但本質上仍然是一階近似。

Mamba?3 的作者顯然對這種“粗糙的近似”不滿意，于是他們回到連續時間的狀態空間模型，從數學原理重新推導離散化方法。連續 SSM 的基本形式是：

關鍵突破點在于Mamba?3 不再只看區間右端點，而是同時看左右兩個端點的加權平均，這就是所謂的“指數?梯形離散化”。它的本質，是把輸入項的積分從一階精度提升到二階精度。

最終得到的離散化形式是：

這是一個核心數學公式，也是 Mamba?3 的關鍵升級點。

它的意義非常深遠，模型不再只看當前 token，而是同時看當前和上一個 token 的組合。Mamba?3 的狀態更新天然帶有一個“隱式寬度 2 的卷積”，讓它在捕捉局部結構時更加精確、更加穩定。

這項升級帶來的效果是立竿見影的。 Mamba?3 不再需要額外的短卷積層，語言建模質量顯著提升，長序列任務中的誤差累積也大幅減少。對于一個線性模型來說，這幾乎是一次“底層數學級別”的能力增強。

04核心創新二：復數狀態空間模型（Complex SSM）

如果說指數?梯形離散化是“精度升級”，那么復數 SSM 則是“能力升級”。

線性模型一直有一個致命弱點，它們的狀態轉移矩陣通常是實數、非負、對角的。這意味著它們只能表達“衰減”或“累積”，卻無法表達“旋轉”或“周期性”。

而很多狀態跟蹤任務——比如 parity（奇偶性）、括號匹配、計數器——本質上都需要一種“旋轉式”的狀態更新。

但 Mamba?2 的實數對角矩陣根本做不到這一點，于是它在這些任務上表現得幾乎和隨機猜測一樣。

Mamba?3 的作者做了一件非常聰明的事，他們引入了復數狀態空間模型。復數 SSM 的連續形式允許狀態在復平面上旋轉，而不是只能衰減或累積。離散化后，它等價于一個由 2×2 旋轉矩陣組成的塊對角矩陣。

更妙的是，研究團隊證明復數 SSM 等價于對 B、C 做數據依賴的 RoPE（旋轉位置編碼）。

也就是說，Mamba?3 不需要真正使用復數，只需要用 RoPE trick 就能實現復數動態。

這項創新帶來的能力提升是質變級別的。

Mamba?3 在所有狀態跟蹤任務上幾乎滿分，而 Mamba?2 則完全失敗。這意味著線性模型第一次在“能力維度”上實現了真正的突破。

05核心創新三：MIMO SSM（Multi?Input Multi?Output）

如果說前兩個創新解決的是“模型能力”，那么 MIMO 則是解決“硬件效率”的終極武器。

線性模型的推理雖然是 O(n)，但在 GPU 上卻是典型的memory?bound，算力閑著，顯存帶寬卻被打滿。

研究給出的數字非常直觀，SSM 推理算強度：2.5 ops/byte，H100 的理論算強度：295 ops/byte。

這意味著 GPU 的絕大部分算力都被浪費了。

MIMO的設計思想

Mamba?3 的作者提出了一個非常工程化的解決方案，把 SISO（單輸入單輸出）擴展為 MIMO（多輸入多輸出）。

原本的狀態更新是一個外積：Btxt?，而MIMO 把它變成了一個矩陣乘法：BtXt?。

這件事帶來了兩個巨大好處，算強度提升 4×，GPU 的 Tensor Core 能真正被吃滿。

更關鍵的是延遲幾乎不變。

因為推理仍然是 memory?bound，算力變多不會拖慢速度。

帶來的能力提升

MIMO 的效果非常顯著，推理效率顯著提升，模型質量進一步提升（尤其是 MIMO 版本的 Mamba?3），更適合 agentic workflows、并行推理、長上下文任務。

這讓 Mamba?3 不僅是一個“更強的模型”，更是一個“更適合部署的模型”。

06Mamba?3的整體架構設計

如果說 Mamba?3 的三大數學創新是“發動機重做”，那么它的整體架構，就是把這臺新引擎裝進一輛真正能跑的車里。研究在工程層面做了大量細致的打磨，讓 Mamba?3 不只是一個理論上更強的模型，而是一個可以大規模訓練、部署、落地的工業級架構。

Llama風格的Block結構更現代、更穩定、更易擴展

Mamba?3 的整體結構，直接采用了 Llama 系列的經典布局，Mamba?3 Block與SwiGLU前饋層交替堆疊，采用Pre?Norm結構。

這意味著它不再像 Mamba?1/2 那樣需要額外的短卷積層來彌補表達能力。因為指數?梯形離散化本身就已經在狀態更新中引入了“隱式卷積”，短卷積層自然就可以被移除。

這讓 Mamba?3 的 Block 更加簡潔，也更接近 Transformer 的工業標準結構，方便與現有訓練框架兼容。

BCNorm：線性模型的QKNorm時刻

Transformer 世界里有一個非常重要的技巧：QKNorm。它能穩定注意力分布，提升大模型訓練的穩定性。

Mamba?3 借鑒了這一點，在 B、C 投影后加入了 RMSNorm，稱為BCNorm。

它的作用非常直接，穩定訓練、減少梯度爆炸、提升大模型性能、讓 Mamba?3 不再需要 Mamba?2 中的“post?gate RMSNorm”補丁。

在純 Mamba?3 模型中，BCNorm 足以保證穩定性；在混合模型（SSM + Attention）中，BCNorm 甚至是長上下文能力的關鍵。

B/C Bias讓線性模型更像卷積神經網絡

研究團隊還有一個非常有意思的設計，在 B、C 投影后加入可學習的通道偏置（bias）。

這看似微不足道，但在 SSM 里卻非常關鍵。

因為 B、C 是狀態輸入與輸出的核心參數，加入 bias 相當于讓模型具備了“數據無關的卷積能力”。這讓 Mamba?3 在表達局部模式時更加靈活，也讓它在沒有短卷積層的情況下依然能捕捉局部結構。

這是一個典型的“工程小改動 → 能力大提升”的例子。

SISO與MIMO：公平對比vs性能巔峰

Mamba?3 提供兩種模式。

SISO（Single?Input Single?Output），這是為了與 Mamba?2、GDN、Transformer 做公平對比。它的結構與 Mamba?2 類似，但使用了新的離散化與復數 SSM。

MIMO（Multi?Input Multi?Output），這是 Mamba?3 的“完全體”。它把外積變成矩陣乘法，讓 GPU 的 Tensor Core 真正吃滿。

研究實驗顯示SISO：已經比 Mamba?2 強，MIMO：直接拉開一個檔次。

如果說 SISO 是“學術版”，MIMO 就是“工業版”。

07實驗結果：Mamba?3的性能躍遷

Mamba?3 的實驗結果可以用一句話概括，在保持線性復雜度的前提下，全面超越所有線性模型，并在多個維度逼近甚至超越Transformer。

表1：使用100B FineWeb Edu令牌訓練的模型的下游語言建模評估。最佳結果以粗體顯示，次佳結果以下劃線顯示，不包括Mamba-3 MIMO變體。所有模型都按照相同的程序進行訓練。Mamba-3 SISO在每個模型尺度上都優于Mamba-2和其他模型，秩R=4的MIMO進一步提高了建模能力。

語言建模（1.5B 參數）：MIMO版本直接起飛

研究給出的結果非常直觀，Mamba?3 SISO：+0.6分（相對 GDN），Mamba?3 MIMO：+1.8分（相對 GDN）。

這意味著SISO 已經比 Mamba?2、GDN更強，MIMO 直接把性能拉到 Transformer 同級甚至更高。

在 1.5B 這種“小模型”規模下能做到這一點，非常不容易。

圖2：探索不同Mamba變體的狀態大小（推理速度代理）與訓練前困惑度（性能代理）。與之前的循環單輸入單輸出模型相比，Mamba-3改進了帕累托前沿，同時引入MIMO通過更好的建模性能進一步改變了前沿，而不會增加狀態大小。

狀態跟蹤任務：復數 SSM 的碾壓式勝利

研究團隊展示了一個非常關鍵的實驗，parity、括號匹配、計數器等任務。

結果幾乎是“降維打擊”，Mamba?3（復數SSM）幾乎滿分，Mamba?3（無復數）≈隨機，Mamba?2 ≈隨機。

這說明復數 SSM 的引入不是“錦上添花”，而是“能力質變”。

表2：模型、精度和數據狀態值之間的內核延遲（以毫秒為單位）比較。與Mamba-2相比，Mamba-3引入了最小的開銷，并具有高效的實際實現。在常用的bf16，dstate=128設置下，我們的Mamba-3 SISO內核比參考Mamba-2和GDN內核快。與SISO相比，Mamba-3 MIMO（R=4）幾乎不產生額外成本。

推理效率：FLOPs ×4，延遲不變

MIMO 的效果非常驚人！推理 FLOPs 提升4倍，延遲幾乎與 Mamba?2 相同，perplexity 更低。

這意味著Mamba?3是目前最能吃滿GPU的線性模型。

檢索任務（NIAH）：線性模型的天然弱點被部分彌補

在固定狀態大小的情況下，線性模型在檢索任務上仍然弱于 Transformer。但 Mamba?3 在 OOD（長距離 needle）上表現更好，說明它的狀態更新更穩定。

研究還指出混合模型（Mamba?3 + Attention）效果最佳。

這也暗示了未來架構的方向。

08Mamba?3的技術價值與產業意義

Mamba?3 的意義遠不止“性能更強”，它在多個維度都指向了下一代架構的趨勢。

Mamba?3 讓線性模型第一次在表達能力上實現大幅提升，復數 SSM 打開了新的能力空間，二階離散化讓狀態更新更精確，隱式卷積讓模型更像Transformer。

這讓 SSM 不再只是“高效但弱”，而是“高效且強”。

MIMO 的出現，讓線性模型第一次真正吃滿 GPU，推理成本下降，并行推理更高效，更適合 agentic AI、長上下文、工具鏈調用。

這對未來的 AI 應用至關重要。

Mamba?3 指向了一個非常明確的趨勢。動態狀態、線性復雜度、高算強度推理、混合架構（SSM + Attention）。

這可能就是下一代 AGI 模型的基礎。

Mamba?3 的出現意味著推理成本下降 → AI 應用規模擴大、狀態跟蹤增強 → 更智能的 agent、硬件效率提升 → 更快商業落地。

它不僅是一個學術成果，更是一個產業信號。

Mamba?3 不是終點，而是 SSM 路線的重大進化。它展示了“后Transformer”架構的雛形，也讓我們第一次看到線性模型真正具備挑戰 Transformer 的可能性。

未來的模型可能是SSM + Attention +可微分程序+外部記憶。

而 Mamba?3，就是邁向這一未來的關鍵一步。

如果說 Transformer 開啟了大模型時代，那么 Mamba?3 可能正在開啟“后 Transformer 時代”的序幕。（END）

參考資料： https://openreview.net/forum?id=HwCvaJOiCj&utm_source

關于波動智能——

波動智能旨在建立一個基于人類意圖與反應的真實需求洞察及滿足的價值體系，融合人工智能與意識科學，構建覆蓋情緒識別、建模與推薦的智能引擎，自主研發面向社交、電商等場景的多模態意圖識別引擎、意圖標簽系統及意圖智能推薦算法，形成從情緒采集、意圖建模到商業轉化的完整解決方案。波動智能提出“意圖是連接人、物與內容的新型接口”，其產品廣泛應用于AI社交、個性化內容推薦、虛擬陪伴、電商體驗優化等領域。波動智能正在探索“EMO-as-a-Service”技術服務架構，賦能企業實現更高效的用戶洞察與精準情緒交互，推動從功能驅動到意圖驅動的產業范式升級。

親愛的人工智能研究者，為了確保您不會錯過*波動智能*的最新推送，請星標*波動智能*。我們傾心打造并精選每篇內容，只為為您帶來啟發和深思，希望能成為您理性思考路上的伙伴！

加入AI交流群請掃碼加微信

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.