網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

擴(kuò)散模型成最快深度思考！告別自回歸每秒1009個tokens

2026-02-26 10:01:39　來源: 量子位

北京舉報

分享至

首個會深度思考的擴(kuò)散模型來了！

拋棄自回歸范式，一舉成為世界上生成速度最快的模型。

你瞅瞅，對比之下傳統(tǒng)自回歸的“打字機模式”（按順序一個個token往外吐）是不是就有點像烏龜了：

實際測評顯示，這款名為Mercury 2的擴(kuò)散推理LLM在英偉達(dá)GPU上可實現(xiàn)1009個tokens/s。

這個速度整整比GPT-5（mini）和Claude-4.5（haiku）這些傳統(tǒng)模型快了5倍。

消息一出，英偉達(dá)第一時間跑來祝賀了（當(dāng)然也可能是因為它投了Mercury 2背后的公司）：

一眾網(wǎng)友也紛紛坐不住，畢竟最近很火的“龍蝦們”也少不了對速度的極限追求：

還有人已經(jīng)開始懷念自回歸曾經(jīng)的風(fēng)光了（doge）。

so，Mercury 2是誰？它又是如何突破速度瓶頸的呢？

不止是快，還穩(wěn)

原理其實很簡單。

前面已經(jīng)說了，傳統(tǒng)自回歸就像打字機一樣，一次只能處理一個token，且必須按照從左到右的順序。

但擴(kuò)散模型Mercury 2的工作方式更像一位編輯——

你不是在看它打字，而是看它拿到一份草稿后，立刻拿著紅筆在整頁紙上同時圈改。

換言之，一次生成答案草稿再整體編輯。

這種“并行優(yōu)化”機制，使得Mercury 2不需要等待前一個字的結(jié)果就能生成下一個字，因此響應(yīng)速度極快，延遲不再與輸出長度成正比。

最終，Mercury 2能將生成速度提升5倍以上，且速度曲線截然不同。

瞅瞅，在第三方測評中，其輸出速度可謂一騎絕塵。

和市面主流的頂尖模型比，速度也是獨一檔的存在。

而且不止是快，它在性能、價格方面都具有一定優(yōu)勢。

延遲低至1.7s的情況下，在GPQA（科學(xué)問答）、LCB（編程）、AIME（數(shù)學(xué)）等多個基準(zhǔn)測試中，Mercury 2的得分普遍高于或持平于那些速度較慢的“小型/輕量級”模型（如GPT-5 Nano, Claude 4.5 Haiku）。

甚至在AIME上的得分超過了公認(rèn)的“性能怪獸”Gemini 3 Flash（推理版）。

這說明Mercury 2在保持極高速度的同時，并不以犧牲智商為代價。

它目前支持128K上下文，輸入價格為每百萬token 0.25美元（約合人民幣1.7元），輸出價格為每百萬token 0.75美元（約合人民幣5.2元）。

綜合速度與價格，Mercury 2也保持了較高性價比。

官方表示，Mercury 2的這種速度優(yōu)勢改變了推理。

如今，更高的智能意味著更多的test-time計算——更長的鏈、更多的樣本、更多的重試，而這直接以延遲和成本為代價。基于擴(kuò)散的推理能夠在實時延遲預(yù)算內(nèi)實現(xiàn)推理級別的質(zhì)量。

背后公司一開始就押注擴(kuò)散模型

最后介紹一下Mercury 2背后的公司及團(tuán)隊。

它是由Inception Labs這家成立于2024年的硅谷初創(chuàng)公司推出的。

從一開始這家公司就力押擴(kuò)散模型，其核心使命為——

用全新的、基于擴(kuò)散/diffusion的生成機制替代傳統(tǒng)的自回歸Transformer模型，從根本上突破速度與成本瓶頸。

他們認(rèn)為，傳統(tǒng)自回歸模型的缺陷不言自明——延遲和成本會隨著token數(shù)量的增加而增加。

而擴(kuò)散模型采用由粗到精的生成過程。它并非逐個提交數(shù)據(jù)，而是通過少量步驟并行迭代地細(xì)化輸出。這使得在生成過程中可以進(jìn)行修改，并帶來截然不同的速度-成本曲線。一言以蔽之：

人工智能不應(yīng)該像單向打字機那樣運作，而應(yīng)該更像一個編輯。

基于此，他們開始在Mercury系列中踐行這一理念。

2025年2月，發(fā)布全球首個基于擴(kuò)散模型的商業(yè)級語言模型——初代Mercury，一開始就把生成速度拉到傳統(tǒng)的5倍以上，而且同一時間還推出編程助手Mercury Coder。

一年之后，升級版Mercury 2問世，在推理和多智能體日益進(jìn)入主流視線的今天，帶來了更多可能。

事實上，早在2019年，這家公司的聯(lián)創(chuàng)兼CEO Stefano Ermon就開始投身擴(kuò)散模型的研究了。

時任斯坦福大學(xué)計算機科學(xué)教授的Stefano Ermon，很早就思忖著將擴(kuò)散模型應(yīng)用于內(nèi)容生成。

當(dāng)時主流的圖像生成模型還在使用GAN（生成對抗網(wǎng)絡(luò)），但他和團(tuán)隊認(rèn)為結(jié)果“不夠好”，于是開始嘗試應(yīng)用Diffusion。

而在看到Diffusion的效果不錯后（后來Midjourney、DALL-E等都是用這種方法），他們開始將研究目光轉(zhuǎn)向文本和代碼生成。

圖像由連續(xù)的像素構(gòu)成，而文本由離散的token構(gòu)成。之前成功的擴(kuò)散模型理論（如去噪得分匹配）是建立在連續(xù)空間上的，無法直接遷移到文本。

于是在2023年，他和團(tuán)隊發(fā)表了一篇關(guān)鍵性論文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》，里面介紹了一種名為Score Entropy Discrete Diffusion models（SEDD）的模型。

該模型創(chuàng)新性提出了“分?jǐn)?shù)熵”（score entropy）這一全新?lián)p失函數(shù)，它巧妙地將連續(xù)空間的分?jǐn)?shù)匹配理論擴(kuò)展到了離散數(shù)據(jù)領(lǐng)域。

這使得擴(kuò)散模型能夠像理解圖像一樣，去理解和生成語言。

論文結(jié)果表明，SEDD的表現(xiàn)明顯優(yōu)于當(dāng)時已有的語言模型，困惑度比未退火（未使用“動態(tài)調(diào)整溫度”這個優(yōu)化技巧）的GPT-2好6-8倍。

（注：后來這篇論文還獲得了ICML 2024最佳論文獎）

見此，Stefano Ermon決定通過創(chuàng)業(yè)將技術(shù)價值放大。

于是在2024年夏天，他邀請美國加利福尼亞大學(xué)洛杉磯分校教授Aditya Grover（左）和美國康奈爾大學(xué)教授Volodymyr Kuleshov（右）加入Inception Labs。

去年11月，這家公司還宣布獲得了5000萬美元融資，而且投資陣容相當(dāng)豪華。

除了NVentures（英偉達(dá)風(fēng)投部門）、M12（微軟旗下風(fēng)險基金）、Menlo Ventures （領(lǐng)投方、知名長期風(fēng)投機構(gòu)）等明星機構(gòu)，還不乏吳恩達(dá)、卡帕西這些AI大佬。

可以說，堅持走擴(kuò)散模型路子的Inception Labs始終穩(wěn)扎穩(wěn)打并獲得市場支持。

最后順便一提，Mercury 2目前暫無開源計劃，不過其API全面兼容OpenAI標(biāo)準(zhǔn)。

感興趣的朋友也可親自上手一試了。

體驗地址：
https://chat.inceptionlabs.ai/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.