首個會深度思考的擴(kuò)散模型來了!
拋棄自回歸范式,一舉成為世界上生成速度最快的模型。
你瞅瞅,對比之下傳統(tǒng)自回歸的“打字機模式”(按順序一個個token往外吐)是不是就有點像烏龜了:
![]()
實際測評顯示,這款名為Mercury 2的擴(kuò)散推理LLM在英偉達(dá)GPU上可實現(xiàn)1009個tokens/s。
這個速度整整比GPT-5(mini)和Claude-4.5(haiku)這些傳統(tǒng)模型快了5倍。
![]()
消息一出,英偉達(dá)第一時間跑來祝賀了(當(dāng)然也可能是因為它投了Mercury 2背后的公司):
![]()
一眾網(wǎng)友也紛紛坐不住,畢竟最近很火的“龍蝦們”也少不了對速度的極限追求:
![]()
還有人已經(jīng)開始懷念自回歸曾經(jīng)的風(fēng)光了(doge)。
![]()
so,Mercury 2是誰?它又是如何突破速度瓶頸的呢?
不止是快,還穩(wěn)
原理其實很簡單。
前面已經(jīng)說了,傳統(tǒng)自回歸就像打字機一樣,一次只能處理一個token,且必須按照從左到右的順序。
但擴(kuò)散模型Mercury 2的工作方式更像一位編輯——
你不是在看它打字,而是看它拿到一份草稿后,立刻拿著紅筆在整頁紙上同時圈改。
換言之,一次生成答案草稿再整體編輯。
這種“并行優(yōu)化”機制,使得Mercury 2不需要等待前一個字的結(jié)果就能生成下一個字,因此響應(yīng)速度極快,延遲不再與輸出長度成正比。
最終,Mercury 2能將生成速度提升5倍以上,且速度曲線截然不同。
瞅瞅,在第三方測評中,其輸出速度可謂一騎絕塵。
![]()
和市面主流的頂尖模型比,速度也是獨一檔的存在。
![]()
而且不止是快,它在性能、價格方面都具有一定優(yōu)勢。
延遲低至1.7s的情況下,在GPQA(科學(xué)問答)、LCB(編程)、AIME(數(shù)學(xué))等多個基準(zhǔn)測試中,Mercury 2的得分普遍高于或持平于那些速度較慢的“小型/輕量級”模型(如GPT-5 Nano, Claude 4.5 Haiku)。
甚至在AIME上的得分超過了公認(rèn)的“性能怪獸”Gemini 3 Flash(推理版) 。
這說明Mercury 2在保持極高速度的同時,并不以犧牲智商為代價。
![]()
它目前支持128K上下文,輸入價格為每百萬token 0.25美元(約合人民幣1.7元),輸出價格為每百萬token 0.75美元(約合人民幣5.2元)。
綜合速度與價格,Mercury 2也保持了較高性價比。
![]()
官方表示,Mercury 2的這種速度優(yōu)勢改變了推理。
- 如今,更高的智能意味著更多的test-time計算——更長的鏈、更多的樣本、更多的重試,而這直接以延遲和成本為代價。基于擴(kuò)散的推理能夠在實時延遲預(yù)算內(nèi)實現(xiàn)推理級別的質(zhì)量。
背后公司一開始就押注擴(kuò)散模型
最后介紹一下Mercury 2背后的公司及團(tuán)隊。
它是由Inception Labs這家成立于2024年的硅谷初創(chuàng)公司推出的。
從一開始這家公司就力押擴(kuò)散模型,其核心使命為——
用全新的、基于擴(kuò)散/diffusion的生成機制替代傳統(tǒng)的自回歸Transformer模型,從根本上突破速度與成本瓶頸。
他們認(rèn)為,傳統(tǒng)自回歸模型的缺陷不言自明——延遲和成本會隨著token數(shù)量的增加而增加。
而擴(kuò)散模型采用由粗到精的生成過程。它并非逐個提交數(shù)據(jù),而是通過少量步驟并行迭代地細(xì)化輸出。這使得在生成過程中可以進(jìn)行修改,并帶來截然不同的速度-成本曲線。一言以蔽之:
- 人工智能不應(yīng)該像單向打字機那樣運作,而應(yīng)該更像一個編輯。
基于此,他們開始在Mercury系列中踐行這一理念。
2025年2月,發(fā)布全球首個基于擴(kuò)散模型的商業(yè)級語言模型——初代Mercury,一開始就把生成速度拉到傳統(tǒng)的5倍以上,而且同一時間還推出編程助手Mercury Coder。
一年之后,升級版Mercury 2問世,在推理和多智能體日益進(jìn)入主流視線的今天,帶來了更多可能。
![]()
事實上,早在2019年,這家公司的聯(lián)創(chuàng)兼CEO Stefano Ermon就開始投身擴(kuò)散模型的研究了。
時任斯坦福大學(xué)計算機科學(xué)教授的Stefano Ermon,很早就思忖著將擴(kuò)散模型應(yīng)用于內(nèi)容生成。
當(dāng)時主流的圖像生成模型還在使用GAN(生成對抗網(wǎng)絡(luò)),但他和團(tuán)隊認(rèn)為結(jié)果“不夠好”,于是開始嘗試應(yīng)用Diffusion。
而在看到Diffusion的效果不錯后(后來Midjourney、DALL-E等都是用這種方法),他們開始將研究目光轉(zhuǎn)向文本和代碼生成。
- 圖像由連續(xù)的像素構(gòu)成,而文本由離散的token構(gòu)成。之前成功的擴(kuò)散模型理論(如去噪得分匹配)是建立在連續(xù)空間上的,無法直接遷移到文本。
于是在2023年,他和團(tuán)隊發(fā)表了一篇關(guān)鍵性論文《Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution》,里面介紹了一種名為Score Entropy Discrete Diffusion models(SEDD)的模型。
該模型創(chuàng)新性提出了“分?jǐn)?shù)熵”(score entropy)這一全新?lián)p失函數(shù),它巧妙地將連續(xù)空間的分?jǐn)?shù)匹配理論擴(kuò)展到了離散數(shù)據(jù)領(lǐng)域。
這使得擴(kuò)散模型能夠像理解圖像一樣,去理解和生成語言。
![]()
論文結(jié)果表明,SEDD的表現(xiàn)明顯優(yōu)于當(dāng)時已有的語言模型,困惑度比未退火(未使用“動態(tài)調(diào)整溫度”這個優(yōu)化技巧)的GPT-2好6-8倍。
(注:后來這篇論文還獲得了ICML 2024最佳論文獎)
見此,Stefano Ermon決定通過創(chuàng)業(yè)將技術(shù)價值放大。
于是在2024年夏天,他邀請美國加利福尼亞大學(xué)洛杉磯分校教授Aditya Grover(左)和美國康奈爾大學(xué)教授Volodymyr Kuleshov(右)加入Inception Labs。
![]()
去年11月,這家公司還宣布獲得了5000萬美元融資,而且投資陣容相當(dāng)豪華。
除了NVentures(英偉達(dá)風(fēng)投部門)、M12(微軟旗下風(fēng)險基金)、Menlo Ventures (領(lǐng)投方、知名長期風(fēng)投機構(gòu))等明星機構(gòu),還不乏吳恩達(dá)、卡帕西這些AI大佬。
可以說,堅持走擴(kuò)散模型路子的Inception Labs始終穩(wěn)扎穩(wěn)打并獲得市場支持。
最后順便一提,Mercury 2目前暫無開源計劃,不過其API全面兼容OpenAI標(biāo)準(zhǔn)。
感興趣的朋友也可親自上手一試了。
體驗地址:
https://chat.inceptionlabs.ai/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.