337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

MiniMax M2.5 發布:10B 激活參數,打進頭部模型

0
分享至

今天這篇本來早上就該發的

MiniMax 凌晨發了 M2.5,一看數據就知道得寫,但這兩天實在有點累,拖到晚上才弄出來。先跟 MiniMax 的朋友們說一句,恭喜,這次發的東西確實硬

有個事情官方沒說:M2.5 為 229B,激活只有 10B


https://huggingface.co/MiniMaxAI/MiniMax-M2.5/blob/main/config.json

但在SWE-Bench Verified 80.2%,Multi-SWE-Bench 51.3%(第一),BrowseComp 76.3%。編程跟 Opus 4.6 基本持平,多語言編程直接拿了全行業最高。搜索和工具調用也到了頂尖水平


M2.5 核心 benchmark 一覽

第一梯隊里參數規模最小的旗艦模型。10B 激活參數打到了跟 Opus 4.6 一個級別。做私有化部署的朋友可以品品這個顯存占用和推理能效比

看看經濟賬:M2.5 有兩個版本,能力完全一樣,速度和價格不同

快的叫 M2.5-Lightning,100 TPS,每百萬 token 輸入 0.3 美金、輸出 2.4 美金。
慢的叫 M2.5,50 TPS,價格再砍一半,每百萬 token 輸入 0.3 美金、輸出 1.2 美金。

兩個版本都支持緩存,按輸出價格算,M2.5 是 Opus、Gemini 3 Pro、GPT-5 的 1/10 到 1/20


換成更具象的數字:在以每秒輸出 100 個 token 的情況下,連續工作一小時只需要 1 美金,而在每秒輸出 50 個 token 的情況下,只需要 0.3 美金。

1 萬美金,夠一個 Agent 連續跑 4 年

這個賬算得過來之后,很多之前「舍不得讓 Agent 長時間跑」的場景就打開了。跑完一整套 SWE-Bench Verified 評測,M2.5 單任務的總成本只有 Opus 4.6 的 10%

編程
編程 benchmark

有個細節挺有意思。M2.5 在訓練過程中自己演化出了一個「寫 Spec」的行為,動手寫代碼之前會先從架構師視角把功能、結構、UI 設計全部拆解規劃一遍。這個行為是涌現出來的,不是手動設計的

訓練覆蓋了 10 多種語言(Go、C、C++、TypeScript、Rust、Kotlin、Python、Java、JS、PHP、Lua、Dart、Ruby),在超過 20 萬個真實環境上跑

能力不只是修 bug,從 0 到 1 的系統設計、1 到 10 的開發、10 到 90 的功能迭代、90 到 100 的 code review 和系統測試,全流程都能接。覆蓋 Web、Android、iOS、Windows 的全棧項目,包含 Server 端 API、業務邏輯、數據庫

MiniMax 把 VIBE benchmark 升級了一個 Pro 版,任務復雜度和領域覆蓋度都拉高了不少。在 VIBE Pro 上,M2.5 跟 Opus 4.5 表現相當


VIBE Pro 對比

腳手架泛化性也驗過了。在 Droid 上跑 SWE-Bench,M2.5 是 79.7,Opus 4.6 是 78.9。在 OpenCode 上,M2.5 是 76.1,Opus 4.6 是 75.9。換了腳手架照樣打

搜索和工具調用
搜索 benchmark

MiniMax 自建了一個評測集叫 RISE(Realistic Interactive Search Evaluation),專門測真實專業任務上的搜索能力。邏輯是這樣的:人類專家做搜索任務的時候,用搜索引擎本身只占一小部分,大量工作是在專業網頁里深度探索。M2.5 在這類場景上表現很強

比上一代還省。在 BrowseComp、Wide Search、RISE 多項任務上,M2.5 用更少的搜索輪次拿到了更好的結果,輪次消耗比 M2.1 少了大約 20%

模型學會了用更短的路徑逼近答案

辦公
辦公場景對比

這塊 MiniMax 找了金融、法律、社科領域的資深從業者一起做訓練數據,把行業的隱性知識帶進了模型訓練。Word 排版、PPT 編輯、Excel 金融建模這些場景上有明顯提升

他們內部的 GDPval-MM 評測框架會同時評交付質量和 Agent 執行軌跡的專業性,還監控全流程 token 成本。對比主流模型平均勝率 59.0%

速度

M2.5 比 M2.1 完成 SWE-Bench 任務快了 37%

具體來說:端到端運行時間從平均 31.3 分鐘降到 22.8 分鐘,跟 Opus 4.6 的 22.9 分鐘幾乎一樣。每個任務的 token 消耗從 3.72M 降到了 3.52M

變快了,還變省了

迭代速度

108 天,M2、M2.1、M2.5 三個版本

在 SWE-Bench Verified 上,M2 系列的進步曲線斜率比 Claude、GPT、Gemini 系列都陡


M2 系列 vs 同行的進步速度,自己看斜率

MiniMax 說「行業最快的進步速度」,從這張圖看,不虛

Agent RL

技術層面簡單記幾個點

M2.5 的核心訓練框架叫 Forge,原生 Agent RL 框架。通過引入中間層完全解耦了訓推引擎和 Agent,支持任意 Agent 腳手架接入。這讓模型在不同編程工具和 Agent 環境之間的泛化性很強


Forge 架構

算法上用的是他們去年初提出的 CISPO 算法保障 MoE 模型訓練穩定性,加上 Process Reward 做全鏈路監控,再用真實任務耗時作為 Reward 來平衡效果和速度。訓練側通過樹狀合并樣本實現了大約 40 倍加速


Agent RL 算法與 Reward 設計

MiniMax 說后續會單獨發一篇技術博客詳細講 RL scaling,到時候可以再看看

MiniMax 內部在用

MiniMax 內部已經全面上線 M2.5,覆蓋研發、產品、銷售、HR、財務
整體任務的 30% 由 M2.5 自主完成,編程場景里新提交代碼的 80% 由模型生成

產品側,MiniMax Agent 做了一套標準化的 Office Skills,在 MAX 模式下會根據文件類型自動加載對應能力。用戶還可以把 Office Skills 和行業經驗結合起來創建可復用的「專家」(Expert),目前平臺上已經有超過 1 萬個用戶創建的 Expert

模型權重會在 HuggingFace 開源,支持本地部署


更多 benchmark 還沒完...但先碎覺

這兩天,國產模型扎堆發布,GLM-5、DeepSeek 更新、M2.5,春節前的密度有點離譜

以及....這些 AI 廠的春節發布,還沒完

然后...晚安...碎覺...

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
48小時內,新加坡兩次叫板中國,總理站隊日本,大使洗白美國霸權

48小時內,新加坡兩次叫板中國,總理站隊日本,大使洗白美國霸權

小嵩
2026-03-22 10:45:02
山東迎來大變局!下一個爆發城市,正是泰安市

山東迎來大變局!下一個爆發城市,正是泰安市

筆墨V
2026-03-22 08:45:24
伊拉克戰爭爆發時,伊拉克人口約2600萬,為何現在達到了4600萬?

伊拉克戰爭爆發時,伊拉克人口約2600萬,為何現在達到了4600萬?

世界縱橫說
2026-03-21 21:11:48
2026,離職潮徹底消失了。

2026,離職潮徹底消失了。

老陸不老
2026-03-18 12:53:10
逆天補籃壓哨絕殺!阿門籃板生涯新高!謝潑德爆發,杜蘭特超喬丹

逆天補籃壓哨絕殺!阿門籃板生涯新高!謝潑德爆發,杜蘭特超喬丹

Tracy的籃球博物館
2026-03-22 10:41:41
你做初一我做十五, 伊朗一刀封喉致命,以色列真正的麻煩來了

你做初一我做十五, 伊朗一刀封喉致命,以色列真正的麻煩來了

近史閣
2026-03-22 09:55:58
本想拉著美國一起對付中國,特朗普一巴掌打醒了高市,你算老幾?

本想拉著美國一起對付中國,特朗普一巴掌打醒了高市,你算老幾?

體育小柚
2026-03-22 09:27:00
75歲港星花百萬在中山買房,住了兩年稱生活素質高,后悔搬來太晚

75歲港星花百萬在中山買房,住了兩年稱生活素質高,后悔搬來太晚

臨云史策
2026-03-21 12:17:19
同學聚會吃了22萬,請客的人付完錢走后,剩下的人卻翻臉了

同學聚會吃了22萬,請客的人付完錢走后,剩下的人卻翻臉了

小秋情感說
2026-03-22 09:00:30
反超華為4291億!中國第一大民企狂攬1.3萬億,大佬再次“封神”

反超華為4291億!中國第一大民企狂攬1.3萬億,大佬再次“封神”

毒sir財經
2026-03-21 17:16:45
猶太人曾3次建國,每次沒超79年,而2026年恰好是以色列建國78年

猶太人曾3次建國,每次沒超79年,而2026年恰好是以色列建國78年

百年歷史老號
2026-03-20 08:17:22
國羽1勝1負!男雙獨苗進決賽,PK日本組合爭冠,胡哲安0-2出局!

國羽1勝1負!男雙獨苗進決賽,PK日本組合爭冠,胡哲安0-2出局!

劉姚堯的文字城堡
2026-03-22 10:09:55
男人的人格魅力,對女人有著最致命的吸引力,最直擊靈魂的沖擊力

男人的人格魅力,對女人有著最致命的吸引力,最直擊靈魂的沖擊力

加油丁小文
2026-03-22 11:00:08
釣魚島情況有變:美國公開插手,日本樂了,中國的明牌正式擺上桌

釣魚島情況有變:美國公開插手,日本樂了,中國的明牌正式擺上桌

桑啟紅原
2026-03-22 09:13:15
“伊朗沖突后,中國電動汽車在亞太賣爆”

“伊朗沖突后,中國電動汽車在亞太賣爆”

觀察者網
2026-03-20 12:29:03
一年流出視頻294部的小寶到底探過多少朵花?

一年流出視頻294部的小寶到底探過多少朵花?

挪威森林
2026-01-25 17:18:42
成都蓉城客場3比3戰平重慶銅梁龍!場內外高燃,中超需要“成渝德比”這樣的足球敘事

成都蓉城客場3比3戰平重慶銅梁龍!場內外高燃,中超需要“成渝德比”這樣的足球敘事

紅星新聞
2026-03-21 23:07:16
特朗普當面逼高市早苗出兵中東,沒想到日本首相挺難對付

特朗普當面逼高市早苗出兵中東,沒想到日本首相挺難對付

阿腩講娛樂
2026-03-22 09:52:07
雷軍:續航達到902公里,只用96.3度電;王興興、何小鵬、王傳福現身新一代SU7發布會

雷軍:續航達到902公里,只用96.3度電;王興興、何小鵬、王傳福現身新一代SU7發布會

大風新聞
2026-03-19 20:15:21
女人們終于說實話了:穿內衣是為了我自己爽,不是給你看!

女人們終于說實話了:穿內衣是為了我自己爽,不是給你看!

落雪聽梅a
2026-03-21 11:06:12
2026-03-22 11:35:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數 49關注度
往期回顧 全部

數碼要聞

終于不用再頻繁換主板!Intel處理器接口壽命將看齊AMD:支持多代CPU

頭條要聞

八國已就霍爾木茲海峽發聲 英核動力潛艇抵達阿拉伯海

頭條要聞

八國已就霍爾木茲海峽發聲 英核動力潛艇抵達阿拉伯海

體育要聞

鄭欽文兩盤橫掃前美網冠軍 迎邁阿密站開門紅

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

睡夢中欠債1.2萬?這只“蝦”殺瘋了

科技要聞

OpenAI開啟“人海戰術” 沖刺8000人規模

汽車要聞

14.28萬元起 吉利銀河星耀8遠航家開啟預售

態度原創

旅游
房產
數碼
本地
公開課

旅游要聞

第四屆青州花朝節啟幕,濰坊青州釋放“春日經濟”新活力

房產要聞

全城狂送1000杯咖啡!網易房產【早C計劃】,即刻啟動!

數碼要聞

無需充氣壓縮:榮耀手表5 Ultra升級支持血壓監測功能

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版