337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

M2.5登頂OpenRouter:如何做出大家最需要的那個(gè)模型

0
分享至


作者 | 王兆洋
郵箱 | wangzhaoyang@pingwest.com

先看一組數(shù)據(jù):

評(píng)估模型編程能力的主流榜單SWE-bench Verified上,Claude Opus 4.6 得分80.8%,Gemini 3.1 Pro 80.6%,MiniMax 2.5 80.2%,GLM-5 77.8%,Kimi K2.5 76.8%。

最大分差也不超過4分,差距就這么點(diǎn)大。開發(fā)者今天其實(shí)已經(jīng)很難只靠這些“考試分?jǐn)?shù)”來選擇要用的模型。

但最近還有另一組很有意思的數(shù)據(jù),來自最重要的模型調(diào)用平臺(tái)之一OpenRouter:


官方統(tǒng)計(jì)顯示,最近其平臺(tái)上的token調(diào)用激增,且其中很多需求來自100K-1M長(zhǎng)文本任務(wù),也就是agent工作流最典型消耗區(qū)間。刺激這些需求爆發(fā)的一個(gè)重要因素是一個(gè)新模型的發(fā)布——MiniMax M2.5。單是在OpenRouter上,它發(fā)布后七天的調(diào)用量就到了破紀(jì)錄的 3.07T tokens。

這說明什么?

今天公開的benchmark也就是打榜式的評(píng)測(cè)已經(jīng)沒那么重要了,因?yàn)椴顒e不再明顯。但與此同時(shí),真實(shí)使用者的感受越來越關(guān)鍵,做好了,你就可以成為最受歡迎的那一個(gè),因?yàn)橛脩魝儗?duì)模型的需求遠(yuǎn)遠(yuǎn)未被滿足。

所以,關(guān)鍵的問題變成,如何做出大家最需要的那個(gè)模型。

可以先來看看這個(gè)備受歡迎的MiniMax M2.5是一個(gè)什么樣的模型。

1.模型部署上:10B激活參數(shù),實(shí)戰(zhàn)中總結(jié)的甜點(diǎn)位

MiniMax M2.5,一個(gè)總參數(shù) 230B,激活參數(shù)只有10b的模型。它不會(huì)叫自己端側(cè)模型,但已經(jīng)是私有化部署最友好的模型。這是一個(gè)實(shí)戰(zhàn)中總結(jié)出來的性價(jià)比甜點(diǎn)位,也是頭部模型里這種友好度里的唯一選擇。

2.價(jià)格:沒有波動(dòng),這是開發(fā)者最在意的負(fù)擔(dān)

人們想盡可能多消耗token,但對(duì)價(jià)格變化又有負(fù)擔(dān),M2.5通過各種工程和算法更新,在性能提升同時(shí),把價(jià)格維持住了,這其實(shí)說明MiniMax自己也清楚知道真實(shí)的開發(fā)者的最大負(fù)擔(dān)是什么。

3.模型的核心能力:死磕Coding和Agent,讓開發(fā)者真的認(rèn)真考慮用它替代Claude

此次M2.5在編程上性能提升的來源,不再是“不論過程只管對(duì)標(biāo)結(jié)果”的方式,而是把開發(fā)過程里的代碼工程甚至開發(fā)思維訓(xùn)練到模型里。M2.5的spec能力就是一個(gè)典型的代表。

官方報(bào)告這樣形容:M2.5 具備了像架構(gòu)師一樣思考和構(gòu)建的能力,比如模型演化出了原生 Spec 行為:在動(dòng)手寫代碼前,以架構(gòu)師視角主動(dòng)拆解功能、結(jié)構(gòu)和 UI 設(shè)計(jì),實(shí)現(xiàn)完整的前期規(guī)劃。

M系列階段性目標(biāo)明確,此時(shí)此刻,它就是要死磕Coding 和 Agent。它在SWE-Bench Verified 已經(jīng)做到80.2%的水平,同時(shí)約1 元/小時(shí)的成本給你100 tokens/秒的吞吐,還要什么自行車。

這當(dāng)然是個(gè)帶有賭注成分的決定,并且需要做出trade off,但目前看起來效果不錯(cuò)收益明顯。大量Claude Code用戶在選擇模型時(shí)真的逃不開要考慮M系列模型,這就很能說明問題。

4.推理:推理效率的極致優(yōu)化,每一環(huán)都是在解決業(yè)務(wù)壓力

M2.5在工程化上持續(xù)補(bǔ)全:平衡吞吐和穩(wěn)定的Windowed FIFO,把大量重復(fù)前綴合并處理、解放出40倍效率的樹狀結(jié)構(gòu)……推理的每個(gè)環(huán)節(jié)都在繼續(xù)優(yōu)化。

5.以及可能是最重要的,又一個(gè)技術(shù)創(chuàng)新:RL框架Forge

MiniMax在技術(shù)上一直挺有追求,不少新的思路是它第一批嘗試然后反饋給行業(yè)里,比如此前的交錯(cuò)思維鏈?zhǔn)酵评淼取6@一次它重點(diǎn)介紹了用在M2.5訓(xùn)練里的一個(gè)新的 RL 框架 Forge 。

這是一個(gè)工業(yè)級(jí)的Agent RL 訓(xùn)練方案,也就是它的目標(biāo)非常務(wù)實(shí),就是面向真實(shí)復(fù)雜的場(chǎng)景大規(guī)模訓(xùn)練AI Agent。

上個(gè)階段把Agent訓(xùn)入模型的方式其實(shí)依然粗糙,它們有點(diǎn)“混為一談”的感覺,而Forge這次核心探索了對(duì)Agent部分和模型本身基礎(chǔ)能力做解耦的方法。

先把Agent和它需要的環(huán)境抽象出來,與模型本身區(qū)分開,然后在兩者間增加一個(gè)中間層,既扮演物理隔離的作用,也提供智能調(diào)度和實(shí)施策略調(diào)整的角色。這很巧妙。


更有意思的是,這樣解耦后,還解鎖了一個(gè)新的scale的方向,就是把各種Agent框架放進(jìn)去做訓(xùn)練,最終獲得泛化能力。這是個(gè)非常有用,甚至直接能影響開發(fā)者體驗(yàn)的泛化,它讓M2.5可以適配各種見過沒見過的“腳手架”。

這同樣是真實(shí)agent場(chǎng)景里非常需要的能力。

看過M 2.5的這些訓(xùn)練重點(diǎn),你會(huì)發(fā)現(xiàn),它的這些優(yōu)化都不是為了刷榜,而是為了解決非常具體的問題——在Agent的需求快速取代了所謂對(duì)話場(chǎng)景的需求后,模型該提供什么樣的智能。

它需要在效果和價(jià)格上找到微妙平衡,持續(xù)提升性能的同時(shí)降低成本。

這說來簡(jiǎn)單,但對(duì)這個(gè)度的把握很難。模型廠要對(duì)這些開發(fā)者的需求有最直接的感知。而MiniMax的“手感”其實(shí)正來自這家公司自己內(nèi)部。

M2.5背后,MiniMax 的M系列模型最重要的研發(fā)思路就是要解決它內(nèi)部各個(gè)團(tuán)隊(duì)在開發(fā)agent的過程里遇到的問題。

閆俊杰曾在M1發(fā)布后分享過:“公司內(nèi)部的小伙伴一直在搭建各種各樣的Agent,來幫助解決公司飛速發(fā)展中遇到的各項(xiàng)挑戰(zhàn)……但是我們發(fā)現(xiàn)沒有一款模型在這些Agent上能完全滿足我們的需求。這里面的挑戰(zhàn)在于好的模型需要在效果、價(jià)格和推理速度上取得好的平衡,這幾乎是一個(gè)‘不可能三角’……我們一直在探索,能不能有一款模型能在效果、價(jià)格和速度上能取得比較好的平衡,從而讓更多的人能受益于Agent時(shí)代的智能提升。”

所以,MiniMax M2發(fā)布時(shí),它做到當(dāng)時(shí)Claude主力模型價(jià)格的8%,而最新的MiniMax M2.5價(jià)格是Claude主力模型的1/12。甚至,M2.5直接被形容為“1萬美元可以讓4個(gè)Agent連續(xù)工作一年”的模型,這幾乎意味著你可以不需要考慮使用成本地近乎無限使用它。

同時(shí),從死磕編程能力、開發(fā)Forge框架再到各種推理優(yōu)化,它繼續(xù)榨出更好的模型效果和更快推理速度。



而其中像Forge框架這種創(chuàng)新,就是整個(gè)M2.5背后思路的典型代表:只有那些自己在日常工作環(huán)境里對(duì)各種agent腳手架之間的適配感到過絕望,對(duì)真實(shí)環(huán)境里模型與agent能力之間的關(guān)系真正“抓狂”過的模型團(tuán)隊(duì)才會(huì)去解決這些問題。

M2.5顯然是MiniMax自己在面對(duì)“不可能三角”時(shí)最需要的那類模型。現(xiàn)在,它也成了開發(fā)者們最需要的那類模型。

所以作為模型公司本身,當(dāng)你一直在牌桌上,你自己其實(shí)就是最能檢驗(yàn)?zāi)P蛯?shí)際能力和體驗(yàn)的第一道關(guān)。

當(dāng)一家模型公司自己對(duì)生產(chǎn)力AI的需求達(dá)到最先進(jìn)程度,它自己面對(duì)的體驗(yàn)困局也就會(huì)是人們最重要和普遍的需求,它的創(chuàng)新方向就會(huì)是大家期待的模型的進(jìn)步方向。

它自己喜歡的那個(gè)模型,就會(huì)是大家最喜歡的模型。


點(diǎn)個(gè)愛心,再走 吧

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
再反轉(zhuǎn)!伊朗體育部長(zhǎng)回應(yīng)國(guó)際足聯(lián)主席,放棄世界杯,一隊(duì)或替補(bǔ)

再反轉(zhuǎn)!伊朗體育部長(zhǎng)回應(yīng)國(guó)際足聯(lián)主席,放棄世界杯,一隊(duì)或替補(bǔ)

大秦壁虎白話體育
2026-03-11 23:33:26
腦機(jī)接口,重大利好!

腦機(jī)接口,重大利好!

賽柏藍(lán)
2026-03-11 19:34:40
許家印香港大宅發(fā)現(xiàn)460平地牢,藏15年為何物?

許家印香港大宅發(fā)現(xiàn)460平地牢,藏15年為何物?

一曲一場(chǎng)談
2026-03-12 03:14:03
荷蘭總部突然斷網(wǎng)!安世半導(dǎo)體鎖死系統(tǒng),中國(guó)區(qū)晶圓積壓!

荷蘭總部突然斷網(wǎng)!安世半導(dǎo)體鎖死系統(tǒng),中國(guó)區(qū)晶圓積壓!

Thurman在昆明
2026-03-10 21:25:41
伊朗今天的災(zāi)難,是白左當(dāng)年種下的禍根

伊朗今天的災(zāi)難,是白左當(dāng)年種下的禍根

難得君
2026-03-11 00:16:06
電車企業(yè)銷量連連暴跌,技術(shù)神話正在破滅,燃油車優(yōu)勢(shì)凸顯

電車企業(yè)銷量連連暴跌,技術(shù)神話正在破滅,燃油車優(yōu)勢(shì)凸顯

柏銘銳談
2026-03-10 23:40:41
白銀急跌4%,黃金失守5170美元,美國(guó)公布重要數(shù)據(jù),美聯(lián)儲(chǔ)或?qū)⒃?月降息

白銀急跌4%,黃金失守5170美元,美國(guó)公布重要數(shù)據(jù),美聯(lián)儲(chǔ)或?qū)⒃?月降息

新浪財(cái)經(jīng)
2026-03-11 21:21:33
紐卡挖到寶了!新 “億元瑰寶” 橫空出世,比放走的安德森還香?

紐卡挖到寶了!新 “億元瑰寶” 橫空出世,比放走的安德森還香?

奶蓋熊本熊
2026-03-12 03:11:51
不被任何人拿捏的頂級(jí)思維:不要回答別人的問題,要回答別人的目的

不被任何人拿捏的頂級(jí)思維:不要回答別人的問題,要回答別人的目的

古代經(jīng)典
2026-02-25 15:40:12
比紅薯通便,比芋頭養(yǎng)人!中老年多吃它,利尿通便,春天吃正合適

比紅薯通便,比芋頭養(yǎng)人!中老年多吃它,利尿通便,春天吃正合適

阿龍美食記
2026-03-11 14:15:23
與陳坤牽手兩月,董潔首談和潘粵明離婚細(xì)節(jié),估計(jì)和你想的不一樣

與陳坤牽手兩月,董潔首談和潘粵明離婚細(xì)節(jié),估計(jì)和你想的不一樣

春之寞陌
2026-03-12 02:48:54
重慶冠軍賽女單16強(qiáng),國(guó)乒4人晉級(jí),日本隊(duì)剩2人

重慶冠軍賽女單16強(qiáng),國(guó)乒4人晉級(jí),日本隊(duì)剩2人

二爺臺(tái)球解說
2026-03-11 22:45:48
北京88-55戰(zhàn)勝四川 球員評(píng)價(jià):5人優(yōu)秀,4人及格,3人低迷

北京88-55戰(zhàn)勝四川 球員評(píng)價(jià):5人優(yōu)秀,4人及格,3人低迷

籃球資訊達(dá)人
2026-03-12 02:43:06
3月12日精選熱點(diǎn):太空光伏再次出史詩級(jí)利好  這些龍頭率先上漲

3月12日精選熱點(diǎn):太空光伏再次出史詩級(jí)利好 這些龍頭率先上漲

元芳說投資
2026-03-11 21:14:25
火箭主場(chǎng)擒猛龍,雙星閃耀潛力無限,謝潑德斗志全無

火箭主場(chǎng)擒猛龍,雙星閃耀潛力無限,謝潑德斗志全無

李帕在北漂
2026-03-11 10:52:18
衢州搬運(yùn)工56萬買巨化股份,持有12年,從血汗錢熬成近300萬身家

衢州搬運(yùn)工56萬買巨化股份,持有12年,從血汗錢熬成近300萬身家

真實(shí)人物采訪
2026-03-10 20:55:04
鄧文迪攜女兒亮相默多克95歲壽宴,狀態(tài)氣質(zhì)雙絕

鄧文迪攜女兒亮相默多克95歲壽宴,狀態(tài)氣質(zhì)雙絕

述家娛記
2026-03-11 08:32:30
你是咋感受到教育的落差的?網(wǎng)友:首次聽說春游,我還以為是吹牛

你是咋感受到教育的落差的?網(wǎng)友:首次聽說春游,我還以為是吹牛

帶你感受人間冷暖
2026-02-24 01:50:04
央視直播12日重慶冠軍賽,孫穎莎對(duì)朱芊曦,王楚欽戰(zhàn)弗朗西斯卡

央視直播12日重慶冠軍賽,孫穎莎對(duì)朱芊曦,王楚欽戰(zhàn)弗朗西斯卡

乒乓球球
2026-03-11 21:53:01
Shams:庫(kù)里還將因?yàn)橛蚁サ膫麆?shì)缺席未來10天的比賽

Shams:庫(kù)里還將因?yàn)橛蚁サ膫麆?shì)缺席未來10天的比賽

懂球帝
2026-03-12 04:19:05
2026-03-12 05:12:49
硅星人 incentive-icons
硅星人
硅(Si)是創(chuàng)造未來的基礎(chǔ),歡迎來到這個(gè)星球。
2921文章數(shù) 10462關(guān)注度
往期回顧 全部

科技要聞

騰訊"養(yǎng)蝦"暴漲后,百度急得在門口"裝蝦"

頭條要聞

特朗普再次威脅將切斷與西班牙貿(mào)易往來:非常糟糕

頭條要聞

特朗普再次威脅將切斷與西班牙貿(mào)易往來:非常糟糕

體育要聞

郭艾倫重傷,CBA下半賽季還能期待些什么

娛樂要聞

蔡少芬曬全家福照,兩女兒成最大亮點(diǎn)

財(cái)經(jīng)要聞

喚醒10萬億存量資金 公積金改革大潮來了

汽車要聞

蓮花糾偏, 馮擎峰的“收”與“守”

態(tài)度原創(chuàng)

本地
時(shí)尚
家居
房產(chǎn)
軍事航空

本地新聞

這檔韓國(guó)玄學(xué)綜藝,讓多少人看得頭皮發(fā)麻

衣服不用買太多!初春多穿短大衣和針織衫,簡(jiǎn)單舒適又顯高

家居要聞

中式風(fēng)格 人間朝與暮

房產(chǎn)要聞

最低殺到7800元/㎡!海口2026第一波房?jī)r(jià)大調(diào)整來了!

軍事要聞

朝鮮"崔賢"號(hào)驅(qū)逐艦進(jìn)行戰(zhàn)略巡航導(dǎo)彈試射

無障礙瀏覽 進(jìn)入關(guān)懷版