337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

小米MiMo大模型:榜單排名亮眼,但真實含金量到底有多少?

0
分享至

一直缺席大模型競爭的小米,在天才少女羅福莉的帶領下,終于正式發(fā)布了自研大模型 MiMo-V2 系列。

小米近日一口氣拿出 Pro 基座、Omni 全模態(tài)、TTS 語音三款模型,主打 Agent 智能體、長上下文與全模態(tài)理解。

在官方宣傳中,小米稱 MiMo-V2-Pro 參數(shù)規(guī)模與上下文長度都做到了當前第一梯隊水平,迅速登頂 OpenRounter 榜單,并拿下 Artificial Analysis 綜合智能排行榜第八。

但一邊是被米粉調侃的“傳奇耐黑王”,一邊是因為營銷宣傳引起幾次大的爭議的事實,小米本次大模型宣傳也引發(fā)了爭論。

作為普通用戶,確實很難評價大模型的性能表現(xiàn)。出于謹慎,我們研究了下小米此次重點宣傳的榜單排名,一起看看這些排名成績有多少含金量?

技術實力排名,還是市場運營成果?

小米官方在宣傳中,主要用兩套評價體系支撐 “國際先進” 的定位:一套是 Artificial Analysis 綜合榜單,另一套是 OpenRouter 平臺的調用量排名。

我們先看 Artificial Analysis 榜單。小米 MiMo-V2-Pro 在此榜單中取得全球第八、國內第二的成績,也是其 “國際一流” 說法的主要來源。



Artificial Analysis 榜單的評測方法簡潔明了,核心圍繞智能體能力、代碼、科學推理、通用智能四大維度,涵蓋 10 項高難度基準,采用 “客觀題 + 主觀題” 結合的方式:

客觀題(如代碼運行、數(shù)學推理、終端執(zhí)行)由機器自動判分,確保準確性。

主觀題(如文案生成、邏輯表達、文檔質量)則由 AI 裁判(而非真人)進行盲測打分,采用 Elo 評級方式對比模型表現(xiàn)。

但Artificial Analysis的關鍵問題是,AI 裁判并非完全中立 —— 它有固定的偏好(如偏愛結構清晰、語氣正式的答案),廠商可針對性優(yōu)化模型輸出,對齊 AI 裁判的打分習慣,從而提升主觀題得分。

不過Artificial Analysis官方也對此做了多項限制,比如采用多 AI 裁判交叉驗證、零樣本測試、高難度動態(tài)題庫,大幅降低了針對性優(yōu)化的空間。

總體而言,這種針對性優(yōu)化的問題雖不嚴重,不會導致成績完全失真,但肯定存在優(yōu)化得當使得模型排名可能比其真實綜合實力略高的情況。

再看被廣泛傳播的 OpenRouter 調用量第一榜單。

小米創(chuàng)辦人,董事長兼CEO雷軍發(fā)文稱,OpenRounter 是全球最大的大模型API聚合平臺,AI應用開發(fā)者可以在這里調用自己想用的模型。這是對模型能力、速度和成本綜合實力考驗。調用量越高,一般意味著開發(fā)者的認可度越高。



但實際上,OpenRouter 排名核心指標僅為 Token 總消耗量,并不直接反映模型質量。

這種機制的人為影響因素非常明顯:新品上線常見的大額免費額度、低價補貼、內部測試流量、定向引流等,都能在短期內顯著拉升調用數(shù)據(jù)。

更關鍵的是,平臺并未區(qū)分真實用戶與模型方發(fā)起的調用,廠商完全可以通過自身賬號批量主動調用,直接抬高排名。

此次 小米MiMo 以 Hunter Alpha 匿名上線即快速登頂,同期多款國產模型在該平臺出現(xiàn)異常暴漲的調用曲線,可能也側面印證了這類操作的普遍性。

而且調用量只代表被使用的規(guī)模,無法體現(xiàn)用戶滿意度、任務完成率與實際效果,更無法等同于模型能力的強弱。

因此 OpenRouter 的排名本質更接近市場運營結果,而非技術實力的客觀證明。

MiMo缺席的榜單

值得注意的是,筆者發(fā)現(xiàn)小米MiMo至今并未出現(xiàn)在LMSYS Chatbot Arena的盲測排名中。

筆者曾在之前的文章《國外的模型更好用?我們做了一下專項研究》中,介紹過為什么這個盲測更能說明真實性能。

作為業(yè)內最貼近真實用戶體驗、最難被干預的評測體系,LMSYS依靠海量真人匿名雙盲對決形成ELO排名,公信力顯著更高。

小米MiMo未上榜,可能大概率是因為模型剛發(fā)布、尚未提交參評,或暫時未接入社區(qū)評測平臺,并不直接代表模型能力不足。但小米MiMo確實缺少了最具說服力、最難以造假的第三方口碑佐證。

綜合來看,小米MiMo所主打宣傳的兩套評價體系,的確帶有明顯的營銷傾向,成績中存在可優(yōu)化、可運營的空間,不能完全等同于模型的絕對實力。

但考慮到大模型的技術難度以及所謂“優(yōu)化榜單排名”的難度,即便剔除榜單水分,MiMo在架構設計、能力方向與實際表現(xiàn)上依然具備扎實基礎,足以躋身國內第一梯隊優(yōu)秀大模型行列,并非虛有其表。

更關鍵的是,MiMo從底層設計就重點強化了Agent智能體能力,而小米本身擁有手機、汽車、智能家居等完整的硬件生態(tài)。模型擅長的工具調用、多步規(guī)劃、跨設備執(zhí)行,恰好能與小米的全場景硬件深度結合。

并且,小米還有“超能力”,雷軍宣布,在AI領域,小米今年的研發(fā)和資本投入就將超過160億元。

榜單排名只是短期話題,模型與生態(tài)的協(xié)同落地,才是MiMo未來真正值得期待的長期價值。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
53:47!投票結果出爐,特朗普連夜發(fā)文,美國最大的“敵人”變了

53:47!投票結果出爐,特朗普連夜發(fā)文,美國最大的“敵人”變了

福建平子
2026-03-25 07:37:48
梅毒在中國的60年: 從"基本消滅"到年增64萬例

梅毒在中國的60年: 從"基本消滅"到年增64萬例

知識分子
2026-03-25 11:37:14
52歲北京炒股冠軍罕見發(fā)聲:洗盤如果洗不掉散戶,莊家會怎么辦?

52歲北京炒股冠軍罕見發(fā)聲:洗盤如果洗不掉散戶,莊家會怎么辦?

股經縱橫談
2026-03-20 21:45:04
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的這4物是幫兇

岐黃傳人孫大夫
2026-03-17 23:25:03
450億顆芯片懸空!荷蘭突然宣布光刻機決定,歐媒:一切都結束了

450億顆芯片懸空!荷蘭突然宣布光刻機決定,歐媒:一切都結束了

墨印齋
2026-03-23 21:07:23
鐵了心對付中國?暴跌58%,俄羅斯大幅加稅,中國汽車栽得太冤了

鐵了心對付中國?暴跌58%,俄羅斯大幅加稅,中國汽車栽得太冤了

愛吃醋的貓咪
2026-02-01 19:36:46
拒絕沙特1.5億鎊報價,40萬鎊周薪,續(xù)約薩拉赫讓利物浦損失慘重

拒絕沙特1.5億鎊報價,40萬鎊周薪,續(xù)約薩拉赫讓利物浦損失慘重

夏侯看英超
2026-03-25 03:45:07
3月30日大變革!殯葬行業(yè)徹底變天,普通人再也不用買天價墓地

3月30日大變革!殯葬行業(yè)徹底變天,普通人再也不用買天價墓地

復轉這些年
2026-03-22 15:14:22
伊朗新任最高領袖傳出死訊:真沒了,還是一場更大的煙霧彈

伊朗新任最高領袖傳出死訊:真沒了,還是一場更大的煙霧彈

桂系007
2026-03-20 23:50:32
不可錯過!3月25日晚19:30,央視5套CCTV5、CCTV5+直播時間表

不可錯過!3月25日晚19:30,央視5套CCTV5、CCTV5+直播時間表

皮皮觀天下
2026-03-25 10:23:53
張雪峰離世:全網沒提的 3 個真相,才是他真正不可替代的原因

張雪峰離世:全網沒提的 3 個真相,才是他真正不可替代的原因

阿訊說天下
2026-03-25 14:35:24
波蘭磨刀:誰將是壓垮俄羅斯的最后一根稻草

波蘭磨刀:誰將是壓垮俄羅斯的最后一根稻草

民間胡扯老哥
2026-03-23 18:56:09
青島覽秀城!跑路、退費難、各種問題頻發(fā) 本地人:誰去誰大冤種

青島覽秀城!跑路、退費難、各種問題頻發(fā) 本地人:誰去誰大冤種

青島優(yōu)選
2026-03-25 13:45:51
張雪峰一生摯愛國足:想當國腳奪世界杯 國足若進決賽愿死在現(xiàn)場

張雪峰一生摯愛國足:想當國腳奪世界杯 國足若進決賽愿死在現(xiàn)場

念洲
2026-03-25 06:43:05
4月1日起,醫(yī)保大變!癌癥、尿毒癥、慢病看病,報銷迎來新規(guī)

4月1日起,醫(yī)保大變!癌癥、尿毒癥、慢病看病,報銷迎來新規(guī)

夜深愛雜談
2026-03-24 21:18:21
聽鑒世界 | 國際法專家:美以對伊行動涉嫌戰(zhàn)爭罪 西方輿論混淆是非

聽鑒世界 | 國際法專家:美以對伊行動涉嫌戰(zhàn)爭罪 西方輿論混淆是非

國際在線
2026-03-25 15:37:01
重回1400元!品牌金飾克價一夜大漲近70元

重回1400元!品牌金飾克價一夜大漲近70元

第一財經資訊
2026-03-25 12:01:52
美國人可能在撒謊,一項證據(jù)表明,F(xiàn)-35并未安全降落沙特軍事基地

美國人可能在撒謊,一項證據(jù)表明,F(xiàn)-35并未安全降落沙特軍事基地

止戈軍是我
2026-03-21 11:24:53
工商銀行、建設銀行、農業(yè)銀行、中國銀行、招商銀行、民生銀行,發(fā)布風險提示

工商銀行、建設銀行、農業(yè)銀行、中國銀行、招商銀行、民生銀行,發(fā)布風險提示

每日經濟新聞
2026-03-25 10:04:07
身材豐滿的女生,穿收腰連衣裙才更有高級感

身材豐滿的女生,穿收腰連衣裙才更有高級感

牛彈琴123456
2026-03-21 10:37:10
2026-03-25 16:40:49
科技浮世繪 incentive-icons
科技浮世繪
文字是假的,熱愛是真的
150文章數(shù) 5關注度
往期回顧 全部

數(shù)碼要聞

蘋果WWDC26全球開發(fā)者大會官宣6月9日開幕

頭條要聞

女子為病重父親找到失聯(lián)34年摯友:兩人加起來132歲

頭條要聞

女子為病重父親找到失聯(lián)34年摯友:兩人加起來132歲

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰經搶救無效不幸去世 年僅41歲

財經要聞

管濤:中東局勢如何影響人民幣匯率走勢?

科技要聞

紅極一時卻草草收場,Sora宣布正式關停

汽車要聞

智己LS8放大招 30萬內8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

手機
健康
數(shù)碼
公開課
軍事航空

手機要聞

演唱會視頻真神, OPPO哈蘇10倍光變天眼長焦, 把增距鏡裝進手機里

轉頭就暈的耳石癥,能開車上班嗎?

數(shù)碼要聞

太太太貴了!AYANEO NEXT 2不賣了:唯二的AMD銳龍AI Max+ 395掌機

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗重申非交戰(zhàn)國家船只可安全通過霍爾木茲海峽

無障礙瀏覽 進入關懷版