337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

聊聊小米開源的MiMo-V2-Flash,這次,為推理而生。

0
分享至

周末加更一篇,我還是覺得,小米前兩天開源的那個模型,值得單獨來聊一聊。

當天晚上其實就打算寫了,結(jié)果被OpenAI截胡了,這一拖,就拖到了今天。

就是前兩天深夜,小米搞了一個大的。

沒有任何預(yù)兆的,直接開源了一個大模型, MiMo-V2-Flash。


說實話,十年米粉看到以后,還是有點激動的。

小米,作為硬件廠商的代表,終于出手了。

成績也不錯,在O penRouter上的調(diào)用量排名上,一路上漲。


今天看,又漲了將近2倍,已經(jīng)來到了第六了,這個漲幅還是挺恐怖的。

而且還有一個非常有意思的是,那天,也是雷總的生日。


這絕對不是巧合(狗頭保命)。

這次, MiMo-V2-Flash 發(fā)布即開源,還附帶了技術(shù)報告。


說真的,這個技術(shù)報告,真的究極詳細了。


就很多有趣的經(jīng)驗值得分享。

然后,還做了一個線上對話產(chǎn)品,也是為了方便大家進行快速便捷的體驗。

網(wǎng)址在此: https://aistudio.xiaomimimo.com/


我這兩天,零零散散的花了一些時間,讀完了技術(shù)報告,又體驗了一下模型之后,我覺得,這個模型還是有一點意思的。

就如同他們自己在Blog上所說的那樣。


Blazing speed meets frontier performance。

極速性能,前沿體驗。

老規(guī)矩,先看跑分。



差不多在開源世界里,屬于第一梯隊水平,跟Kimi-K2 Thinking和DeepSeek-V3.2互有勝負。

跟閉源模型,也能掰掰手腕,但是坦誠的講,Gemini 3.0 Pro還是太強了。。。

在Artificial Analysis上,綜合排名也是開源第二。


不過這些跑分,我覺得現(xiàn)在大家看看就就行了,真正在技術(shù)報告里有比較有意思的創(chuàng)新的點,還是在于他們生為一個硬件為核心的公司,所一直追求的。

能跑多快,能跑多省。

小米,為發(fā)燒而生。

MiMo,為Reasoning而生。


在MiMo的世界里,最核心的,是速度、成本、是延遲。

是能不能把它塞進手機、塞進汽車、塞進一個能面向于普通消費者的未來里。


這次 MiMo-V2-Flash是個MoE模型,總參數(shù)309B,激活參數(shù)量15B。

基本上,跟DeepSeek-V3.2相比,MiMo-V2-Flash的推理成本略低,而推理速度大約是 V3.2 的三倍左右。

跟Gemini 2.5 Pro相比的話,MiMo-V2-Flash的推理速度接近,但推理成本大約低了20倍。

在價格上,達到了非常離譜的數(shù)據(jù)。


每百萬輸入token為0.1美元,每百萬輸出token為0.3美元。

這個數(shù)據(jù)有多離譜,我覺得還是需要放一下一些其他大模型價格對比。

GPT-5.2:$1.75/輸入,$14/輸出。

Gemini 3 Pro(<200k上下文):$2/輸入,$12/輸出。

Gemini 3 Flash:$0.50/輸入,$3/輸出。

Kimi K2 Thinking:$0.60/輸入,$2.50/輸出

DeepSeek-V3.2(思考模式):$0.28/輸出入,$0.43/輸出。

相信大家現(xiàn)在就知道, MiMo-V2-Flash的價格和性能對比,還有他的推理速度,有多離譜了,可能會是常規(guī)開發(fā)普惠的又一利器。

而整個模型里面,我覺得最棒的點,其實有兩個,一個叫長文本,一個叫吐字速度。

一個一個說。

先說長文本。

過去所有大模型做長文本,都會遇到一個非常樸素的問題,就是你讓它看的東西越長,它腦子里要記的上下文緩存(KV cache)就越大,算注意力的時候就越廢。

就比如說考試寫作文。

最傳統(tǒng)的大模型寫作文,大概是這樣的流程,就是每寫一個字,都要從頭到尾把自己剛寫的所有內(nèi)容,重新讀一遍想一遍,然后才敢寫下一個字。

寫到第1000個字時,你可以理解成,它已經(jīng)把前面999個字復(fù)習(xí)了999遍。

是不是聽著就很酸爽,如果想象不到有多痛苦的,大家現(xiàn)在可以自己試一試。。。

這其實就是所謂的全局注意力,就是你每添一個詞,大模型腦子里都要把前文全刷一遍,它很怕漏掉什么細節(jié)。

理論上,這樣最穩(wěn)妥、最嚴謹,但有一個致命問題,就是太費勁,太慢了。

就好像你在寫古詩,一邊寫一邊從第一頁開始把整本《唐詩三百首》背一遍,確認自己沒有撞韻,再寫下一個字。

非要用一個詞來描述這種行為,那我覺得,就是,自虐。

后來大家覺得不能這么算下去啊,要不然到時候就算你顯卡堆成一座山,速度也快不起來,更別提長文本了。

所以就有一大堆加速方法被發(fā)明出來了,什么注意力結(jié)構(gòu)、稀疏連接、特化硬件啥的都出現(xiàn)了。

小米的搞得這個Hybrid Attention,本質(zhì)上就干了一件特別樸素的事,承認一個現(xiàn)實,也就是人類看東西,不是每一秒都在看全局。

其實你讀小說的時候,其實也是局部認真,全局大概知道個意思。

你的眼睛,肯定主要盯著眼前這一兩頁,這是滑動窗口。

偶爾翻回前面看看人物關(guān)系圖、章節(jié)標題,這是全局注意。

MiMo-V2-Flash把這個節(jié)奏,直接寫進了模型結(jié)構(gòu)里。

它的大部分時間,只看最近的 128 個 token,就像你只記得眼前這一段對話,每隔一段,就抬頭看一下全局,防止走偏。

這就是MiMo-V2-Flash采用的全局注意力(GA)與滑動窗口注意力(SWA)1:5 的混合方案,長上下文下KV cache和注意力計算,能有接近6倍下降。。。

然后最有意思的事,他們還加了一個東西,叫“attention sink bias”。

你大概就可以理解成,讓模型可以把有些東西選擇性的不看,讓注意力沉底,不被各種噪音干擾。

人類其實也一樣,你坐在洗腳城大廳,旁邊有人吵架、有人刷短視頻、有人喊服務(wù)員,你不可能每句話都聽進去。你真正能活下去的能力,是你能把這些噪音當成背景音,眼神空焦一下,注意力直接沉下去,只抓你要的那點信息。

MiMo做的,就是把這種我選擇性忽略的能力工程化了。

更有意思的是,他們也做了實驗,沒有這個sink bias,性能會掉,加上以后不僅回來了,甚至能跟全局注意力打平甚至更好。

所謂MiMo-V2-Flash為了解決成本問題,其實做了不少有趣的事情,而且雖然看著很多技術(shù)名詞,但是本質(zhì)上,非常的生活化。

就是,承認記得太多也是負擔,學(xué)會在正確的地方選擇性忘記,把算力留給真正重要的部分。

長文本搞定之后,然后是第二個:吐字速度。

很多人以為大模型慢,是因為它不夠強。

其實更真實的原因是,就是大模型生成文字這件事,本質(zhì)上非常流水線,一口一口吐,吐一個才知道下一個。

就像你讓一個師傅現(xiàn)場寫春聯(lián),他寫完上聯(lián)最后一個字,才知道下聯(lián)第一個字怎么對,那速度怎么可能快的起來,還寫個屁。

所以,MiMo-V2-Flash也用了一個有趣的東西,叫Multi-Token Prediction(MTP,多詞預(yù)測)。


這玩意別被名字嚇到,其實也特別生活化。

本質(zhì)上就是,你別一個字一個字寫,你先打個草稿,一次性多寫幾個字,然后再快速檢查一遍,沒問題就直接用,有問題就退回重寫。

論文里會說得更技術(shù)一點,MTP可以作為“draft model”用于speculative decoding(推測解碼),也就是先草稿、后驗收的機制。

而且不是當一個工程上的外掛搞得,最開始的預(yù)訓(xùn)練階段,這玩意就直接塞了進去,讓模型學(xué)的一直就是先草稿、再檢查這套節(jié)奏。

在微調(diào)階段,又加了更多層MTP,把這種多字并行的本事練得更熟了。

等到真正上線推理的時候,它直接開三層 MTP 并行,就相當于你手下有三組實習(xí)生輪班打草稿,主模型坐在中間挑挑揀揀,最后形成一條流暢的回答。

結(jié)果就是你前面看到的那個很夸張的數(shù)字。

在實際場景里,三層MTP可以做到2到2.6倍的加速,單條回復(fù)能跑到150 token/s,全局吞吐可以拉到5000到15000 token/s。

我錄了一個回答,無加速,大家可以看看,20秒4000字,真的已經(jīng)非??炝?。

所以,其實通過上面這些有趣的東西,你就能看出來。

這個模型的特點了。

和DeepSeek-V3.2能力相近,但速度大概快三倍。

和Gemini 2.5 Pro能力接近,速度差不多,但成本低了近二十倍。

也就是,同樣干一份工,我能用更少的錢、更少的電、跑得更快、更穩(wěn)。

真的,對于一個硬件公司來說,這幾乎是刻在DNA里的執(zhí)念。

手機時代,小米喜歡在發(fā)布會上講同價位性能最強。

到大模型時代,它只是把同一套工程價值觀,搬到了另一個戰(zhàn)場。

我也大概測了一下模型的能力。

在代碼這塊,還挺有意思。

比如我之前測Gemini 3 Pro的時候,有一個體素3D世界的Prompt:

設(shè)計并創(chuàng)建一個非常有創(chuàng)意、精致且細節(jié)豐富的像素3D場景:一只胖乎乎的奶龍坐在一座美麗的花園中央,旁邊是小池塘、石燈籠和彎曲的小路,周圍長滿樹木,其中包括幾棵盛開的櫻花樹。讓整個場景足夠震撼、層次豐富,在不同高度和區(qū)域布置各種小細節(jié),比如長椅、小橋、石子路、草叢、花壇等,并使用色彩豐富的體素來表現(xiàn)??梢允褂萌魏螏靵硗瓿蛇@個效果,但要確保我能把所有內(nèi)容粘貼到一個單獨的 HTML 文件中,并直接在 Chrome 中打開。JavaScript 庫的引入方式請使用 importmap 和 ES 模塊(ESM)導(dǎo)入。

而這次我扔到MiMo-V2-Flash里,也一次性直出了。

各種交互啥的也都沒啥問題。

而且功能也都給你做全了,櫻花特效都能關(guān),也能自動旋轉(zhuǎn),最細節(jié)的事,奶龍脖子那里,還有一個會一閃一閃發(fā)光的小立方體,還挺精致的。

還有一個測模型svg能力的時候,一個Prompt:

做一個長滾動網(wǎng)頁,用 5 層以上視差背景和 SVG 插畫講一個小故事,滾動時觸發(fā)漸進式動畫和文字漸顯。


這塊完成的也不錯。


每個小動畫,屬實是都到位了。

比如前幾天,Gemini流星雨,我就想,讓Mimo給我做一個可以手勢控制的流星網(wǎng)頁。

對,就這么一個超級簡單的Prompt。


MiMo-V2-Flash一次成型。

像左揮手就是藍色流星,像右揮手,就是紅色流星。

然后我又基于這個,改了一個識別手勢,刮彩票的。

這次出了小小的BUG,不過對話兩次,也改成功了。

就非常的有意思,很好玩。

然后又一句話做了一個像素畫板。


也成功了。

整體看下來,代碼能力不差,不過坦誠的講,前端審美離最頭部的模型,還有一些差距。

在寫作上,直出效果還行。


但是還是會有中文大模型的堆砌詞藻空洞的問題,很多句子看著很華麗,但是其實比較的空,不包含任何信息量。

但是已經(jīng)比一些中文大模型好一些了。

而在文風(fēng)復(fù)刻任務(wù)上,其實也差不多。

這是我用我的文風(fēng)復(fù)刻的我自己的文章。


有些句子寫的不錯,而且那些經(jīng)常被惡心的不是...而是...句式基本沒用過,在很多時候,調(diào)一調(diào)還是可以的用的。

從更長遠一點看,小米做這件事的意義,我覺得還是會往硬件去。

當未來,真的萬物皆Agent的時候。

在手機、在車機、在路由器、在眼鏡上、在所有的智能家居里,那顆小小的模型,能不能跑得快、跑得穩(wěn)、跑得起。

這個是最重要的。

這也是,一家硬件公司最熟悉的戰(zhàn)場。

在這個戰(zhàn)場里,小米過去十幾年已經(jīng)證明過自己一次了,我到現(xiàn)在還記得我買小米1的興奮。

作為一個十年米粉,我真的也很想自私地說一句。

如果哪天我跑Agent、搭小網(wǎng)頁、操控我家里的所有家具,用的那顆本地小模型,背后跑的就是 MiMo,那會是一件挺讓人開心的事。

開源是一種表態(tài)。

工程是一種信仰。

看好小米。

以上,既然看到這里了,如果覺得不錯,隨手點個贊、在看、轉(zhuǎn)發(fā)三連吧,如果想第一時間收到推送,也可以給我個星標?~謝謝你看我的文章,我們,下次再見。

>/ 作者:卡茲克

>/ 投稿或爆料,請聯(lián)系郵箱:wzglyay@virxact.com

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

成都“牽手門”事件女主現(xiàn)今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
又一企業(yè)暴雷!四年造假161億,坑害13萬百姓,套現(xiàn)金額無法估量

又一企業(yè)暴雷!四年造假161億,坑害13萬百姓,套現(xiàn)金額無法估量

今墨緣
2026-04-02 04:51:11
這是目前為止,我見過腰最細的女生,沒有之一

這是目前為止,我見過腰最細的女生,沒有之一

草莓解說體育
2026-03-03 19:15:05
重磅!A股:央行釋放穩(wěn)定信號,三大交易所發(fā)聲,交易時間有變

重磅!A股:央行釋放穩(wěn)定信號,三大交易所發(fā)聲,交易時間有變

一盅情懷
2026-04-01 17:26:02
動物交配六親不認,雄性遇上自己母親怎么辦?馬不欺母是真的嗎?

動物交配六親不認,雄性遇上自己母親怎么辦?馬不欺母是真的嗎?

尋墨閣
2026-03-31 14:49:26
有其母必有其女!張柏芝母親風(fēng)流不輸女兒,55歲全裸拍三級片

有其母必有其女!張柏芝母親風(fēng)流不輸女兒,55歲全裸拍三級片

橙星文娛
2026-03-29 00:22:53
伊朗的導(dǎo)彈再次回升到每天50發(fā)的攻擊頻率,美國人懵了

伊朗的導(dǎo)彈再次回升到每天50發(fā)的攻擊頻率,美國人懵了

文昌每日談
2026-04-01 10:18:58
小米殺入外賣行業(yè),招招是陽謀,刀刀要美團的命

小米殺入外賣行業(yè),招招是陽謀,刀刀要美團的命

歪歌社團
2026-04-01 04:01:41
京東集團副總裁被開除!涉業(yè)績不達標+合規(guī)問題

京東集團副總裁被開除!涉業(yè)績不達標+合規(guī)問題

互聯(lián)網(wǎng)坊間八卦
2026-04-01 21:32:27
香港開往上海高鐵現(xiàn)大量蚊蟲,有乘客提前“逃”下車!鐵路部門致歉并分析初步原因

香港開往上海高鐵現(xiàn)大量蚊蟲,有乘客提前“逃”下車!鐵路部門致歉并分析初步原因

新浪財經(jīng)
2026-04-01 16:43:50
最高下調(diào)35個基點!“開門紅”結(jié)束多家銀行調(diào)降存款掛牌利率,短期產(chǎn)品成壓降重點

最高下調(diào)35個基點!“開門紅”結(jié)束多家銀行調(diào)降存款掛牌利率,短期產(chǎn)品成壓降重點

財聯(lián)社
2026-04-01 21:25:13
殯儀館燒尸人:一具遺體最少賣八千塊,年輕漂亮的女尸賣得更貴

殯儀館燒尸人:一具遺體最少賣八千塊,年輕漂亮的女尸賣得更貴

吳學(xué)華看天下
2024-08-15 14:45:07
伊朗:出動無人機,打擊西門子、AT&T分支機構(gòu)!以色列:空襲革命衛(wèi)隊空天部隊總部;特朗普:美國盟友必須介入霍爾木茲海峽問題

伊朗:出動無人機,打擊西門子、AT&T分支機構(gòu)!以色列:空襲革命衛(wèi)隊空天部隊總部;特朗普:美國盟友必須介入霍爾木茲海峽問題

每日經(jīng)濟新聞
2026-04-01 00:46:06
無錫5號線徹底殺瘋了!這條遲到的地鐵換乘王強勢來襲,將一口拿下老城核心發(fā)展紅利?

無錫5號線徹底殺瘋了!這條遲到的地鐵換乘王強勢來襲,將一口拿下老城核心發(fā)展紅利?

童童聊娛樂啊
2026-04-01 18:20:35
澳門世界杯!2大世界冠軍被淘汰,國乒大潰敗,孫穎莎迎大挑戰(zhàn)

澳門世界杯!2大世界冠軍被淘汰,國乒大潰敗,孫穎莎迎大挑戰(zhàn)

小徐講八卦
2026-04-02 05:39:37
巴薩門將霍安·加西亞完成國家隊首秀,有人歡呼有人辱罵

巴薩門將霍安·加西亞完成國家隊首秀,有人歡呼有人辱罵

星耀國際足壇
2026-04-02 00:54:47
張伯倫:本以為被塞維利亞3-3追平會挨罵,但紅軍球迷沒這樣

張伯倫:本以為被塞維利亞3-3追平會挨罵,但紅軍球迷沒這樣

懂球帝
2026-04-02 06:12:36
此刻,王鈺棟才意識到本土球星和世界球星的差距

此刻,王鈺棟才意識到本土球星和世界球星的差距

中場陰謀家
2026-04-01 23:14:01
美防長指責(zé)中俄援伊,威脅遲早算賬,特朗普:正與伊朗新政權(quán)談判

美防長指責(zé)中俄援伊,威脅遲早算賬,特朗普:正與伊朗新政權(quán)談判

悲傷逆流成河水
2026-04-02 04:20:38
淚崩!前夫探望熟睡女兒,輕吻告別留下?lián)狃B(yǎng)費,單親媽媽糾結(jié)復(fù)婚

淚崩!前夫探望熟睡女兒,輕吻告別留下?lián)狃B(yǎng)費,單親媽媽糾結(jié)復(fù)婚

火山詩話
2026-04-01 07:36:30
2026-04-02 07:07:00
數(shù)字生命卡茲克 incentive-icons
數(shù)字生命卡茲克
反復(fù)橫跳于不同的AI領(lǐng)域,努力分享一些很酷的AI干貨
488文章數(shù) 612關(guān)注度
往期回顧 全部

科技要聞

甲骨文血洗3萬人,47人團隊僅留3人

頭條要聞

伊朗自殺無人機突進北印度洋 逼退“林肯”號航母

頭條要聞

伊朗自殺無人機突進北印度洋 逼退“林肯”號航母

體育要聞

NBA擴軍,和籃球無關(guān)?

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財經(jīng)要聞

電商售械三水光針 機構(gòu)倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態(tài)度原創(chuàng)

游戲
時尚
教育
家居
本地

法國零售商PS5 Pro以舊換新!Slim能折抵500歐元

襯衫當外套,好時髦

教育要聞

漫畫類作文難在你看不透畫面背后的信息

家居要聞

經(jīng)典配色 晝色銀河

本地新聞

從學(xué)徒到世界冠軍,為什么說張雪的底氣在重慶?

無障礙瀏覽 進入關(guān)懷版