鳳凰網(wǎng)科技訊 3月19日,小米發(fā)布面向Agent時(shí)代的全模態(tài)基座模型Xiaomi MiMo-V2-Omni。該模型從底層構(gòu)建融合文本、視覺、語音的全模態(tài)架構(gòu),將感知與行動(dòng)深度綁定,原生支持多模態(tài)感知、工具調(diào)用、函數(shù)執(zhí)行及GUI操作能力。
![]()
在正式發(fā)布前,小米將一個(gè)早期測(cè)試版本以“Healer Alpha”為代號(hào)匿名上架OpenRouter。上線期間調(diào)用量持續(xù)攀升,在OpenClaw測(cè)評(píng)榜單PinchBench上取得均分第一。
據(jù)官方介紹,MiMo-V2-Omni在音頻理解方面支持環(huán)境聲分類、多說話人分離、音頻-視覺聯(lián)合推理及超10小時(shí)長(zhǎng)音頻理解,綜合表現(xiàn)超越Gemini 3 Pro。圖像理解方面,在多學(xué)科視覺推理與復(fù)雜圖表分析任務(wù)中超越Claude Opus 4.6,逼近Gemini 3 Pro等閉源模型水平。視頻理解方面支持原生音視頻聯(lián)合輸入,具備情境感知與未來推理能力。
![]()
智能體能力方面,該模型可在與真實(shí)數(shù)字環(huán)境交互的評(píng)測(cè)基準(zhǔn)上比肩Gemini 3 Pro。在Browser Use場(chǎng)景中,結(jié)合OpenClaw框架可實(shí)現(xiàn)瀏覽器操控,完成信息檢索、比價(jià)、與客服交互及下單等任務(wù)。與金山辦公合作,接入WPS Office后,模型可根據(jù)指令生成Word文檔、結(jié)構(gòu)化Excel、排版規(guī)范的PDF及PPT。
![]()
![]()
MiMo-V2-Omni已開放API服務(wù),支持256K上下文長(zhǎng)度,輸入0.4元/百萬tokens,輸出2元/百萬tokens。小米聯(lián)合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent開發(fā)框架團(tuán)隊(duì),為全球開發(fā)者提供為期一周的限時(shí)免費(fèi)接口支持。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.