![]()
還記得 MiniMax M2.1 剛發(fā)布的時候,大家都在聊它怎么幫我們讀懂那些陳年舊代碼,維護起存量業(yè)務來確實省心不少。但隨著我們把 AI 真正融入到日常工作流里,核心痛點其實已經變了。現在的開發(fā)者不僅僅需要一個能看懂代碼的助手,更需要一個能幫我們快速把想法變成產品的創(chuàng)造者。
昨晚,MiniMax M2.5 正式全球發(fā)布。這次更新極其硬核:綜合能力硬剛 Claude Opus 4.6,編程跑分刷新行業(yè) SOTA,推理速度飆升到 100 TPS,關鍵是加量不加價。它不再滿足于只做簡單的輔助開發(fā),而是進化成了一個高吞吐、強規(guī)劃的執(zhí)行主力。
在這次測評里,我打算跳過那些虛頭巴腦的跑分,直接上實戰(zhàn)。我們要驗證的是 M2.5 在繼承了前代理解力的基礎上,能不能靠著極致的響應速度和執(zhí)行力,解決全棧開發(fā)和復雜任務規(guī)劃中的實際問題,真正成為獨立開發(fā)者手里那個能落地的生產力工具。
編程能力實測,硬剛全棧項目
大家心里都清楚,獨立開發(fā)者這行,AI 能不能干活,關鍵就看三點:能不能寫出那種一看就很復雜的界面、能不能搞定強類型的復雜邏輯、能不能把前后端真正串起來跑通。所以這次直接上了三個難度遞增的真實開發(fā)場景,看看 MiniMax M2.5 到底能不能扛得住。
首先測的是 M2.5 的審美和圖形算法能力。我給出的題目是生成一個獨立開發(fā)者的個人作品集落地頁,視覺指令非常具體:賽博朋克風格、深色背景、霓虹光效,最刁鉆的要求是背景必須是一個基于 Canvas 的交互式粒子系統,鼠標移動時粒子要有磁性排斥效果。
![]()
這里的表現確實有點驚喜。MiniMax M2.5 給出的是一個單文件的 HTML,我直接扔進瀏覽器打開,效果一次性就跑通了。代碼沒有簡單地堆砌圖片,而是真的用 JavaScript 在 Canvas 上寫了一套粒子物理邏輯。鼠標劃過的時候,粒子的排斥感非常絲滑,配合 Bento Grid 布局和霓虹配色,頁面完成度很高。通常模型寫 Canvas 很容易出現邏輯死循環(huán)或者卡頓,但 M2.5 處理這種視覺邏輯表現得比較穩(wěn)。
![]()
接下來難度升級,iOS 開發(fā)一直是 AI 生成代碼的重災區(qū),SwiftUI 的語法更新快,類型檢查又嚴,稍微錯一點編譯器就報錯。這次讓 MiniMax M2.5 做一個 TravelMind 應用,這是一個模擬多智能體協作的旅行規(guī)劃 App。難點在于架構:需要用 Swift 的并發(fā)模型來管理狀態(tài),還要在界面上實時展示思維日志和自我修正的過程。
![]()
把提示詞發(fā)過去,我特別強調了要先進行內部模擬測試。有一說一,這一關并不是一次性完美通過的。把代碼復制到 Xcode 后,編譯器報了幾個類型匹配和并發(fā)上下文的錯誤。這在預期之內,畢竟 Swift 極其嚴格。關鍵在于修復過程,我直接把 Xcode 的報錯信息丟回給 M2.5,結合在提示詞里預設的自我測試協議,模型迅速定位到了主線程更新 UI 的問題,并給出了修正后的代碼。
![]()
修復后的 App 邏輯運行流暢,頂部的思維日志能實時滾動顯示 Agent 的思考過程,模擬 API 失敗后的重試邏輯也跑通了。這證明了雖然在強類型語言上不能保證百分百零錯誤,但代碼邏輯結構是清晰的,具備不錯的可維護性和自我修復能力。
![]()
最后一關是終極測試,構建一個完整的全棧系統:后端用 Python FastAPI,前端用 Next.js,數據庫用 SQLite。這次換了個策略,不直接生成代碼,而是先讓模型根據需求寫一份技術文檔,再根據文檔生成項目。
![]()
這個流程非常順暢。M2.5 先是生成了一份詳細的 API 接口定義和數據庫設計文檔,就像是一個高級工程師在寫代碼前先做好了技術方案。在生成具體代碼時,前后端的交互邏輯比較嚴密。雖然我在運行的時候出現了一些小問題,但在指出問題后,模型立馬就修正了。
![]()
最終成功運行了一個包含增刪改查功能的文章管理系統。從數據庫設計到前端展示,整個鏈路是打通的。這說明 M2.5 在處理多文件上下文和復雜全棧邏輯時,不僅思路清楚,而且能像個老手一樣先規(guī)劃后執(zhí)行。
![]()
從前端視覺的精細控制,到強類型語言的邏輯修正,再到全棧系統的架構落地,這三個案例充分驗證了 M2.5 處理復雜工程鏈路的綜合實力。
![]()
智能體與辦公能力實測,深度調研和辦公能力上手
寫代碼只是開發(fā)者工作的一部分,更多時候,我們還得戴上產品經理或者運營的帽子,去搞市場調研、做匯報 PPT。這時候,我們需要的就不只是一個代碼補全工具,而是一個能幫我們查資料、理邏輯、搞設計的全能搭子。
這一環(huán)節(jié),我跳出了代碼編輯器,直接在網頁端測試 M2.5 作為 Agent 的綜合辦公能力。
先測一個硬核的深度市場調研。在項目啟動前,深度的市場調研往往比代碼實現更關鍵。為了測試模型在商業(yè)邏輯上的推演能力,我模擬了一個 B2B SaaS 創(chuàng)業(yè)者的身份,給 M2.5 提了一個非常刁鉆的需求,要寫一份 2025 到 2026 年全球與中國 CRM 市場的深度機會分析與戰(zhàn)略報告。
![]()
說實話,這個任務丟給初級的人類分析師都得這就好幾天,但 M2.5 的執(zhí)行效率很高。模型沒有直接開始瞎編,而是啟動了多輪深度搜索,看截圖里密密麻麻的任務列表,從 crm market data 2025 到 saas subscription fatigue,再到垂直領域的 vertical crm champions,覆蓋面非常廣。最細節(jié)的是,搜索結束后它還有一個整合材料的動作,專門去讀取工作空間里的 research_history_record.json 記憶文件。這一套搜索、回憶、整合的連招,說明它是在真查數據、真思考,而不是在用訓練數據里的舊知識硬湊。
![]()
最終生成的報告含金量非常高。內容上更不是簡單的文字堆砌,而是給出了極具說服力的數據支撐,比如它精準對比出 AI CRM 的增速超過 120%,而傳統 CRM 只有 8.7%,直接把市場斷層擺在了臺面上。在分析用戶痛點時,它甚至量化了數據錄入的成本,指出銷售每周要浪費 5 到 6 小時在手動填表上。這種從宏觀市場數據到微觀五大核心洞察的完整邏輯,幾乎可以直接拿去給投資人匯報。M2.5 這種處理長鏈路復雜邏輯的穩(wěn)定性,確實能把很多初級分析師的工作給替代了。
![]()
搞定了調研,還得能做匯報。第二個測試選了辦公場景里最頭疼的 PPT 制作。為了測試模型的多模態(tài)審美上限,我沒讓 M2.5 做那種千篇一律的商務風,而是點了個變態(tài)辣的風格組合,做一份關于深海生物發(fā)光機制的百科全書,主體生物要是半透明吹制玻璃質感,背景卻要是達芬奇式復古工程手稿。
![]()
這種現代玻璃藝術撞上古老羊皮紙的需求,對模型的語義理解和畫面生成能力要求極高。M2.5 首先生成了一個網頁版的演示文稿。第一眼看過去,視覺沖擊力很強,模型真的理解了什么叫玻璃質感的生物,水母和深海魚在泛黃的羊皮紙背景上呈現出一種晶瑩剔透的反差美。而且內容不是簡單的只有圖,每頁都配有詳細的生物學分類和發(fā)光原理公式,信息密度完全達標。
![]()
不過,光有網頁版在職場上是不夠的。我緊接著追問了一句,讓模型提供可編輯的文件。M2.5 響應把這個網頁版轉換成了標準的 PPTX 格式供下載。這里要客觀說一下,下載后打開,所有的文本框、圖片位置都是可編輯的,這點很好,但是部分復雜的排版在轉換后會出現錯位,需要手動微調一下布局。但作為底稿來說,這已經比從零開始找素材拼湊快了不知道多少倍。
![]()
![]()
原生 Agent RL 架構與極致推理效能
測完應用層,很多朋友可能好奇,M2.5 只有10B 的激活參數,憑什么敢在編程和邏輯推理上硬剛 Claude Opus 4.6 這種龐然大物。這就得聊聊模型背后的技術路徑。簡單說,MiniMax 這次沒在堆參數上死磕,而是把技能點全點在了大規(guī)模強化學習上。
以前的大模型訓練往往只看結果,中間過程錯了也沒人管。但 M2.5 基于自研的Forge 原生 Agent RL 框架,引入了Process Reward 過程獎勵機制。這意味著模型每推理一步、每寫一行代碼,都有一個反饋機制在打分。更有意思的是,它演化出了一種原生 Spec 行為,就像一個真正的架構師,在動手寫代碼前會主動拆解功能和 UI 設計。這就是為什么在剛才的 iOS 開發(fā)測試里,即使遇到報錯,模型也能迅速自我修正,因為 M2.5 學到的不僅僅是答案,更是解決問題的正確路徑。
為了支撐這種高強度的訓練,官方采用了一種樹狀合并訓練樣本的策略,直接把訓練速度拉升了40 倍。這種恐怖的迭代效率,讓 M2.5 能夠快速適應數十萬個真實的復雜環(huán)境。體現在數據上,它在SWE-Bench Verified這種硬核榜單上的通過率達到了 80.2%,比上一代快了 37%。
聊完技術,再來說說這個體量對開發(fā)者意味著什么。最直接的好處就是快和省。
大家在用大模型的時候,最怕的就是模型吞吞吐吐,思路都斷了。M2.5 的推理速度能飆到100 TPS,這幾乎是主流旗艦模型的兩倍。基本上眨眼功夫,模型已經寫完了一屏代碼。而且成本極低,在 100 TPS 的滿速狀態(tài)下,連續(xù)工作一小時只需 1 美金。這種幾乎無成本約束的特性,讓全天候在線的智能體在經濟上成為了可能。
對于企業(yè)和極客來說,這也意味著私有化部署的門檻被極大地拉低了。以前想在本地跑個像樣的旗艦模型,光顯卡投入就得勸退一波人。現在 M2.5 這種高能效比的模型,意味著不需要昂貴的 H100 集群,在消費級顯卡甚至邊緣設備上就能跑起來。這對于那些對數據隱私極其敏感,或者需要在離線環(huán)境下跑 Agent 的業(yè)務來說,絕對是個好消息。
當然,也要客觀指出小參數帶來的物理局限。對于一些極其冷門或者年代久遠的百科知識,M2.5 的裸腦記憶庫可能不如那些千億參數的大模型那么包羅萬象。但這在實際工作中其實不是大問題,因為 M2.5 在BrowseComp等搜索評測中達到了行業(yè) SOTA,遇到不懂的知識點,模型會用更精準的搜索策略自己去查,剛好彌補了參數量上的差距。
![]()
結語
測完這一圈,從寫網頁到修 Bug 再到做報告,MiniMax M2.5 給人的感覺就是痛快。
核心優(yōu)勢很明顯,首先就是快。100 TPS 的響應速度對于寫代碼這種需要專注的工作來說非常重要,不用盯著光標發(fā)呆,想法剛出來,代碼就已經鋪滿了屏幕。而且代碼可用率很高,M2.5 在處理全棧邏輯時的表現是能落地的。再加上 10B 參數帶來的私有化部署優(yōu)勢,對于那些想在本地跑大模型,或者對數據隱私有要求的團隊來說,這就是個能部署在自家服務器的高性價比方案。
至于適合誰用,我覺得獨立開發(fā)者、中小企業(yè)技術團隊,還有那些天天處理表格文檔的重度辦公用戶,都可以把 M2.5 當作日常的主力輔助工具。
最后想說的是,在當前階段,M2.5 代表了一種更務實的趨勢。對于大多數人來說,并不需要一個參數巨大但反應遲鈍的模型,需要的是一個隨叫隨到、執(zhí)行力強、成本還低的高效助手。在高能效比和極致速度面前,盲目追求大參數其實沒那么重要,能幫把活干完才是硬道理。
建議大家去體驗一下這種極致的推理速度,或者嘗試在本地部署一下,感受一下私有化 Agent 的魅力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.