337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

實測 MiniMax M2.7:AI 狠起來,連自己都卷

0
分享至


龍蝦爆火之后,全網的注意力都盯著「它該怎么用」——本地部署還是云端、一鍵安裝還是敲命令、要不要接微信飛書……反而沒人再認真問那個老問題:驅動龍蝦的那顆「大腦」,夠不夠聰明?

這倒不奇怪。OpenAI 和 Google 最近發(fā)布的幾款新模型,清一色都是 Mini、Flash 款,官方潛臺詞幾乎寫在臉上:專門給 Agent 大量消耗 Token 準備的。

模型本身的能力邊界,反而成了最不被討論的話題。


一個真正適配龍蝦的模型,除了 Token 要量大管飽還實惠,更多的是模型要足夠聰明、動手能力和學習能力足夠強。

最近,MiniMax 正式推出了全新的 MiniMax M2.7 模型,主打「開啟 AI 的自我進化」和做「最強的 Cowork Agent 模型」,既能處理代碼工作、常見的 Office 任務,還能主動學習構建穩(wěn)定的 Agent 系統(tǒng)。


具體來說,它能做好的工作比大多數模型要更寬。對于寫代碼,M2.7 能真正理解一個系統(tǒng)在運行時發(fā)生了什么,做到了 SRE(網站可靠性工程)級別的系統(tǒng)推理,看日志、關聯時間線、推斷根因、給出有優(yōu)先級的處理方案。新模型在 SWE-Pro 上跑了 56.2%,幾乎追平 Opus 4.6。

辦公場景里它已經夠用了。 Excel、Word、PPT 的復雜編輯和多輪修改,M2.7 在這塊有明顯提升,金融分析這類需要專業(yè)知識 + 格式交付的場景尤其明顯。不能說它可以完全替代專業(yè)人士,但是真正進入工作流,作為輔助完全可以。

它在多 Agent 協作里不會「斷掉」。 這是 M2.7 專項打磨的能力,多角色場景下邊界清晰,面對包含 50+ Skills 的復雜環(huán)境,依然能保持極高的指令遵循能力。

然后是這次更新的重點,它開始參與優(yōu)化自己了。 MiniMax 說 M2.7 是他們第一個深度參與迭代自己的模型,不只是「輔助迭代」,是「深度參與迭代自己」。能夠自我進化,M2.7 可以自主迭代 Agent Harness(智能體腳手架)來勝任大部分的工作流。

實戰(zhàn)能力的提升,也讓 MiniMax M2.7 一發(fā)布就在龍蝦榜上迅速攀升,來到了最高分排行榜的第四名。


▲PinchBench 排行榜是為 OpenClaw 量身定做的模型評估基準,它測試的是大模型在 OpenClaw 真實業(yè)務場景下的表現,圖中為任務成功率指標,MiniMax M2.7 排名第四,在 Claude Opus 4.6 之后|https://pinchbench.com/

我們也在 Claude Code、本地部署的龍蝦里,都接入了 MiniMax M2.7 模型,以及 MiniMax 提供的 MaxClaw,然后把真實的開發(fā)過程中遇到的 Bug、枯燥的金融數據,還有大量的長流程任務統(tǒng)統(tǒng)交給它。

兩天的測試下來,我們發(fā)現不僅軟件要為了 AI 重做,就連 AI 模型本身,除了要理解人類的用意和產出人類滿意的結果,模型更需要懂得 AI 的工作方式和工作流,還得學會自己優(yōu)化自己

用 AI 的工作流當人類的助手

在 OpenClaw 等 Agent 框架爆火后,真正的「AI 時代工作流」應該是,AI 作為核心運轉樞紐,去調用幾十個工具、去指揮其他 AI 隊友、甚至去優(yōu)化 AI 自己的代碼。

在測試 MiniMax M2.7 是如何自我進化之前,我想先看看它的 AI 工作流如何。它到底是不是一個好用的 Agent 模型,還是說拿去跑個 benchmark 好看,實際用起來一言難盡。

我們從知名的機器學習挑戰(zhàn)賽 Kaggle 的網站上下載了一份股票的歷史數據,然后按照比賽的要求,告訴 MiniMax M2.7 幫我實現對應的需求,即根據給定的數據,進行合適的數據處理和特征工程,為我生成一份可視化的分析報告。

整個數據集的內容相當龐大,有超過 3000 行的表格數據,整體文件大小來到 446.35 MB。把 5 個表格數據文件下載到本地之后,我們使用接入了 MiniMax M2.7 的 Claude Code 來完成這項工作。


要做好這份分析,需要模型是個數據分析師完成數據清洗和整理、宏觀分析師完成對應的金融市場的洞察、統(tǒng)計分析師完成初步的數學建模、算法工程師要建立對應的模型,最后還有網頁工程師要交出一個可視化的方案。

面對這樣一個復雜的任務,MiniMax M2.7 充分利用了我已經安裝的各種 Skills,它先使用 Anthropic 官方提供的 xlsx 完成了表格數據結構的信息讀取,接著開始編寫 Python 代碼,自動安裝 Pandas 庫(常用來處理表格數據),一步一步進行。


最后,MiniMax M2.7 也交出了一份完整的可視化方案,它同時生成了多張圖片用來展示收益率分布,不同特征的重要性和類別排名,以及綜合儀表盤。


而在可視化的網頁里,它利用 Streamlit 庫將數據腳本直接轉成了可交互的網頁系統(tǒng),所有的信息都可以直接動態(tài)查看。


這種大型的項目任務,MiniMax 能夠順利完成,我們日常工作中的辦公和編程任務,就更不用說了。

我們先是在手機上操作龍蝦,讓它幫我總結我放在電腦上的文件,然后要求 MiniMax M2.7 根據這份文件,幫我寫一個研究計劃 Word 文件,再整理一份相關論文的 Excel 文檔,最后是一個用來組會做匯報的 PPT 文檔,直接在手機上就能操作。


▲接入 MiniMax M2.7 的龍蝦能快速回應需求


▲Office 三件套的處理如今是不在話下

在辦公領域的優(yōu)勢,也讓 MiniMax M2.7 在衡量專業(yè)知識與任務交付能力的 GDPval-AA 評測中,ELO 得分達到了 1495,國產模型最高。

前段時間,AI 工作助手的可視化面板很火,把龍蝦放到了真實的二次元風格辦公室里,用一句話就能安裝到自己的 OpenClaw。我們也成功讓這只 Appso 小龍蝦有了自己的家,但是如果我想要修改二次元房間布局,可以怎么做呢?交給 MiniMax。


在 OpenClaw 的可視化本地界面里,我們直接發(fā)送「我想修改這個小房子的風格該怎么做?」,MiniMax M2.7 會自動閱讀項目的代碼,然后告訴我們哪些地方是可以修改的,如何修改。


由于我輸入的要求是科技編輯部辦公室的風格,然后它就幫我修改成了有星球大戰(zhàn)的海報,還加了十幾個人坐在電腦前面碼字。

不過我們沒有在 OpenClaw 內配置 Nano Banana Pro 的 API Key,所以 MiniMax M2.7 在 OpenClaw 里幫我選擇了用代碼的方式來生成簡單的圖片。


接著和它聊天,我們還能根據這個風格設計一個編輯部大亨的游戲,誰做的任務多,誰的辦公室就大,就能升級。


如果是 MiniMax 官方的 MaxClaw,是直接支持多模態(tài)的生成,可以一步到位生成視頻、音頻、圖片等,不需要配置額外的 API。

我們使用官方提供的 gif-sticker-maker Skill 生成了幾張馬斯克的表情包。云端部署的 MaxClaw 能確保運行環(huán)境的足夠安全,但是它不允許我們像操作本地電腦一樣,任意安裝不同的庫文件。

最后在將視頻轉成 GIF 時,MaxClaw 提醒我,它沒有足夠的權限將 ffmpeg(一個開源的多媒體處理庫)安裝到云端服務器上。


▲在 MaxClaw 內可以直接使用 MiniMax M2.7,它會自動調用海螺等視頻、音頻和圖片生成模型,為我們生成多媒體文件,而不需要額外配置專門的 API KEY。

點擊 MaxClaw 對話框下面的技能,我們就能看到所有安裝在 MaxClaw 的 Skills 詳情,并且點擊「問問 MaxClaw」,它會自動編輯一條消息「告訴我 frontend-dev 能做什么,并告訴我如何使用它」,引導我們學習如何使用這項 Skill。


除了 GIF 生成這個 Skill,MiniMax 還提供了包括前端開發(fā)、全棧后端、安卓和 iOS 應用開發(fā)以及創(chuàng)作驚艷視覺效果的 GLSL 著色技術等技能庫,我們可以直接在龍蝦里發(fā)送「你能幫我安裝這個項目里的 Skill 嗎 https://github.com/MiniMax-AI/skills」,龍蝦會自動獲取 Skill 文檔完成安裝。


▲下載鏈接:https://github.com/MiniMax-AI/skills

AI 狠起來,連自己都卷

除了在日常工作和辦公領域上表現出的完整工作流,以及實際的交付能力,MiniMax M2.7 最讓我們感到特別的,還有它展現出的「模型自迭代閉環(huán)」。

MiniMax 曾提到人類研究員只需要把控大方向,把構建系統(tǒng)的任務交給模型,它就能以解決方案架構師的身份自主搭建開發(fā) Agent harness。

Agent harness 可以理解成套在 AI agent 外面的一層運行基礎設施。模型負責思考,harness 負責把這個「會想」的東西,變成一個能穩(wěn)定干活的系統(tǒng)。這個系統(tǒng)像是運行層,負責讓 agent 在真實環(huán)境里穩(wěn)定運行。


為了測試 M2.7 的極限,MiniMax 讓它去優(yōu)化某個內部腳手架的軟件工程表現。結果,M2.7 全程零人工干預,硬生生跑出了一個超過 100 輪的迭代循環(huán)。

它自己分析失敗軌跡,自己規(guī)劃改動,改完腳手架代碼再去跑評測,最后對比結果決定是保留還是回退。在不停歇自我互搏中,它自己發(fā)現了最優(yōu)解,最終讓評測集上的效果飆升了 30%。

這種「AI 搞科研」的能力也在公開的測試集上得到了驗證,MiniMax M2.7 被扔進了全球最大的機器學習競賽 Kaggle 的 MLE Lite 測試集。


22 道高難度競賽題,M2.7 依靠內部的短時記憶文件和自反饋機制,每跑完一輪就給自己提優(yōu)化建議。

24 小時內,它一舉拿下了 9 枚金牌、5 枚銀牌、1 枚銅牌,得牌率 66.6%。

這個成績,僅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),與 Gemini-3.1 直接打平。

當一個模型能夠以解決方案架構師的身份,僅用 1 人 4 天時間,零人工編碼就搭出一套包含測試和代碼審查的 Agent 系統(tǒng)時,AI 研發(fā)的齒輪,大概已經換上了自動擋。

在極其硬核的生產力之外,MiniMax M2.7 的底層框架也賦予了它長程穩(wěn)定的記憶和極強的情商,這讓它在互動角色扮演(Roleplay)上,比傳統(tǒng)的閑聊機器人表現要好上不少。

官方在 GitHub 上開源了一個多模態(tài)交互系統(tǒng) OpenRoom,一個萬物皆可互動的 Web GUI 空間,可以實時地讓 AI 與空間產生不同的交互。

AI 開始學會「自己工作」,這件事比寫好代碼更重要

體驗下來,MiniMax M2.7 真正讓我們在意的,不是它把 Kaggle 競賽刷出了 66.6% 的得牌率,也不是 Office 三件套交付得足夠干凈。

而是它在試圖解決一件更底層的事:讓 AI 真正理解工作流,并且參與到工作流的演化里

過去,軟件是人寫的、人用的。現在,AI 開始寫軟件、改軟件、用軟件。當一個模型能夠在沒有人工編碼的情況下,自己搭系統(tǒng)、自己測試、自己回退——「AI 研發(fā)」這件事的齒輪,某種程度上已經換上了自動擋。

所謂「龍蝦到底該怎么用」,我想很快就不再是一個問題——因為決定這一切的,不再是我們。

而是那個,開始學會自己工作的 AI。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中圈絕殺!19分驚天逆轉!狀元熱門出局!

中圈絕殺!19分驚天逆轉!狀元熱門出局!

左右為籃
2026-03-30 12:35:10
金價一夜變天!2026年3月30日最新報價,全國價差竟這么大!

金價一夜變天!2026年3月30日最新報價,全國價差竟這么大!

藍色海邊
2026-03-30 12:00:37
一張70億刀的“NBA門票”,勸退了詹姆斯

一張70億刀的“NBA門票”,勸退了詹姆斯

體育大生意
2026-03-29 10:20:30
這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個又一個“無敵”武器神話

這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個又一個“無敵”武器神話

策略述
2025-11-12 18:42:46
日本博主印度游因拒絕給錢慘遭潑“牛糞”!住院4天,頓頓被咖喱暴擊,悲提15萬的賬單!

日本博主印度游因拒絕給錢慘遭潑“牛糞”!住院4天,頓頓被咖喱暴擊,悲提15萬的賬單!

東京新青年
2026-03-29 17:35:01
官宣離婚才幾天,姚晨就和曹郁聯手,給內娛所有離異夫妻上了一課

官宣離婚才幾天,姚晨就和曹郁聯手,給內娛所有離異夫妻上了一課

TVB的四小花
2026-03-30 12:01:06
致敬!一批見義勇為勇士事跡公布

致敬!一批見義勇為勇士事跡公布

北青網-北京青年報
2026-03-30 09:18:15
看完《逐玉》,再看《白日提燈》,我想說:沒有對比就沒有傷害!

看完《逐玉》,再看《白日提燈》,我想說:沒有對比就沒有傷害!

梁蜱愛玩車
2026-03-30 11:21:23
打!傾家蕩產也要打!以色列最新民調:75%民眾要求和伊死磕到底

打!傾家蕩產也要打!以色列最新民調:75%民眾要求和伊死磕到底

聞識
2026-03-30 10:56:22
汪涵現身張雪峰葬禮,神情哀傷送別好友!妻子和女兒皆現身告別式

汪涵現身張雪峰葬禮,神情哀傷送別好友!妻子和女兒皆現身告別式

娛樂團長
2026-03-28 18:39:35
女子家門未關嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應事件進展

女子家門未關嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應事件進展

大風新聞
2026-03-29 13:28:09
55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態(tài)是吃了防腐劑吧

55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態(tài)是吃了防腐劑吧

觀魚聽雨
2026-03-29 16:26:45
U17世界第一又如何!29歲國乒老將3-1日乒新星:13年的經驗碾壓

U17世界第一又如何!29歲國乒老將3-1日乒新星:13年的經驗碾壓

顏小白的籃球夢
2026-03-30 11:46:49
難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

銘記歷史呀
2026-03-21 17:44:21
80年我提干營長,妹妹懷孕來看望我,可首長見到她卻當場愣住了

80年我提干營長,妹妹懷孕來看望我,可首長見到她卻當場愣住了

紅豆講堂
2025-03-22 10:30:08
四大運營商合并,要提上議程了?

四大運營商合并,要提上議程了?

最通信
2026-03-28 20:27:43
騎士與哈登將達成一份兩年合同,泰森和韋德因傷缺席三連客

騎士與哈登將達成一份兩年合同,泰森和韋德因傷缺席三連客

星Xin辰大海
2026-03-30 11:54:00
單依純演唱會一半歌曲都是翻唱!《李白》侵權,演唱會刪除這首歌

單依純演唱會一半歌曲都是翻唱!《李白》侵權,演唱會刪除這首歌

觀魚聽雨
2026-03-29 22:55:38
車管所正式通知:C1駕照2取消1增加已執(zhí)行,車主抓緊了解

車管所正式通知:C1駕照2取消1增加已執(zhí)行,車主抓緊了解

復轉這些年
2026-03-30 12:26:56
曼市雙雄爭奪英格蘭國腳!23歲身價已過億,紅魔愿提供核心待遇

曼市雙雄爭奪英格蘭國腳!23歲身價已過億,紅魔愿提供核心待遇

體壇鑒春秋
2026-03-30 12:30:50
2026-03-30 13:15:00
愛范兒 incentive-icons
愛范兒
消費科技第一媒體
38625文章數 2601369關注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務恢復

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

本地
游戲
數碼
公開課
軍事航空

本地新聞

用Color Walk的方式解鎖城市春日

《王者榮耀》3A新作搶注昵稱!昵稱唯一 先到先得

數碼要聞

AMD Zen6來了!下代EPYC Venice工程樣品曝光:三款測試平臺齊亮相

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美兩棲攻擊艦載3500名增援到達

無障礙瀏覽 進入關懷版