網易首頁 > 網易號 > 正文申請入駐

MiroThinker-1.5智能體模型，30B評測性能超越1T模型

2026-01-11 17:48:26　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區，始終堅持“中立、開放、共建、共創、合作”五項基本原則，歡迎加入共同成長。

MiroMind 由全球知名創新企業家、慈善家陳天橋，與清華大學知名 AI 青年學者代季峰教授聯合發起，團隊曾憑借成功預測 Polymarket （全球最大的去中心化預測市場）題目，連續登頂 Future X 全球榜首。

近期，團隊又率先開源搜索智能體模型——MiroThinker 1.5，該智能體模型在多個搜索智能體基準測試中躋身全球第一梯隊，超過ChatGPT-Agent、Seed-1.8、DeepSeek-3.2等模型。MiroThinker 1.5已上線始智AI-wisemodel開源社區，歡迎大家前去體驗。

模型地址

https://wisemodel.cn/models/MiroMind/MiroThinker-v1.5-30B

01.

杰出的性能表現

MiroThinker-v1.5-30B 僅用1/30的參數規模跑出了比肩眾多 1T 模型的性能表現，其 235B 的版本在多個搜索智能體基準測試中躋身全球第一梯隊。

在BrowseComp上，位列全球第一。

BrowseComp 性能對比

在四項基準測試中的表現杰出：

HLE-Text（人類終極測試）：39.2%
BrowseComp（網頁檢索類大模型基準測試）：69.8%
BrowseComp-ZH（BrowseComp的中文適配版本）：71.5%
GAIA-Val-165（GAIA基準測試驗證集）：80.8%

Agent 搜索評測基準性能對比

越級挑戰：MiroThinker-v1.5-30B vs Kimi-K2-Thinking

面對參數量高達 30 倍的萬億參數巨獸 Kimi-K2-Thinking，MiroThinker-v1.5-30B 用極低的成本展示了旗鼓相當的表現：

推理成本：MiroThinker-v1.5-30B 單條調用成本低至 $0.07，僅為 Kimi-K2-Thinking 的 1/20，且推理更快。
性能表現：在關鍵評測集 BrowseComp-ZH 中實現性能超越，證明「大」不等于「強」。

02.

技術介紹

主流大模型往往盲目追求萬億參數，MiroThinker 系列選擇了一條反共識的路線：刻意將模型控制在 30B–200B 的輕量級規模。MiroMind 團隊強調，省下的不是算力，而是把算力花在了更刀刃的地方 —— 對外的信息獲取與交互。當模型同時具備研究式確認機制與時序因果約束，這種圍繞外部信息獲取的交互過程才讓“發現式智能”真正落地。這也是對 Interactive Scaling 的深耕，使他們用小得多的模型，做到了大模型才能做到的事。

MiroThinker 1.5 的核心發力點，在于通過 Interactive Scaling 打破孤立推理的僵局，將「推理」與「外部環境」深度耦合。通過構建「推理 - 驗證 - 修正」循環，引入外部信息作為校驗錨點，用確定性的證據流來對沖不確定性的推演，解決邏輯坍塌問題。

Training-time Interactive Scaling 技術，將交互內化進模型推理，用確定性對抗不確定性

當智能的 Scaling 范式不再局限于模型內部龐大的世界知識儲備與縝密的長程邏輯推理，而是依托模型高頻與外部世界中探索與交互并獲得閉環反饋時，小而高效的探索者模型能展現比肩于甚至超出大而嚴謹的思考者模型的智力水平。

MiroThinker 1.5 正是基于這一判斷，將 Interactive Scaling 從推理階段的外掛能力，前移并內化為訓練階段的核心機制。模型并非被要求「盡量在腦中想清楚一切」，而是被系統性地訓練成一個善于向外求證、敢于否定自己、能夠快速修正路徑的 Agent。

在訓練過程中，MiroMind 團隊刻意削弱對「單次完美推理」的獎勵，轉而強化以下行為模式：

Evidence-Seeking（主動求證）：模型被鼓勵將每一個關鍵判斷拆解為可驗證的子假設，并主動發起對外查詢、檢索與比對。結論本身不再是訓練目標，找到可靠證據的過程才是。缺乏信源支撐的高置信輸出，會在訓練中被系統性地懲罰。
Iterative Verification（多輪校驗與自我修正）：推理不被視為一次性路徑，而是一個可反復回溯、修正的過程。模型在交互中被要求不斷對已有判斷進行反證測試，一旦發現證據沖突，必須顯式調整假設，而非「帶著錯誤繼續推下去」。
Anti-Hallucination（對捷徑的系統性過濾）：對那些「看起來合理、但缺乏真實依據」的推理捷徑保持零容忍。訓練中不僅評估答案是否正確，更關注答案是如何得到的：任何依賴統計相關性、模式記憶或隱含先驗而繞過證據驗證的路徑，都會被標記為低質量推理。

通過這種訓練方式，MiroThinker 1.5 逐步形成了一種本能反應：在不確定性面前，先交互、再判斷；在高風險結論前，先查證、再收斂。這使得模型不再需要將龐大的世界知識全部內化為參數，而是學會在需要時，快速、精準地向外部世界借力。

時序敏感訓練沙盒

時序敏感訓練沙盒，是破解因果律的鑰匙：普通大模型訓練常處在上帝視角—— 它在數據里早已見過結果，學到的往往是復述與劇透，而不是預測。MiroThinker 的訓練則約束模型只能看過去，不能看未來，在嚴格的時間可見性約束下做判斷、再用同樣受時序約束的證據去驗證與更新。

可控數據合成引擎：構建覆蓋多任務類型的、難度與時間戳可控的數據合成體系。每一道題目的「正確答案」并非靜態標簽，而是隨時間戳動態演化；模型必須在嚴格的信息可見性約束下，基于當時可獲取的信息做出判斷，而校驗過程同樣顯式引入時間戳約束，以確保推演與評分均符合真實世界的時序邏輯。
時序敏感訓練機制：采用嚴格的時間戳與信息可見性約束，徹底杜絕 Future Leakage；模型在訓練過程中的每一步只能與發表于當前時間戳之前的信息進行交互。

在這種訓練范式下，模型被迫學會在信息不完備、噪聲存在、信號延遲的真實條件下進行推演與修正，而不是依賴靜態數據集中的「標準答案」。時間由此從一個背景變量，轉變為塑造模型行為與推理方式的核心約束，使模型更接近真實世界中的認知與決策過程

03.

模型樣例

樣例一: A 股漲停板預測

（注：以下僅為樣例展示，不構成投資建議）

日期：12 月 10 日（周三）

對話鏈接：https://dr.miromind.ai/share/07430808-d84d-4e40-9615-bf07d6e71365

注解：

躍嶺股份：16 只連板股，當天晉級僅 4 只，晉級率 25%，市場情緒顯著退潮。MiroMind 在 8 支二板股里，精準押中唯一晉級成功的那一支。

12 月 11 日（周四）

對話鏈接：https://dr.miromind.ai/share/eccc29b9-889b-43f9-b6bf-f4b2b7c8dc1e

注解：

再升科技：9 只連板股，當天晉級僅 2 只，晉級率 22%，市場環境持續降溫。MiroMind 命中 9 支連板股中高位晉級者 —— 退潮里選中“活口”。

樣例二: GTA 6 明年能按時發布嗎？

對話鏈接：https://dr.miromind.ai/share/10e5d1fd-c6b6-4b96-a2ed-4b776a3e1dcd

編輯：趙雅鑫

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.