網易首頁 > 網易號 > 正文申請入駐

當AI學會了驗證自己的推理

2026-03-19 11:43:30　來源: 深思圈

北京舉報

分享至

你有沒有想過，AI 到底能不能真正解決復雜問題？大多數人用 AI 的體驗可能是這樣的：問它一個問題，它給你一個看起來很有道理的答案，但你總覺得心里沒底，不知道該不該相信。這種不確定性正是當前 AI 系統的致命弱點。它們善于生成流暢的文字，卻不擅長保證答案的準確性。但如果我告訴你，有一個 AI 系統能在提前 15 天預測黃金價格，誤差只有 0.08%；能在一個月前準確預測超級碗冠軍；甚至能提前三周預測格萊美最大贏家，你會不會覺得這才是 AI 應該有的樣子？

這不是科幻故事，而是由著名企業家陳天橋創立的 MiroMind 正在實現的現實。他們剛剛發布了最新的研究型 AI agent 家族：MiroThinker-1.7 和 MiroThinker-H1。我深入研究了這個系統后發現，它代表著一個重要的轉變：從概率性生成轉向可驗證的準確性。這不是簡單的模型升級，而是對 AI 系統本質的重新思考。更讓我興奮的是，這種能力很快就能通過他們的移動應用體驗到，讓普通用戶也能使用這種級別的 AI 推理能力。

為什么我們需要重型推理系統

我一直覺得，當前大多數 AI 系統有一個根本性問題：它們被設計成聊天機器人，而不是問題解決者。聊天機器人的目標是提供看起來合理的回答，讓對話繼續下去。但真正的問題解決需要的是完全不同的能力：長鏈推理、與現實世界的互動、對不確定性的處理，以及最重要的——驗證自己的答案是否正確。

MiroMind 團隊提出了一個我非常認同的觀點：下一個前沿不是更廣泛的知識或更精致的對話，而是能夠持續進行長鏈推理、與不確定性交互、與世界互動，并在關鍵任務上收斂到更好答案的系統。這種系統被他們稱為"重型 AI agent"，專門用來處理那些真正困難、高價值的問題。聽起來很抽象，但當你看到它能提前預測金融市場走勢、體育賽事結果甚至娛樂行業趨勢時，你就能理解這種能力的價值了。

從性能數據來看，MiroThinker-H1 在多個關鍵基準測試上達到了業界最先進水平。在 BrowseComp 和 BrowseComp-ZH 這兩個衡量模型在英文和中文環境下執行高級研究能力的基準測試中，MiroThinker-H1 超越了所有主要競爭模型。在科學研究和高級數學領域，它在 FrontierScience-Research 和 FrontierScience-Olympiad 上創下新紀錄，甚至超過了領先的閉源前沿模型。在金融領域，它在 FinSearchComp 上領先業界，展示了其在高精度經濟分析方面的實用性。

但我更關注的不是這些冰冷的數字，而是背后的設計理念。MiroMind 團隊認為，與現實世界反饋的交互不是問題解決的輔助手段，而是核心機制。這個觀點徹底顛覆了傳統 AI 的設計思路。傳統 AI 主要依賴訓練數據中的知識，而 MiroThinker 則被訓練成主動尋找證據、測試假設、不斷修正直到收斂，讓外部驗證成為推理本身的原生部分。

交互質量比交互數量更重要

在研究 MiroThinker 的技術細節時，我發現了一個特別有意思的洞察：更多的交互輪次、更多的工具調用、更多的重試，確實能在基準測試上帶來快速提升。但這種簡單的交互擴展并不等同于有效的交互擴展。當中間步驟無法真正推進解決方案時，額外的交互只會放大噪音、復合錯誤，產生表面上的運動而沒有實質進展。

這讓我想起自己工作中的經歷。有時候為了解決一個問題，我會嘗試很多不同的方法，做很多實驗，但最后發現大部分嘗試都是無用功，甚至讓問題變得更復雜。真正有效的解決方案往往需要的是深思熟慮的步驟，而不是盲目的大量嘗試。MiroMind 團隊也意識到了這一點，他們拒絕將交互量作為能力的代理指標，而是轉向從兩個維度提高交互質量。

一方面，他們繼續深化 AI agent 在各種場景下的推理深度和精確度，因為這是應對更長時間跨度任務的基礎核心能力。另一方面，他們致力于讓每個單獨的步驟更加準確可靠，加強中間決策的質量，使得交互擴展反映的是真正的進展，而不是累積的噪音。在實踐中，這要求 AI agent 放慢速度：暫停、驗證、權衡替代方案，然后審慎地給出答案，確保做對的事而不只是做事。

這種"慢下來"的設計哲學一開始可能讓人覺得反直覺。在這個追求速度的時代，為什么要讓 AI 變慢？但仔細想想，這恰恰是重型解決者的特征：它不是為速度而建，而是為那些真正困難、高價值、需要準確性的問題而建。就像一個經驗豐富的工程師在做關鍵決策時，寧愿多花時間思考也不會草率下結論。

兩大技術升級讓推理更可靠

為了實現這種高質量的交互，MiroMind 引入了兩項重大技術升級。第一項是升級 agent 原生訓練，第二項是引入驗證為中心的重型推理模式。我覺得這兩項升級的組合非常巧妙，它們從局部和全局兩個層面提升了系統的可靠性。

第一項升級從一個簡單的觀察開始：如果 AI agent 的基本動作是嘈雜、膚淺或弱基礎的，那么擴展交互只會擴展低效率。更多的輪次無法彌補弱步驟質量。為了讓交互擴展真正有效，首先應該提高模型的 agent 原生能力——形成可靠的局部判斷、采取可靠的中間行動、在長時間跨度的問題解決過程中保持正軌的能力。

MiroThinker-1.7 在訓練流程中引入了中期訓練作為新的核心階段。在這個階段，系統合成了大規模專注于規劃、推理和總結的數據，同時顯著擴展了任務領域的多樣性。這為模型提供了更強的 agent 行為原生基礎：它變得更能夠分解目標、選擇合適的工具調用、解釋工具響應并綜合最終答案。結果是，交互過程中的每個單獨步驟都變得更可靠、更有根據，為有效的交互擴展建立了更強的基礎。

在這個新基礎之上，后續的訓練階段（監督微調、偏好優化和強化學習）進一步將這些能力塑造成更結構化、更穩健的長鏈行為。這些階段共同使模型能夠在擴展的交互軌跡中保持準確的推理和有根據的行動，保持朝向任務目標的連貫進展，實現更可靠的長時間跨度問題解決。

第二項升級更加激進。MiroThinker-H1 引入了驗證為中心的重型推理模式。這個架構背后的核心信念是，推理的可靠性最終取決于系統檢查自己推理過程的能力。驗證器作為關鍵組件貫穿始終，在兩個層面運作。在局部驗證層面，它打破概率偏差，充分探索正確的路徑，而不僅僅是可能的路徑。在全局驗證層面，它審計完整的證據鏈，讓支持最充分的答案勝出，而不是最自信的答案。

我特別喜歡這種設計。它讓我想起科學研究的方法：提出假設、設計實驗、收集證據、驗證結論。MiroThinker-H1 本質上是在模擬這個過程，但速度快得多。在這種模式下，除了準確性的顯著提升，團隊還觀察到一個有希望的現象：交互步驟數量大幅減少。這表明驗證器本質上是在過濾掉那些不產生信息增益的步驟，將計算集中在真正推進解決方案的交互上。更少的步驟并不與"重型"矛盾，相反，它們為進一步擴展有效交互奠定了基礎。

關于MiroThinker 1.7&H1的詳細技術解讀，可以看官方的技術報告，目前已登上了HuggingFace Daily Paper的第一名：

https://huggingface.co/papers/2603.15726

實際案例：預測能力的驚人展示

理論說得再多，不如看看實際效果。MiroMind 團隊展示了三個令人印象深刻的預測案例，每一個都展示了系統在不同領域的能力。

第一個是金融預測案例。2026 年 2 月 10 日，系統被要求預測 2 月 25 日的黃金價格。MiroThinker 預測黃金價格將達到每盎司 5185 美元。實際結果是，Fortune 報價 5181 美元，150 Currency 報價 5185.89 美元，而 CME GCG26 期貨結算價為 5206.40 美元。與 Fortune 的現貨報價相比，誤差僅為 4 美元，相對誤差 0.08%。提前 15 天預測一個波動劇烈的金融市場，誤差控制在 0.08% 以內，這個精度讓我非常震驚。

第二個是體育預測案例。2026 年 1 月 6 日，系統被要求預測誰會贏得 2026 年超級碗。MiroThinker 識別出西雅圖海鷹隊最有可能成為超級碗 LX 冠軍。實際結果是，2 月 8 日，西雅圖海鷹隊以 29-13 擊敗新英格蘭愛國者隊，贏得超級碗 LX。提前一個月準確預測冠軍，這不是運氣，而是系統通過分析大量數據、評估各種因素后得出的結論。

第三個是娛樂預測案例。2026 年 1 月 8 日，系統被要求預測哪位藝術家最有可能主導 2026 年格萊美獎。MiroThinker 識別出 Kendrick Lamar 最有可能主導 2026 年格萊美獎。實際結果是，在 2 月 1 日舉行的第 68 屆格萊美獎上，Kendrick Lamar 獲得 5 個獎項，包括年度唱片獎《Luther》，成為當晚最大贏家。提前三周準確預測，再次驗證了系統的分析能力。

這三個案例覆蓋了完全不同的領域——金融、體育、娛樂，但都展示了相同的特點：系統不是在猜測，而是在通過嚴格的推理、證據收集和驗證過程來得出結論。這正是 MiroMind 所追求的"可驗證的準確性"，而不是"看起來合理的答案"。

從模型到產品：App讓AI推理觸手可及

了解了 MiroThinker 的強大能力后，我最關心的問題是：普通用戶能不能用上這些能力？畢竟，再先進的技術如果只能停留在實驗室里，對大多數人來說都是遙不可及的。好消息是，MiroMind 剛剛在 3 月 5 日宣布正式在 iOS、Android 和網頁平臺公開發布他們的 AI 推理平臺，這標志著他們在產品化道路上的重要里程碑。

我特別關注他們的移動應用，因為這代表著真正的普及化。MiroMind 的 App 現在已經可以在 App Store 和 Google Play 下載，讓全球用戶都能體驗到這種通用 AI 推理能力。更重要的是，MiroThinker-1.7 的最新能力即將在 App 上線，這意味著用戶很快就能在手機上使用這些先進的推理和預測功能。

從產品設計來看，MiroMind 的定位很清晰：它不是又一個聊天機器人，而是一個為解決重要問題而設計的推理平臺。App 提供了幾個核心功能，每一個都體現了他們"驗證為中心"的設計理念。

深度研究模式是我最感興趣的功能之一。在這個模式下，系統會自主搜索、瀏覽和綜合來自數百個來源的信息，提供全面的、有證據支持的報告。它不只是做表面的總結，而是深入挖掘復雜主題背后的真相。這對研究人員、分析師或任何需要深入了解某個話題的人來說都非常有價值。

高級推理功能專門用于處理數學、編程、邏輯和結構化分析中的復雜問題。系統采用迭代的、多步驟的驗證來確保推理鏈每個階段的準確性。每個中間結論都會在系統繼續之前被檢查，消除了困擾傳統 AI 輸出的復合錯誤。這種嚴格的驗證過程正是 MiroThinker 與其他 AI 系統的根本區別。

預測智能功能則是針對前瞻性分析優化的。通過評估數據模式并應用時間推理，平臺支持從金融預測、情景建模到競爭格局分析的各種應用。它為用戶提供的是 AI 驅動的遠見，而不是回顧性總結。前面提到的那些驚人預測案例，都可以通過這個功能實現。

實時網絡智能是另一個關鍵特性。系統不僅僅依賴訓練數據，而是集成實時網絡搜索，將每個回答都建立在當前的、可驗證的信息基礎上。它不會猜測，而是主動根據最新的可用來源驗證聲明，提供用戶可以信任的答案。

對于想要下載體驗的用戶，可以通過以下方式獲取：

iOS 用戶可以在 App Store 搜索 MiroMind 或訪問 https://apps.apple.com/app/id6759390724 下載；
Android 用戶可以在 Google Play 搜索或訪問 https://play.google.com/store/apps/details?id=ai.miromind.app 下載。
網頁版可以直接訪問官網https://dr.miromind.ai/使用。

我對未來的期待

雖然 MiroMind 已經展示了令人印象深刻的能力，但我認為這只是開始。真正讓我興奮的是這種驗證為中心的方法論可能帶來的長遠影響。

想象一下，如果每個企業決策都能有一個 AI 系統幫助分析、推理和驗證，會是什么樣子？如果科研人員能夠讓 AI 幫助他們探索假設、設計實驗、分析數據，同時確保每一步都經過嚴格驗證，科學發現的速度會加快多少？如果醫生在診斷疾病時能夠借助 AI 系統全面分析患者數據、文獻證據和治療方案，同時系統能夠解釋和驗證每個推理步驟，醫療質量會提升到什么程度？

當然，這些應用場景的實現還需要時間。AI 系統再強大，也需要與人類專家的經驗和判斷相結合。但 MiroMind 提供的方向是正確的：不是用 AI 替代人類，而是讓 AI 成為人類解決復雜問題的可靠伙伴。

從產品化的角度，我期待看到 MiroThinker-1.7 在移動應用上的表現。把如此強大的推理能力放到每個人的手機上，這本身就是一個壯舉。如果他們能夠在保持準確性的同時優化用戶體驗，讓普通用戶也能輕松使用這些高級功能，那將真正實現技術的民主化。

API Console 的推出也值得期待。一旦開發者能夠方便地調用這些推理能力，我們可能會看到大量創新應用的涌現。從智能投資顧問到科研助手，從法律分析工具到醫療決策支持系統，各種垂直領域的應用都可能因為接入這種驗證式推理能力而獲得質的提升。

最后，我想說的是，MiroMind 代表的不只是一個公司或一個產品，而是一種對 AI 未來的愿景。這個愿景是：AI 不應該只是一個會說話的工具，而應該是一個能夠真正思考、能夠驗證自己思考過程、能夠解決人類尚未解決問題的智能系統。這種愿景能否實現，還需要時間來驗證。但至少，MiroMind 已經邁出了重要的第一步。

如果你也對這種新一代 AI 推理系統感興趣，我建議你去下載他們的 App 親自體驗一下。當 MiroThinker-1.7 上線后，你可以直接在手機上感受這種"驗證為中心"的推理能力。或者，如果你是開發者，可以關注他們的 GitHub 和即將推出的 API，探索如何將這種能力集成到自己的項目中。

下一代智能不只是關于對話，而是關于審慎的、長鏈的、具有 99% 累積準確率的推理。這個未來，正在到來。

官網：https://www.miromind.ai/

GitHub：https://github.com/MiroMindAI

Hugging Face：https://huggingface.co/MiroMind-ai

招聘聯系：talent@miromind.ai

App Store：https://apps.apple.com/app/id6759390724

Google Play：https://play.google.com/store/apps/details?id=ai.miromind.app

結尾

也歡迎大家留言討論，分享你的觀點！

覺得內容不錯的朋友能夠幫忙右下角點個贊，分享一下。您的每次分享，都是在激勵我不斷產出更好的內容。

歡迎關注深思圈，一起探索更大的世界。

- END -

兩個“特別坑”的AI產品創業方向，你知道嗎

速度將成為AI時代唯一的護城河

a16z重磅預測：Vibe coding贏者通吃？錯了，垂直專業化才是未來

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.