網易首頁 > 網易號 > 正文申請入駐

多模態DeepResearch，成了！

2026-02-24 14:33:16　來源: 機器之心Pro

河北舉報

分享至

DeepResearch 的價值在于把「查資料」變成「做研究」：不是搜到一條就回答，而是會連續多輪地提出問題、去不同地方找證據、互相對照核實、再把信息整理成結構清晰的結論。這樣做能顯著降低「憑感覺瞎編」的風險，特別適合那些信息分散、容易混淆、需要多步推理和多來源佐證的復雜問題。

工業級 deepresearch LLM（如 tongyi-deepresearch、MiroThinker），將文本 DeepResearch 性能從探索級提高到了與閉源模型的 agentic reasoning pipeline 相當的性能，但多模態 DeepResearch 依然處在初期。

圖 1A：指出現有多模態深度研究在圖像搜索上的兩大瓶頸：忽視搜索引擎命中率問題（單次全圖 / 實體檢索常失敗，不同尺度裁剪結果波動大），以及推理深度與檢索廣度不足（軌跡短、交互少）。圖 1B：展示整體流程：自動合成高質量 VQA 與多輪軌跡，并通過 SFT+RL 把深研能力內化到 MLLM 中，使其能進行多輪、多實體、多尺度的視覺與文本搜索。底部結果對比表明：在統一的 agentic 推理設置下，模型以更小參數規模在 6 個基準上達到 SOTA。

在現實世界中，多模態 DeepResearch 有著重要意義，其將研究能力從「只看文字」擴展到「文字 + 圖片 / 圖表 / 截圖等」。現實世界里很多關鍵信息就藏在視覺內容里：一張照片里的標志、一個產品細節、一頁報告截圖里的表格、一張地圖或示意圖。

多模態 DeepResearch 能把這些視覺線索也當成證據來使用：先從圖片中抓住關鍵點，再去查文字資料驗證補全，必要時再回到圖片繼續核對，最后把圖文證據一起整合成更可靠、更完整的答案。這樣不僅覆蓋的信息更全，也更接近人類真實的研究方式。

基于此，作者構建了一個面向真實世界搜索環境的多模態 deep-research 大模型，通過 VQA 數據合成 + 軌跡合成 + 冷啟動 + 大規模強化學習，解決當前工作所忽略的引擎命中率問題，將推理輪數提高到數十輪，與搜索引擎交互次數提高到了數百次。

機構：港中文 MMLab，中科大，小紅書等
HF daily paper:
https://huggingface.co/papers/2601.22060
https://huggingface.co/papers/2602.02185
Project page: https://osilly.github.io/Vision-DeepResearch/

相比于之前的 multimodal deep-research MLLM 在 6 個主流 benchmark 上幾乎翻倍性能，對比例如 gpt5、gemini2.5pro、claude4 等強大閉源模型的 agentic reasoning pipeline，使用 30B-A3B 甚至 8B 參數規模幾乎都取得了領先或者相當的性能。

基線對比 Demo：

https://mp.weixin.qq.com/s/E3chyoaLVtaMI1MAL6zAhA?click_id=1

更多 case 展示：

https://mp.weixin.qq.com/s/E3chyoaLVtaMI1MAL6zAhA?click_id=1

現有一些多模態 DeepResearch 的探索，在真實網頁環境里經常卡在兩道硬坎，這導致他們缺乏實際應用價值：

命中率問題（hit-rate）被忽視：一張全圖 / 一次實體級查詢往往被背景噪聲帶偏；同一實體不同尺度裁剪，檢索結果差異巨大。
推理深度與檢索廣度不足：多數方法軌跡短、工具調用少，難以完成多跳證據聚合與復雜問題的「試錯式搜證」。

Vision-DeepResearch 提出新的多模態深度研究范式：把檢索從「一次性操作」升級為多輪試探 — 反饋 — 再檢索的長期交互過程，支持幾十步推理、上百次引擎交互，讓模型像人一樣在噪聲環境中不斷縮小范圍、驗證證據，最終穩定命中關鍵事實。

方法核心：多尺度視覺檢索 + 文本深研接力 + 端到端內化

整體路線是「高質量長軌跡合成 → 冷啟動 SFT → 在線高效異步 RL 內化能力」：

多實體 / 多尺度視覺裁剪檢索（CIS）：模型先定位與問題相關區域，生成多個 bbox 與不同尺度 crop 并行發起視覺搜索，顯著提升命中率。
視覺→網頁→摘要→驗證的證據管線：視覺搜索返回 URL 后，訪問網頁并用輔助模型做摘要與圖文一致性驗證，過濾噪聲，提煉可用證據。
橋接文本 DeepResearch 能力：利用強文本 DeepResearch 基礎模型生成對應的文本搜索長軌跡，實現跨模態長視野推理遷移。
訓練策略：先用約 30K 長軌跡做 SFT 教會「怎么搜、怎么查、怎么寫軌跡」，再用在線強化學習在真實在線搜索環境中優化策略（純準確率獎勵 + 多種工程穩定化技巧），把深研行為真正「內化」為模型能力。

圖 2 數據管線高質量軌跡數據生成；多跳復雜 VQA 合成

實驗：小參數也能打到 SOTA，長視野交互是關鍵增益來源

性能強大：在 VDR、FVQA、MMSearch (+)、LiveVQA、BC-VL 等 6 個基準上：

Vision-DeepResearch-8B 在同等 agent 設置下，相比 Qwen3-VL-8B-Instruct（Agentic）平均提升約 + 10.4%
Vision-DeepResearch-30B-A3B 進一步把整體成績推到更高水平（平均提升約 + 16.0%），在多個基準上持續擴大優勢。超越 GPT-5、Gemini-2.5-Pro、Claude-4-Sonnet 等強大閉源模型構成的 deep-research 系統的性能。

消融結論明確：

僅全圖檢索（WIS）收益有限且易受噪聲干擾；
多尺度裁剪（CIS）顯著提升視覺命中；
CIS + 文本搜索（TS）組合最好，同時滿足「視覺錨點精準 + 長尾知識補全」；
RL 進一步把長視野決策做穩：模型學會用更少但更有效的步驟拿到更高回報。

VDR-Bench：重新定義視覺深研評測！2,000 條「必須做視覺搜索」的真實難題，專治文本捷徑與全圖完美檢索

多模態深度研究系統越來越多，但評測卻長期「不對題」：很多基準存在兩類系統性漏洞：

不夠「視覺搜索中心」：答案常被問題文本線索泄露，甚至可用模型先驗知識 / 純文本檢索繞過視覺驗證，導致分數虛高。
檢索場景過于理想化：全圖反搜經常命中幾乎一模一樣的「近重復圖片 + 標題元信息」，形成「完美檢索（perfect retrieval）」，沒測到真實環境下的定位、裁剪、試錯與跨模態核驗能力。文搜搜索深度太淺，無法反映真實世界的復雜性。

圖 3 現有評測基準兩大缺陷

VDR-Bench 為此提出一套更貼近現實的評測基準：2,000 條多跳 VQA，覆蓋 10 個視覺域，強調必須通過局部實體發現 + 迭代裁剪檢索 + 文本多跳推理才能可靠作答，從源頭減少捷徑與「全圖一把梭」

基準構建核心：從「視覺實體」出發，強制閉環證據鏈

VDR-Bench 采用嚴格的「視覺優先」多階段流程：

人工裁剪 + Web 級視覺搜索：標注者優先裁剪顯著局部（logo / 人物 / 地標 / 產品等）而非整圖，模擬真實搜圖行為。
實體抽取與驗證：從檢索結果標題 / 描述抽取候選實體，經 MLLM 過濾一致性，再由人工核驗，確保實體不是「全圖輕松搜到」的近重復泄露。
Seed VQA 生成：圍繞已驗證視覺實體生成需要顯式識別與落地的問答。
知識圖譜隨機游走做多跳擴展：把問題升級為「從視覺實體出發」的多跳推理（總部城市 / 創始人 / 年份 / 關聯組織等）。
可解性與去捷徑審核：自動與人工雙重檢查，確保必須依賴記錄下來的視覺檢索證據與推理路徑，避免歧義與 shortcut。

圖 4 多階段數據標注管道

在 VDR-Bench 上，模型必須主動檢索才有明顯提升，并且作者發現「Lazy Search（懶搜索）」：越強的模型越可能依賴先驗知識、反而不愿意充分調用視覺檢索，導致深研題表現不匹配其基礎能力。

為緩解這一點，作者提出Multi-turn Visual Forcing（MVF）：在推理流程上強制多輪、多尺度裁剪與驗證，大幅提升深度檢索性能。

意義與未來

Vision-DeepResearch 證明：多模態深研能力的關鍵不只是「會調用工具」，而是要在噪聲世界里形成長視野、可試錯、可驗證的檢索 — 推理閉環；并且通過可規模化數據合成與 RL，可以把這種行為從 workflow 變成模型的內生能力。

VDR-Bench 把「視覺深研」從「能不能答對」升級為「能不能在噪聲世界里定位 — 檢索 — 驗證 — 多跳推理」，為后續模型與 Agent 訓練提供更真實的測試平臺，也讓社區更清楚：下一代多模態深研系統的瓶頸到底在哪里？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.