![]()
過去兩年,圖像生成模型在質感和審美上一路狂飆,但大多仍是 “直接出圖” 的范式。
一旦 prompt 涉及真實世界知識、最新信息、冷門事實,或者需要跨多個來源核對細節,傳統文生圖模型就很容易翻車。
因為生成模型缺乏面向真實世界的 Agent 能力,仍然依賴固化的參數知識,缺少主動搜索、驗證和整合外部信息的能力。
最近,來自香港中文大學 MMLab、UC Berkeley 和 UCLA 的研究團隊提出了 Gen-Searcher,首次嘗試為圖像生成任務訓練一個 “深度搜索” 智能體。它讓圖像生成模型能夠像 Agent 一樣進行搜索、推理、找圖和瀏覽網頁,從而輸出真正可靠的生成結果。所有數據,模型,和代碼,均已開源。
![]()
- 論文標題:Gen-Searcher: Reinforcing Agentic Search for Image Generation
- 論文地址:https://arxiv.org/pdf/2603.28767
- 項目主頁:https://gen-searcher.vercel.app/
現實需求:從 “直接生成” 到 Agentic 生成
現實世界中的圖像生成任務,往往不只是 “按 prompt 作畫”。很多場景會涉及真實世界知識、最新信息、冷門事實,甚至需要跨多個來源核對細節。模型不僅要會生成,還要先判斷哪些信息需要確認、哪些視覺細節需要參考、哪些內容必須依賴外部知識支撐。
在這種背景下,傳統文生圖模型有兩個核心問題:一是主要依賴預訓練學到的參數知識,缺乏主動搜索、驗證和整合外部信息的能力;二是整體流程仍是 “輸入 prompt,直接出圖”,缺少像 Agent 那樣先搜索、推理、整理證據的過程,因此在真實場景里很容易 “畫得像,卻畫不對”
為了解決這個問題,研究團隊提出了 Gen-Searcher,希望把文生圖從 “直接生成” 推進到 Agentic 生成
數據構建與 KnowGen 基準
為了訓練這種能力,作者先構造了一批真實世界需要搜索才能完成的生成數據,覆蓋名人、動漫、物理、化學、藝術、建筑、新聞等約 20 個類別。
![]()
隨后,作者讓強模型配合搜索工具生成多輪軌跡,收集文本知識和視覺證據,再用 Nano Banana Pro 合成目標圖像,得到約 30k 條原始樣本。經過 Seed1.8 篩選后,最終保留約 17k 條高質量數據,并整理成 Gen-Searcher-SFT-10k 和 Gen-Searcher-RL-6k。
![]()
在此基礎上,作者還提出了新的 benchmark —— KnowGen。它包含 630 條人工驗證樣本,用于圖像生成 Agent 評測。
模型訓練
Gen-Searcher 的核心,是把生成前的信息獲取過程做成一個可訓練的 Agent。模型不再拿到 prompt 就直接生成,而是先在多輪交互中決定何時搜索、搜什么、是否瀏覽網頁、是否補充視覺參考,最后輸出準確的 prompt 和參考圖。
它配備了三類工具:文本搜索、圖像搜索和網頁瀏覽。訓練上則分兩階段進行:先通過 SFT 訓練學會工具使用,再通過 agentic RL 優化搜索策略和長程決策。
論文還提出了雙獎勵反饋。因為只看最終圖像效果并不穩定,作者額外加入了一個文本獎勵,用來評估輸出的 prompt 是否已經包含足夠、正確、與生成相關的信息,再與圖像獎勵結合起來共同訓練。這樣,模型不僅要 “畫得好”,也要 “搜得對”
![]()
實驗結果
在 KnowGen 上,原始 Qwen-Image 的 K-Score 為 14.98,接入 Gen-Searcher-8B 后提升到 31.52,提高 16.54 分。而且這種能力還能遷移到其他圖像生成器上:Seedream 4.5 從 31.01 提升到 47.29,Nano Banana Pro 也從 50.38 提升到 53.30。
![]()
在 WISE 測試基準上,模型同樣帶來了巨大的提升。
![]()
可視化分析表明,Gen-Searcher 能夠真正提高模型生圖的準確性和質量。
![]()
Gen-Searcher 的推出,不僅展示了 Agentic 生成在知識密集型圖像生成任務上的潛力,也為構建真正能夠連接搜索、推理與生成的一體化系統提供了清晰路徑。
它不僅能 “畫”,還能 “查”;不僅能完成傳統的文本到圖像生成,更能在生成之前主動搜索信息、核對事實、整合證據,展現出面向真實世界復雜任務的生成能力。
在大模型不斷走向多模態、強推理與 Agent 化的趨勢下,Gen-Searcher 的工作或許只是一個起點,但它所驗證的方向,正在成為生成系統邁向 Agentic 時代的重要一步。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.