![]()
這項由德州農工大學領導,聯合滑鐵盧大學、加州大學圣地亞哥分校等多所知名院校的研究成果,發表于2026年3月的arXiv預印本平臺,論文編號為arXiv:2603.20278v1。該研究首次構建了一個完全開源的深度研究智能體訓練流水線,讓AI能夠像資深研究員一樣進行長時間的信息搜索、證據收集和推理分析。
在當今信息爆炸的時代,我們每天都面臨著海量的信息需要篩選和處理。無論是學術研究、商業分析還是日常決策,都需要從大量資料中找到有用信息,并進行深入分析。然而,訓練能夠進行這種深度研究的AI系統一直面臨著巨大挑戰。就像培養一個優秀的研究助手需要大量的實戰訓練一樣,訓練AI進行深度研究也需要無數次搜索、閱讀和推理的練習軌跡。
傳統的做法就像讓學生只能在昂貴的私人圖書館里練習研究技能一樣成本高昂且不穩定。研究團隊每次讓AI練習搜索都要調用谷歌等商業搜索API,不僅費用驚人,而且網絡內容時刻變化,今天找到的資料明天可能就消失了,這讓訓練過程極不穩定且難以重現。
為了解決這些問題,研究團隊提出了一個革命性的方案:構建一個"離線研究訓練場"。他們首先收集了1500萬份高質量網頁文檔作為基礎資料庫,然后針對6000個復雜問題,通過一次性的在線搜索為每個問題找到包含答案的黃金文檔。接下來的所有訓練都在這個離線環境中進行,就像為AI搭建了一個穩定的模擬研究環境。
研究團隊設計了三個核心的"瀏覽器工具",讓AI能夠像人類研究者一樣操作:搜索工具用于在資料庫中查找相關文檔,打開工具用于獲取完整文檔內容,查找工具用于在文檔中定位特定信息。這三個工具從粗到細,讓AI能夠逐步縮小搜索范圍,最終精確定位所需信息。
在這個離線環境中,研究團隊使用GPT-OSS-120B作為"導師模型",生成了超過97000條訓練軌跡。這些軌跡記錄了AI如何一步步搜索信息、分析證據并得出結論的完整過程。令人驚訝的是,許多復雜問題需要AI執行100多次工具調用才能找到答案,這顯示了真實深度研究的復雜性。
基于這些訓練數據,研究團隊對一個30B參數的基礎模型進行了監督學習訓練。訓練后的模型在BrowseComp-Plus基準測試中達到了54.8%的準確率,相比基礎模型提升了34個百分點,甚至超過了許多更大規模的商業模型。更令人振奮的是,這個模型在真實網絡搜索環境中也表現出色,在多個開放網絡基準測試中與頂級商業系統競爭。
一、離線訓練環境:搭建AI的專屬研究實驗室
傳統的AI訓練方式就像讓學生在一個不斷變化的圖書館里學習研究技能。今天這本書在這個位置,明天可能就被搬到了別處,甚至完全消失了。更糟糕的是,每次查閱資料都要付費,這讓大規模訓練變得極其昂貴。研究團隊意識到,要訓練一個優秀的AI研究助手,必須為它創造一個穩定、可控的學習環境。
研究團隊的解決方案類似于為AI建造一個專門的研究實驗室。他們首先從MiroVerse數據集中精選了6000個特別復雜的問答對,這些問題都需要多步推理和證據整合才能解答,就像選擇了最具挑戰性的研究課題。接著,為了確保每個問題都有可找到的答案,他們進行了一次性的"答案導向搜索",通過將問題和標準答案結合起來搜索,為每個問題收集了大約10000份包含正確答案的"黃金文檔"。
這個預處理步驟極其關鍵。研究團隊發現,如果訓練環境中缺少包含答案的文檔,AI的訓練軌跡準確率會從56.86%暴跌到43.81%,下游任務表現從54.81%跌落到僅有6.35%。這就像讓學生在一個沒有相關教科書的圖書館里學習一樣,無論多么努力都難以找到正確答案。
為了模擬真實的網絡搜索復雜性,研究團隊又添加了1500萬份來自FineWeb的文檔作為"干擾項",總計約10萬億個詞匯。這些文檔讓搜索環境更接近真實網絡的復雜程度,AI必須學會從海量信息中篩選出真正有用的內容。
整個資料庫使用Qwen3-Embedding-8B模型進行向量化編碼,并通過FAISS系統建立了高效的搜索索引。當AI發出自然語言查詢時,系統會返回最相關的文檔排序,完美模擬了真實的搜索引擎體驗。這樣,所有的訓練都可以在這個離線環境中進行,既節省了成本,又保證了訓練的可重現性。
二、三步瀏覽法:教會AI像人類一樣研究
真正的研究工作遠不止簡單的信息檢索。當人類研究者面對復雜問題時,通常會先進行廣泛搜索以了解大致方向,然后打開看起來有用的資料仔細閱讀,最后在文檔中查找特定的關鍵信息。研究團隊將這個自然的研究流程抽象為三個核心工具,讓AI能夠模仿人類的研究行為。
搜索工具是整個過程的起點,就像研究者在圖書館目錄中查找相關書籍一樣。AI可以輸入自然語言查詢,系統會返回前K個最相關的文檔,每個文檔包含標題、網址和簡短摘要。這個工具讓AI能夠快速了解哪些資料可能包含所需信息,就像瀏覽搜索結果頁面一樣。
打開工具則對應于研究者拿起一本書仔細閱讀的過程。當AI通過搜索發現了可能有用的文檔后,可以使用這個工具獲取文檔的完整內容。這個步驟至關重要,因為搜索結果中的簡短摘要往往無法提供足夠的信息來回答復雜問題。
查找工具相當于研究者在文檔中查找特定詞匯或概念的過程。當AI打開一個長文檔后,可能需要在其中定位特定的事實、數字或引用。這個工具能夠在當前打開的文檔中進行精確的字符串匹配,幫助AI快速定位關鍵信息,避免在冗長文檔中迷失方向。
這三個工具的設計體現了信息檢索的層次性:從整個資料庫到具體文檔,再到文檔內的特定片段。研究團隊發現,僅使用搜索工具的AI準確率只有43.86%,因為它只能依賴不完整的搜索摘要。當添加打開工具后,準確率躍升到56.39%,因為AI可以獲得完整的文檔內容。而當所有三個工具都可用時,準確率進一步提升到62.17%,證明了精確定位信息的重要性。
更有趣的是,使用完整工具集的AI不僅準確率更高,效率也更好。它們平均只需要49.97次工具調用就能找到答案,而僅使用搜索工具的AI需要70.57次調用卻仍然表現較差。這說明適當的工具設計能夠讓AI的搜索更加聚焦和高效。
三、大規模軌跡生成:記錄AI的學習過程
有了穩定的訓練環境和完善的工具集,下一步就是讓導師模型展示如何進行深度研究。這個過程就像讓一位經驗豐富的研究員在學生面前演示如何解決復雜問題,每一步思考和操作都被完整記錄下來。
研究團隊選擇GPT-OSS-120B作為導師模型,為每個問題生成16條不同的研究軌跡,總共產生了超過97000條訓練樣本。每條軌跡都是一個完整的研究過程記錄,包含了推理思考、工具調用和觀察結果的完整序列。
這些軌跡展現出了令人驚訝的復雜性和多樣性。成功的軌跡平均需要38.4次工具調用,而失敗的軌跡平均需要71.7次調用。這個巨大差異揭示了一個重要洞察:失敗往往不是因為搜索不夠充分,而是因為搜索方向錯誤或策略低效。最復雜的一些問題需要超過100次工具調用才能找到答案,有些甚至達到了185次的上限,顯示了真實研究問題的復雜程度。
研究團隊對軌跡進行了深入分析,發現了一些有趣的模式。在失敗的軌跡中,搜索操作占了大部分額外調用(48.7次對比成功軌跡的22.1次),而打開和查找操作的差異相對較小。這表明成功的研究策略關鍵在于能夠快速收斂到相關文檔,而不是無休止地嘗試新的搜索詞匯。
為了測試訓練數據的質量,研究團隊計算了每個問題在16次嘗試中的通過率。結果顯示Pass@1為56.7%,但Pass@16達到了79.2%,這20多個百分點的差距表明許多問題是可以解決的,但需要找到正確的研究路徑。問題的難度分布呈現出明顯的雙峰特征:約20%的問題幾乎無法解決(通過率接近0%),約30%的問題相對容易(通過率接近100%),其余問題處于中等難度區間。
四、訓練與評估:從模仿到掌握
有了豐富的訓練軌跡,研究團隊選擇了監督學習的方式來訓練學生模型。他們從基礎的NVIDIA-Nemotron-3-Nano-30B-A3B模型開始,這個模型擁有約31.6億參數,支持高達100萬詞匯的上下文長度。
訓練過程采用了嚴格的質量控制。研究團隊只保留那些產生正確答案的軌跡,最終篩選出約55000條高質量訓練樣本。訓練在8塊NVIDIA H100 GPU上進行,持續約8小時,學習率設置為5×10^-5且不衰減。為了適應長序列的特點,所有軌跡都被預打包到256K詞匯的最大長度,避免了截斷可能帶來的信息丟失。
訓練后的模型在多個基準測試中表現出色。在BrowseComp-Plus這個專門設計的封閉環境基準測試中,模型達到了54.8%的準確率,相比基礎模型的20.8%提升了34個百分點。這個成績不僅超過了GPT-4.1(36.4%)、Claude-4-Opus(36.8%)等商業模型,也明顯優于其他開源研究系統。
更令人印象深刻的是,這個僅在離線環境中訓練的模型在真實網絡搜索任務中也表現良好。在BrowseComp、GAIA和xbench-DeepSearch等需要實時網絡搜索的基準測試中,模型分別達到了26.3%、64.1%和65.0%的準確率,與頂級商業系統競爭,遠超其他開源解決方案。
這種從離線到在線的泛化能力證明了訓練方法的有效性。雖然模型從未在真實網絡環境中訓練,但它學到的搜索策略、證據評估和推理模式能夠成功遷移到動態的網絡環境中。這就像在模擬駕駛器中學習的技能能夠應用到真實道路駕駛一樣。
五、深入分析:理解成功與失敗的關鍵
為了更好地理解訓練出的AI研究助手的行為模式,研究團隊進行了一系列深入分析。這些分析不僅揭示了模型的優勢和局限,也為未來的改進指明了方向。
首先,研究團隊發現了一個令人意外的結果:在訓練時,使用正確答案的軌跡和錯誤答案的軌跡產生的模型性能幾乎相同。這挑戰了傳統認知,表明即使是失敗的研究過程也包含了有價值的學習信息,比如搜索策略、工具使用順序和證據檢查行為等。這就像學習者不僅能從成功案例中學習,也能從失敗案例中汲取有用的經驗。
在工具使用模式分析中,研究團隊發現了清晰的層次關系。僅使用搜索工具的準確率最低,因為模型只能依賴不完整的搜索片段。添加打開工具后性能大幅提升,因為模型可以獲得完整的文檔內容。而查找工具的加入進一步提高了精確定位關鍵信息的能力,同時還減少了總的工具調用次數,提高了效率。
關于搜索預算的分析也很有啟發。研究團隊測試了不同的最大工具調用次數限制,發現性能在100次左右開始趨于平穩。這表明對于大多數問題,充分的探索機會是必要的,但無限制的搜索并不能帶來持續的收益。這為實際部署提供了重要的配置指導。
最有趣的發現之一涉及證據檢索與最終準確性的關系。研究團隊追蹤了模型何時找到包含正確答案的"黃金文檔",發現僅僅在搜索結果中看到黃金文檔的片段只能帶來61.84%的準確率,而真正打開并閱讀黃金文檔的準確率達到86.72%。這強調了深度閱讀相對于表面瀏覽的重要性。同時,幾乎所有正確答案都依賴于找到黃金文檔(99.38%的成功案例都涉及黃金文檔搜索命中),這驗證了離線環境中包含高質量參考資料的必要性。
研究團隊還分析了不同類型問題的解決模式。簡單問題通常在10-40次工具調用內得到解決,顯示了高效的搜索路徑。而復雜問題可能需要更多探索,但成功的案例通常能在適當的搜索預算內找到答案。失敗案例往往陷入重復搜索的循環,無法有效收斂到相關證據。
六、成本效益與可重現性:開源方案的優勢
傳統的深度研究AI訓練面臨著高昂的成本和可重現性問題。研究團隊對此進行了詳細的成本分析,結果令人震驚。如果使用商業搜索API完成同等規模的訓練(576萬次搜索請求),使用Serper API需要5760美元,使用SerpAPI則需要28800美元。而研究團隊的離線方案成本為零。
除了直接的費用節省,離線方案還帶來了其他重要優勢。首先是無速率限制,可以并行進行大規模訓練而不用擔心API調用頻率限制。其次是完全確定性的行為,同樣的查詢總是返回相同的結果,這確保了實驗的完全可重現性。最后是零依賴性,不需要依賴任何外部商業基礎設施,便于開源分享和學術研究。
研究團隊計算了離線環境構建的一次性成本。使用8塊A100 80G GPU大約8小時來生成文檔向量編碼,然后在4塊H100 80G GPU上建立FAISS索引。雖然這需要一定的計算資源,但這是一次性投資,之后可以支持無限量的訓練實驗。
可重現性是科學研究的基石。傳統的在線訓練方法面臨著網絡內容不斷變化的挑戰,今天訓練的模型和明天訓練的模型可能會產生不同的結果,這讓研究比較和改進變得困難。研究團隊的離線方案完全解決了這個問題,任何研究者都可以在完全相同的環境中重現實驗結果。
為了進一步促進開源生態的發展,研究團隊承諾公開所有關鍵組件:完整的訓練流水線代碼、生成的97000條軌跡數據、訓練好的模型檢查點,以及離線搜索環境。這種全面的開源策略讓其他研究者可以在此基礎上進行改進和擴展,推動整個領域的發展。
七、實際應用案例:AI研究助手的真實表現
為了展示訓練出的AI研究助手的實際能力,研究團隊提供了幾個典型的應用案例。這些案例展現了AI如何處理不同復雜度的研究問題,也揭示了成功與失敗的關鍵因素。
在一個相對簡單的案例中,AI需要找出2022年6月27日《韋氏詞典》每日單詞欄目引用的作家姓名。AI首先搜索相關信息,找到了當天的詞匯是"沙文主義",然后打開對應頁面獲取完整內容。最后使用查找工具在頁面中定位引用信息,成功找到了作家Annie Levin的名字。整個過程只用了5次工具調用,體現了高效的搜索策略。
一個更復雜的案例涉及音樂歷史研究。AI需要識別一個在1990-2002年間失去父母的音樂團體,其中涉及謀殺案件、法律程序和年輕證人等多個線索。AI通過24次工具調用,逐步發現了Jackson 5成員的母親Dee Dee Jackson在1994年的謀殺案,找到了辯護律師曾代理過羅伯特·布雷克案件的連接,以及14歲的金·卡戴珊作為證人的信息,最終確定審判開始于6月。這個案例展示了AI處理需要多步推理和證據鏈接的復雜問題的能力。
在一個失敗案例中,AI被要求找到Tri-Rail火車在特定日期載客最多的班次到達時間。雖然AI經過99次工具調用找到了正確的時刻表,但在解讀復雜表格時出現了錯誤,誤選了發車時間而不是到達時間。這個案例說明即使成功檢索到相關信息,精確的信息理解和抽取仍然是挑戰。
另一個失敗模式出現在工具受限的情況下。當AI只能使用搜索工具而無法打開和查找時,它往往陷入重復搜索的循環,無法從搜索片段中獲得足夠的信息來回答復雜問題。這強調了完整工具集對于深度研究的重要性。
這些案例揭示了幾個重要模式。成功的研究通常遵循"先寬后窄"的策略:首先進行廣泛搜索了解問題背景,然后逐步聚焦到特定文檔和信息片段。失敗往往源于兩個原因:要么是搜索策略有問題,無法找到相關證據;要么是信息理解有誤,即使找到了正確信息也無法準確抽取。
八、技術創新:開創性貢獻與局限
這項研究在多個方面取得了開創性突破。首先是完全離線的訓練范式,這是首次有研究團隊成功構建了一個完全脫離在線API依賴的大規模深度研究訓練系統。這種方法不僅解決了成本和穩定性問題,更重要的是讓研究變得可控和可分析。
在瀏覽器抽象設計方面,研究團隊提出的三層工具架構(搜索-打開-查找)簡潔而有效。這種設計既符合人類的自然研究習慣,又適合AI模型學習。相比于復雜的多工具系統,這種最小化設計更容易掌握,同時保持了足夠的表達能力。
訓練數據的質量控制也體現了重要創新。通過答案導向的黃金文檔收集,研究團隊確保了離線環境中包含解答每個問題所需的信息。這種"預保證可解性"的方法避免了訓練過程中的歧義,讓AI能夠專注于學習搜索和推理策略。
在分析方法學方面,研究團隊首次在可控環境中深入分析了深度研究過程的內在機制。他們能夠追蹤每一步搜索決策,分析成功和失敗的原因,這在以往的在線環境中是不可能實現的。這種分析能力為理解和改進深度研究AI提供了寶貴的洞察。
然而,這項研究也存在一些局限性。首先是離線環境的時效性問題。雖然FineWeb數據集質量很高,但它反映的是訓練時的網絡狀態,無法包含最新信息。這對于需要實時信息的查詢可能造成限制。
其次是問題復雜度的上界限制。雖然MiroVerse數據集已經包含了相當復雜的問題,但現實中的研究問題可能更加開放和模糊。AI在處理完全開放性的探索性研究方面仍有提升空間。
訓練軌跡的多樣性也有待提高。雖然生成了97000條軌跡,但都來自同一個導師模型,可能存在策略同質化的問題。未來可以考慮使用多個不同的導師模型或人類專家軌跡來增加訓練數據的多樣性。
最后,評估基準的局限性也需要考慮。現有的基準測試主要關注事實性問題的回答,而真實的研究工作往往涉及假設生成、創新思考和批判性分析等更高層次的認知能力。
盡管存在這些局限,這項研究仍然代表了深度研究AI領域的重要進展。它不僅提供了一個實用的訓練方法,更重要的是為這個領域建立了新的研究范式,讓更多研究者能夠參與到這個重要方向的探索中來。
說到底,這項研究最大的價值在于讓深度研究AI的訓練變得民主化。以前只有擁有大量資金的大公司才能負擔起訓練這類系統的成本,現在任何有合理計算資源的研究團隊都可以進行類似的工作。這種開放性將推動整個領域更快地發展,最終讓每個人都能擁有一個強大的AI研究助手。
當我們展望未來時,可以期待看到更多基于這個框架的改進和擴展。也許不久的將來,每個學生在寫論文時都會有一個AI研究助手幫助查找資料,每個分析師在撰寫報告時都有AI幫助收集和分析信息,每個好奇的人在探索某個話題時都能得到專業級的研究支持。這項研究朝著這個愿景邁出了重要的一步。
Q&A
Q1:OpenResearcher的訓練成本有多低?
A:研究團隊計算顯示,如果用傳統商業搜索API訓練需要5760到28800美元,而OpenResearcher的離線方案成本為零。除了一次性的文檔處理費用,后續所有訓練都不需要額外費用,且沒有速率限制,可以無限并行訓練。
Q2:離線訓練的AI能在真實網絡環境中工作嗎?
A:能夠很好地工作。雖然模型只在離線環境中訓練,但在真實網絡搜索的BrowseComp、GAIA等基準測試中表現出色,準確率分別達到26.3%、64.1%和65.0%,與頂級商業系統競爭。這證明了離線學到的搜索策略能夠成功遷移到動態網絡環境。
Q3:OpenResearcher比GPT-4等商業模型更強嗎?
A:在特定的深度研究任務中確實表現更好。在BrowseComp-Plus基準測試中,OpenResearcher達到54.8%準確率,明顯超過GPT-4.1的36.4%和Claude-4-Opus的36.8%。不過這主要針對需要長時間信息搜索和推理的復雜研究任務,在其他類型任務上可能各有優劣。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.