337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

大廠數據護城河打破!上交全開源Search Agent OpenSeeker登場

0
分享至



一直以來,高性能 Search Agent 都像是 “大廠的專屬游戲”。雖然業界涌現了許多開源模型,但真正決定 Agent 能力上限的 “高質量訓練數據” 卻始終被各大企業嚴格保密,形成了一道堅固的數據護城河。這種持續的數據稀缺,極大地阻礙了廣大研究社區在這一領域的創新與發展。

今天,由上海交通大學研究團隊推出的OpenSeeker徹底打破這一現狀!

作為首個純學術團隊打造,完整開源模型 + 100% 全量訓練數據的前沿深度搜索 Agent,OpenSeeker 證明了:不靠堆砌算力資源,依靠極高的數據合成質量,學術界同樣能跑出 SOTA!在同等條件下(約 30B 參數量、純 ReAct 架構),OpenSeeker 僅需11.7k 合成樣本進行單輪 SFT(監督微調),便在多個前沿榜單上取得了 SOTA 成績。



  • GitHub: https://github.com/rui-ye/OpenSeeker
  • 全量訓練數據: https://huggingface.co/datasets/OpenSeeker/OpenSeeker-v1-Data
  • 模型權重: https://huggingface.co/OpenSeeker/OpenSeeker-v1-30B-SFT
  • Huggingface Paper: https://huggingface.co/papers/2603.15594
  • 論文直達: https://arxiv.org/pdf/2603.15594

核心亮點速覽

  • 純學術團隊打造,打破大廠壟斷:完全開源所有訓練數據(QA + 軌跡)和模型,為研究人員提供高質量數據基礎,無需依賴企業級規模資源,也能探索與構建下一代 Search Agent。
  • 跨榜單 SOTA,越級挑戰強化學習模型:在 BrowseComp-ZH 榜單上取得48.4%的成績,直接超越了阿里 Tongyi DeepResearch 通過采用 CPT(持續預訓練)、SFT(監督微調)和 RL(強化學習)多輪復雜訓練得出的 46.7%。在約 30B 級純 SFT 模型中,全面斬獲第一(BrowseComp 29.5 /xbench 74.0 / WideSearch 59.4)

核心技術揭秘:

突破大廠數據瓶頸的高質量數據合成方案

要有效訓練深度搜索 Agent,核心在于解決兩個關鍵問題:首先,必須構建足夠高難度的問答任務,以激發模型“推理 → 工具調用 → 工具反饋”的多輪工具調用能力,從而形成包含明確決策節點和長工具調用鏈的長程交互軌跡;其次,需要通過穩定且可復現的方法生成高質量解題軌跡,確保訓練信號學習到的是正確且可泛化的策略,而非依賴隨機采樣產生的偶然成功。

為此,OpenSeeker 進一步提出基于真實網頁結構的事實錨定問答構建動態去噪軌跡合成方法,以系統性提升多跳推理能力與信息提取能力。

1. 基于事實錨定的問答構建:基于真實網頁圖譜構造高難度多跳問題



現有的檢索任務往往容易被模型通過簡單的模式匹配 “走捷徑”。為了逼迫模型進行真正的多跳推理,OpenSeeker 直接從海量真實網頁的圖結構出發進行逆向工程。

  • 從隨機種子頁面出發進行拓撲圖擴展,尋找互聯的信息簇并提取出實體子圖。
  • 引入實體混淆機制,將具體實體模糊化,把簡單的事實轉化為復雜的推理謎題。

OpenSeek QA 合成的方法,不僅保證了數據的真實可信,還從結構上強制模型必須進行多步導航與深度推理。

2. 動態去噪軌跡合成:基于非對稱上下文構建,強化嘈雜環境下的核心信息提取



真實的網頁環境充滿了冗長且無關的噪音。為了合成高質量的動作軌跡,OpenSeeker 設計了一套非對稱的 “動態上下文去噪” 策略:

  • 生成階段(Teacher):引入回顧性總結機制,將上一步的嘈雜工具返回結果壓縮為干凈摘要,讓 Teacher 模型在無噪的上下文中生成專家級的推理和工具調用。
  • 訓練階段(Student):在訓練時撤掉摘要,給模型喂入原始的、未經壓縮的嘈雜工具返回結果,倒逼其預測 Teacher 的高質量決策

該方法激發 OpenSeeker 從嘈雜的真實網頁環境中學習到了強大的信息提取與去噪能力。

實驗結果:11.7k 數據的越級挑戰


11.7k 數據單輪 SFT,媲美大廠表現:OpenSeeker 僅使用 11.7k 樣本和 SFT 進行單輪訓練,便展現出媲美甚至超越大廠資源密集型模型的競爭力。令人矚目的是,在 BrowseComp-ZH 榜單上,僅采用單輪簡單 SFT 訓練的 OpenSeeker-v1-30B-SFT 取得了48.4%的高分,超越經歷了持續預訓練 (CPT)、SFT 和強化學習 (RL) 多階段訓練的 Tongyi DeepResearch (46.7%)。



純 SFT 與 ReAct 架構下的 SOTA 表現:在同為 SFT 訓練的 ReAct Agent 競爭中,OpenSeeker 取得 SOTA。僅憑借 11.7k 數據,OpenSeeker 在 BrowseComp (29.5)、BrowseComp-ZH (48.4)、xbench (74.0) 和 WideSearch-EN (59.4) 四大榜單上均取得最優成績,顯著拉開了與阿里巴巴通義實驗室提出的 WebSailor-V2、WebLeaper 等同類開源模型的差距。



同等數據規模下的顯著優勢,凸顯極高數據質量:在控制數據量規模可比的情況下(10k-15k 級別),OpenSeeker 的數據質量明顯優于阿里巴巴通義實驗室的 WebSailer-V2 和 WebLeaper 的各類組合版本,在各項指標上均保持顯著優勢。



遠超 Benchmark 的數據難度:為了量化數據難度,研究團隊使用相同的模型對合成數據和標準 Benchmark 進行了推理對比。結果顯示:

  • 合成的中文數據難度遠超 BrowseComp-ZH:每條軌跡平均需要進行46.35 次工具調用,平均 token 長度高達76.1k;而 BrowseComp-ZH 分別僅為 26.98 次和 15.1k tokens。
  • 英文數據的難度也達到了與 BrowseComp-EN 相媲美的水平。



社區反響:真正推動領域發展的底層開源支撐

OpenSeeker 一經發布,便在海外社交平臺和開源社區引發了熱烈反響。許多研究者與開發者紛紛表示,這正是目前學術界最迫切需要的破局之作:



  • 明確科研與數據的邊界:“這才是真正能推動領域發展的開源發布。全量訓練數據加上 30B 模型,讓研究人員終于能區分出,性能的提升到底是來自真正的方法創新,還是僅僅因為吃了閉源數據的紅利。”
  • 打破數據壟斷:“現在,大家終于可以在沒有‘數據守門人’限制的情況下,自由構建多步智能體了!”
  • 呼喚已久的透明度:“AI Agent 終于迎來了數據透明,太令人振奮了!”、“開源再次勝利!”

這不僅是一個 SOTA 模型,更是賦能整個學術界探索下一代 Search Agent 的堅實基座。


全面開源,即刻體驗!


OpenSeeker 作為首個由純學術團隊打造、模型與全量訓練數據完全開源的深度搜索 Agent,從根本上打破了長期以來由大廠構筑的數據護城河,真正為科研人員提供了可直接使用、可復現、可擴展的高質量研究數據基礎。這一開放不僅降低了前沿 Search Agent 研究的門檻,更讓研究者能夠專注于方法創新本身,而不再受限于數據。打破閉源壟斷,讓前沿研究不再遙不可及。也期待更多開發者與研究者加入,共同探索下一代 Agent 的可能性,歡迎 Star 關注并上手體驗!

作者介紹:

本文共同第一作者為上海交通大學博士生杜鈺文與葉銳,其中葉銳為項目負責人,指導老師為上海交通大學人工智能學院陳思衡教授,主要研究方向為 AI Agents、Agentic Science 等領域。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
開國大將羅瑞卿長女羅峪田逝世,享年84歲

開國大將羅瑞卿長女羅峪田逝世,享年84歲

澎湃新聞
2026-04-02 11:38:26
福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

福建福州振興鄉村集團有限公司董事長陳志武接受審查調查

界面新聞
2026-04-02 08:36:22
中東這一打,中國套在美國脖子上的繩子,勒得更緊了

中東這一打,中國套在美國脖子上的繩子,勒得更緊了

紀中百大事
2026-04-02 09:49:12
東契奇談最后的扣籃:我的頭差點碰筐 我覺得我碰到了

東契奇談最后的扣籃:我的頭差點碰筐 我覺得我碰到了

北青網-北京青年報
2026-04-01 19:58:12
德國緊隨韓國之后,也發布了“中文標語”,引起了中國游客的不滿

德國緊隨韓國之后,也發布了“中文標語”,引起了中國游客的不滿

素衣讀史
2026-04-01 20:21:30
兩“虎”任上被查,正部級老虎被開除黨籍!受賄6.13億,譚瑞松被判死緩

兩“虎”任上被查,正部級老虎被開除黨籍!受賄6.13億,譚瑞松被判死緩

上觀新聞
2026-03-30 15:17:05
坎塞洛:我和瓜帥發生了爭執,他不滿我訓練;離開曼城不后悔

坎塞洛:我和瓜帥發生了爭執,他不滿我訓練;離開曼城不后悔

懂球帝
2026-04-02 09:43:49
向李榮浩道歉不到24小時,單依純再迎3大噩耗,個個戳她心窩

向李榮浩道歉不到24小時,單依純再迎3大噩耗,個個戳她心窩

叨嘮
2026-03-31 01:14:13
這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

這面相太好了,妥妥旺夫相,膀大腰圓氣血足,穿著干凈舒服!

科學發掘
2026-04-01 00:28:34
國臺辦:越早實現統一,越有利于臺灣同胞過上更好日子

國臺辦:越早實現統一,越有利于臺灣同胞過上更好日子

澎湃新聞
2026-04-01 11:10:26
又13投12中!他這樣打下去,錫安的NBA紀錄不保了

又13投12中!他這樣打下去,錫安的NBA紀錄不保了

籃球大視野
2026-04-01 16:12:04
4月2日人民幣對美元中間價調升145個基點

4月2日人民幣對美元中間價調升145個基點

證券時報
2026-04-02 09:42:02
男人的生理需求能有多難忍?網友:我對我老公只有動物本能

男人的生理需求能有多難忍?網友:我對我老公只有動物本能

番外行
2026-04-02 08:37:13
好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

好可怕!40歲中年男人就有老人味嗎,差一點吐了,網友發帖引熱議

火山詩話
2026-03-30 07:38:38
“美以吃了沒文化的虧”

“美以吃了沒文化的虧”

觀察者網
2026-03-30 19:12:10
輸不起了?越南U23對中國兩連敗:主教練賽后1句話太丟人!

輸不起了?越南U23對中國兩連敗:主教練賽后1句話太丟人!

邱澤云
2026-04-01 19:24:35
70~80歲除不搬重物不爬高外,九個細節要注意,最后一個常被忽略

70~80歲除不搬重物不爬高外,九個細節要注意,最后一個常被忽略

暖風吹過竹林
2026-03-26 10:47:30
美伊還未停火,又一國要迎戰美軍,中國無視警告,先一步送上援助

美伊還未停火,又一國要迎戰美軍,中國無視警告,先一步送上援助

史智文道
2026-04-02 09:47:52
中東防空危機僅是開始,外媒:中國反輻射無人機或將改變戰爭格局

中東防空危機僅是開始,外媒:中國反輻射無人機或將改變戰爭格局

興史興談
2026-03-31 20:47:02
我在澳洲華人超市買了袋餃子,卻看清了無數華人的真面目!

我在澳洲華人超市買了袋餃子,卻看清了無數華人的真面目!

天下霸奇
2026-04-02 07:48:23
2026-04-02 12:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12659文章數 142603關注度
往期回顧 全部

科技要聞

SpaceX秘密申報IPO,估值沖刺12萬億

頭條要聞

特朗普話音剛落伊朗導彈直撲以色列 美軍增派攻擊機

頭條要聞

特朗普話音剛落伊朗導彈直撲以色列 美軍增派攻擊機

體育要聞

這六個字,代表了邵佳一的新國足

娛樂要聞

宋寧峰帶女兒出軌,張婉婷找董璇哭訴

財經要聞

電商售械三水光針 機構倒貨or假貨猖獗?

汽車要聞

2026款海豹06GT/海豹06DM-i旅行版激光雷達上車

態度原創

親子
藝術
教育
健康
公開課

親子要聞

孩子咳嗽的痰,可能對應不同的問題

藝術要聞

故人西辭黃鶴樓,煙花三月下揚州

教育要聞

美國競賽題,計算1.25-3.68的小數部分

干細胞抗衰4大誤區,90%的人都中招

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版