UniPat AI 開源了他們的一個(gè)科研 agent 模型 UniScientist,后訓(xùn)練自 Qwen3,30B參數(shù),3B激活
在 FrontierScience-Research 榜單上拿了 28.3 分,多跑幾次聚合后 33.3,略微還超過了 GPT-5.4(33.0分)
![]()
https://github.com/UniPat-AI/UniScientist
但....別急著下結(jié)論,雖然是老朋友,我也不能硬吹,得說一下:FrontierScience-Research 測(cè)的是一項(xiàng)很具體的能力
比如:給你一個(gè)開放式科學(xué)問題,自己檢索文獻(xiàn),提出假設(shè),做推導(dǎo),做仿真,迭代驗(yàn)證,最后交一份完整的研究報(bào)告。就是科研這一件事,不是通用智能
用小模型打平 GPT-5.4,靠的也不是模型本身多聰明,而是他們?cè)炝艘慌鷶?shù)據(jù)
這批數(shù)據(jù)怎么造的,比模型本身有意思
數(shù)據(jù)這件事
好模型 = 好數(shù)據(jù) + 好架構(gòu) + 足夠算力
這點(diǎn)來說,地球人都知道
但每次 Technical Report 一出來,架構(gòu)寫幾十頁(yè),數(shù)據(jù)那一塊輕描淡寫,甚至不提
也好理解,畢竟架構(gòu)可以復(fù)現(xiàn),但一批做好的領(lǐng)域數(shù)據(jù),說出去就沒了
UniScientist 做了 4700 多條科研題目,覆蓋物理、數(shù)學(xué)、生物、化學(xué)、計(jì)算機(jī)等 50 多個(gè)學(xué)科。每道題配 20 條以上的評(píng)分標(biāo)準(zhǔn),他們叫 rubric,每條只驗(yàn)證一個(gè)知識(shí)點(diǎn)
科研題目的答案是開放的,沒有標(biāo)準(zhǔn)答案。但可以把一個(gè)開放問題拆成 20 個(gè)檢查項(xiàng),逐條過,質(zhì)量就能量化,專家平均花 1 到 2 小時(shí)標(biāo)一條
![]()
學(xué)科分布 兩條彎路
造這批數(shù)據(jù)之前,走過兩條路
第一條,讓模型直接生成
速度快,成本低。找了一批頂級(jí)高校的碩博來看,反饋是「不太像人話,有點(diǎn)假」。措辭,問題的提法,懂行的人一眼看得出來
第二條,純?nèi)斯?biāo)注
質(zhì)量有保證,但一條標(biāo)下來要好幾天
還有一個(gè)更難的問題:科研題目很多是跨學(xué)科的
比如找一個(gè)化學(xué)博士,標(biāo)一道生物化學(xué)交叉方向的題,他懂化學(xué)那半,生物那半大概了解。生成題目的人和驗(yàn)證題目的人方向不同,理解會(huì)出現(xiàn)矛盾
但在這個(gè)方向上,模型沒有「不對(duì)口」的問題
于是在當(dāng)前這個(gè)階段,就有了 Human in the Loop 的做法,把數(shù)據(jù)生產(chǎn)拆成流程線。有些步驟模型做,有些步驟專家把關(guān),哪個(gè)環(huán)節(jié)該誰(shuí)來,一邊做一邊摸
雖然現(xiàn)在還不能把人拿出去,但我也相信在幾年以后,人就可以不在這個(gè) loop 里了
一個(gè)圖靈測(cè)試
對(duì)于搞科研,Unipat AI 團(tuán)隊(duì)做過一個(gè)實(shí)驗(yàn)
拿三組題,找了一個(gè)美國(guó)高校的博士來盲評(píng)。然后問:哪組最像真實(shí)研究者寫的?
三組分別是:
? FrontierScience 的 benchmark 原題
? 純?nèi)斯?biāo)注的題
? 人機(jī)協(xié)作生成的題
對(duì) benchmark 原題,評(píng)價(jià)是:
中規(guī)中矩,看完能立刻想到解法方向
對(duì)純?nèi)斯?biāo)注那組:
看起來一知半解,有些地方模糊,不像完全對(duì)口的人寫的
對(duì)人機(jī)協(xié)作那組:
這道題的完成度,夠一個(gè)新晉教授拿項(xiàng)目申請(qǐng)書用了
專業(yè)越深,找到完全對(duì)口的人來標(biāo)就越難。人工標(biāo)注反而可能是更大的瓶頸
在足夠?qū)5念I(lǐng)域,「純?nèi)斯ぁ刮幢乇取溉藱C(jī)協(xié)作」更真實(shí)
再回到分?jǐn)?shù)上
UniScientist 用的基座模型是 Qwen3-30B-A3B
同一個(gè)模型,同樣的架構(gòu),同樣的算力,不做任何訓(xùn)練,直接跑 FrontierScience-Research,3 分
用 2000 條他們?cè)斓目蒲袛?shù)據(jù)訓(xùn)完,大概 15 分
擴(kuò)到 4700 條,28.3 分
模型沒換,漲的這 25 分是數(shù)據(jù)喂出來的
邊際效應(yīng)在哪,再加 10 倍數(shù)據(jù)會(huì)怎樣,目前不知道
整條數(shù)據(jù)生產(chǎn)的流程大概是這樣的
左邊是專家給出的科學(xué)論斷和證據(jù)來源,中間是模型做知識(shí)擴(kuò)展,把多個(gè)論斷整合成一道完整的研究問題,專家驗(yàn)證
右邊是從問題里拆出 rubric,再經(jīng)過一輪演化和專家驗(yàn)證,最后形成一條完整的訓(xùn)練數(shù)據(jù):研究背景,研究問題,評(píng)分標(biāo)準(zhǔn)
![]()
UniScientist 推理流程 題目長(zhǎng)什么樣
Blog 里放了幾道樣題,隨便看兩道
化學(xué)方向
給一個(gè)線性四烯的熱解反應(yīng),已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑,用 FMO 理論追蹤立體化學(xué),建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比,設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型,做 DFT 驗(yàn)證,還要做靈敏度分析。配了 30 條 rubric給一個(gè)線性四烯的熱解反應(yīng),已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑,用 FMO 理論追蹤立體化學(xué),建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比,設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型,做 DFT 驗(yàn)證,還要做靈敏度分析。配了 30 條 rubric
![]()
生態(tài)學(xué)方向
一個(gè)植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型,給定參數(shù),要求判斷是否存在穩(wěn)定共存平衡點(diǎn),算出傳粉者的最低維持閾值,分析對(duì)抗壓力下植物崩潰的臨界條件。配了 24 條 rubric
![]()
每一道題都要求完整走一遍科研流程:查文獻(xiàn),建模型,算一遍,驗(yàn)證,寫報(bào)告...
Blog 里還放了一個(gè)完整的推理過程。
一道關(guān)于鎳酞菁 meso 位氮原子修飾的題,模型跑了 22 輪工具調(diào)用,搜了 Google Scholar,讀了 Nature Communications 的全文,被 ScienceDirect 擋了好幾次,換了別的源繼續(xù)找,最后交了一份 17000 字的報(bào)告,10 條 rubric 全拿滿
![]()
![]()
![]()
鎳酞菁 meso 位氮原子修飾
完整案例在這:https://unipat.ai/blog/UniScientist
其他
模型是啥,其實(shí)不怎么重要,但還是講一講:基座是 Qwen3-30B-A3B-Thinking,MoE 架構(gòu),30B 總參數(shù),每次推理激活 3B。128k 上下文,訓(xùn)練用了約 1200 小時(shí) H200 算力
推理時(shí)有四個(gè)工具可以調(diào):網(wǎng)絡(luò)搜索,Google Scholar,網(wǎng)頁(yè)抓取,代碼執(zhí)行。每次任務(wù)最多跑 100 輪,支持多次 rollout 再聚合
說一下這個(gè)榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來的,專門測(cè)科學(xué)研究能力。AI 行業(yè)有個(gè)規(guī)律,一個(gè)榜出來,各家集中優(yōu)化,一年左右刷到天花板。這個(gè)榜目前各家分差還明顯,還沒到扎堆的階段
具體成績(jī):
? FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高
? FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平
? DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0
? DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4
? ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7
不帶工具裸跑,成績(jī)也比基座有明顯提升。不全是靠工具調(diào)用漲的分
模型權(quán)重和推理代碼都開源,Apache 2.0
![]()
benchmark 詳細(xì)對(duì)比 以及..
之前和他們團(tuán)隊(duì)聊天的時(shí)候,我問到
在這個(gè)過程中,有沒有發(fā)現(xiàn)什么奇怪或者不一樣的事情?
也確實(shí)有:用科研數(shù)據(jù)訓(xùn)出來的模型,在通用報(bào)告生成任務(wù)上也漲了
DeepResearch Bench,ResearchRubrics,這些和科研沒直接關(guān)系的榜,分?jǐn)?shù)都跟著上來
不過也合理,做研究這件事,要求主動(dòng)找證據(jù),提假設(shè),驗(yàn)證,迭代,最后寫結(jié)論,和 DeepResearch 挺像的,一旦建立起來,往外溢,大概是自然的
UniPat AI,去年 12 月成立的研究實(shí)驗(yàn)室。之前發(fā)過多模態(tài)評(píng)測(cè)基準(zhǔn) BabyVision,已被多個(gè)近期發(fā)布的模型納入評(píng)測(cè)體系
項(xiàng)目地址:https://github.com/UniPat-AI/UniScientist
模型權(quán)重:https://huggingface.co/UnipatAI/UniScientist-30B-A3B
Blog:https://unipat.ai/blog/UniScientist
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.