網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

UniPat AI 造了批數(shù)據(jù)，讓 Qwen 的 3B 激活小模型，單項(xiàng)超過 GPT-5.4

2026-03-09 15:47:39　來源: 賽博禪心

北京舉報(bào)

分享至

UniPat AI 開源了他們的一個(gè)科研 agent 模型 UniScientist，后訓(xùn)練自 Qwen3，30B參數(shù)，3B激活

在 FrontierScience-Research 榜單上拿了 28.3 分，多跑幾次聚合后 33.3，略微還超過了 GPT-5.4（33.0分）

https://github.com/UniPat-AI/UniScientist

但....別急著下結(jié)論，雖然是老朋友，我也不能硬吹，得說一下：FrontierScience-Research 測(cè)的是一項(xiàng)很具體的能力

比如：給你一個(gè)開放式科學(xué)問題，自己檢索文獻(xiàn)，提出假設(shè)，做推導(dǎo)，做仿真，迭代驗(yàn)證，最后交一份完整的研究報(bào)告。就是科研這一件事，不是通用智能

用小模型打平 GPT-5.4，靠的也不是模型本身多聰明，而是他們?cè)炝艘慌鷶?shù)據(jù)
這批數(shù)據(jù)怎么造的，比模型本身有意思

數(shù)據(jù)這件事

好模型 = 好數(shù)據(jù) + 好架構(gòu) + 足夠算力
這點(diǎn)來說，地球人都知道

但每次 Technical Report 一出來，架構(gòu)寫幾十頁(yè)，數(shù)據(jù)那一塊輕描淡寫，甚至不提

也好理解，畢竟架構(gòu)可以復(fù)現(xiàn)，但一批做好的領(lǐng)域數(shù)據(jù)，說出去就沒了

UniScientist 做了 4700 多條科研題目，覆蓋物理、數(shù)學(xué)、生物、化學(xué)、計(jì)算機(jī)等 50 多個(gè)學(xué)科。每道題配 20 條以上的評(píng)分標(biāo)準(zhǔn)，他們叫 rubric，每條只驗(yàn)證一個(gè)知識(shí)點(diǎn)

科研題目的答案是開放的，沒有標(biāo)準(zhǔn)答案。但可以把一個(gè)開放問題拆成 20 個(gè)檢查項(xiàng)，逐條過，質(zhì)量就能量化，專家平均花 1 到 2 小時(shí)標(biāo)一條

學(xué)科分布兩條彎路

造這批數(shù)據(jù)之前，走過兩條路

第一條，讓模型直接生成
速度快，成本低。找了一批頂級(jí)高校的碩博來看，反饋是「不太像人話，有點(diǎn)假」。措辭，問題的提法，懂行的人一眼看得出來

第二條，純?nèi)斯?biāo)注
質(zhì)量有保證，但一條標(biāo)下來要好幾天

還有一個(gè)更難的問題：科研題目很多是跨學(xué)科的
比如找一個(gè)化學(xué)博士，標(biāo)一道生物化學(xué)交叉方向的題，他懂化學(xué)那半，生物那半大概了解。生成題目的人和驗(yàn)證題目的人方向不同，理解會(huì)出現(xiàn)矛盾

但在這個(gè)方向上，模型沒有「不對(duì)口」的問題
于是在當(dāng)前這個(gè)階段，就有了 Human in the Loop 的做法，把數(shù)據(jù)生產(chǎn)拆成流程線。有些步驟模型做，有些步驟專家把關(guān)，哪個(gè)環(huán)節(jié)該誰(shuí)來，一邊做一邊摸

雖然現(xiàn)在還不能把人拿出去，但我也相信在幾年以后，人就可以不在這個(gè) loop 里了

一個(gè)圖靈測(cè)試

對(duì)于搞科研，Unipat AI 團(tuán)隊(duì)做過一個(gè)實(shí)驗(yàn)
拿三組題，找了一個(gè)美國(guó)高校的博士來盲評(píng)。然后問：哪組最像真實(shí)研究者寫的？

三組分別是：

? FrontierScience 的 benchmark 原題
? 純?nèi)斯?biāo)注的題
? 人機(jī)協(xié)作生成的題

對(duì) benchmark 原題，評(píng)價(jià)是：
中規(guī)中矩，看完能立刻想到解法方向

對(duì)純?nèi)斯?biāo)注那組：
看起來一知半解，有些地方模糊，不像完全對(duì)口的人寫的

對(duì)人機(jī)協(xié)作那組：
這道題的完成度，夠一個(gè)新晉教授拿項(xiàng)目申請(qǐng)書用了

專業(yè)越深，找到完全對(duì)口的人來標(biāo)就越難。人工標(biāo)注反而可能是更大的瓶頸
在足夠?qū)５念I(lǐng)域，「純?nèi)斯ぁ刮幢乇取溉藱C(jī)協(xié)作」更真實(shí)

再回到分?jǐn)?shù)上
UniScientist 用的基座模型是 Qwen3-30B-A3B

同一個(gè)模型，同樣的架構(gòu)，同樣的算力，不做任何訓(xùn)練，直接跑 FrontierScience-Research，3 分
用 2000 條他們?cè)斓目蒲袛?shù)據(jù)訓(xùn)完，大概 15 分
擴(kuò)到 4700 條，28.3 分

模型沒換，漲的這 25 分是數(shù)據(jù)喂出來的
邊際效應(yīng)在哪，再加 10 倍數(shù)據(jù)會(huì)怎樣，目前不知道

整條數(shù)據(jù)生產(chǎn)的流程大概是這樣的

左邊是專家給出的科學(xué)論斷和證據(jù)來源，中間是模型做知識(shí)擴(kuò)展，把多個(gè)論斷整合成一道完整的研究問題，專家驗(yàn)證

右邊是從問題里拆出 rubric，再經(jīng)過一輪演化和專家驗(yàn)證，最后形成一條完整的訓(xùn)練數(shù)據(jù)：研究背景，研究問題，評(píng)分標(biāo)準(zhǔn)

UniScientist 推理流程題目長(zhǎng)什么樣

Blog 里放了幾道樣題，隨便看兩道

化學(xué)方向
給一個(gè)線性四烯的熱解反應(yīng)，已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑，用 FMO 理論追蹤立體化學(xué)，建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比，設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型，做 DFT 驗(yàn)證，還要做靈敏度分析。配了 30 條 rubric給一個(gè)線性四烯的熱解反應(yīng)，已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑，用 FMO 理論追蹤立體化學(xué)，建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比，設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型，做 DFT 驗(yàn)證，還要做靈敏度分析。配了 30 條 rubric

生態(tài)學(xué)方向
一個(gè)植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型，給定參數(shù)，要求判斷是否存在穩(wěn)定共存平衡點(diǎn)，算出傳粉者的最低維持閾值，分析對(duì)抗壓力下植物崩潰的臨界條件。配了 24 條 rubric

每一道題都要求完整走一遍科研流程：
查文獻(xiàn)，建模型，算一遍，驗(yàn)證，寫報(bào)告...

Blog 里還放了一個(gè)完整的推理過程。

一道關(guān)于鎳酞菁 meso 位氮原子修飾的題，模型跑了 22 輪工具調(diào)用，搜了 Google Scholar，讀了 Nature Communications 的全文，被 ScienceDirect 擋了好幾次，換了別的源繼續(xù)找，最后交了一份 17000 字的報(bào)告，10 條 rubric 全拿滿

鎳酞菁 meso 位氮原子修飾

完整案例在這：
https://unipat.ai/blog/UniScientist

其他

模型是啥，其實(shí)不怎么重要，但還是講一講：基座是 Qwen3-30B-A3B-Thinking，MoE 架構(gòu)，30B 總參數(shù)，每次推理激活 3B。128k 上下文，訓(xùn)練用了約 1200 小時(shí) H200 算力

推理時(shí)有四個(gè)工具可以調(diào)：網(wǎng)絡(luò)搜索，Google Scholar，網(wǎng)頁(yè)抓取，代碼執(zhí)行。每次任務(wù)最多跑 100 輪，支持多次 rollout 再聚合

說一下這個(gè)榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來的，專門測(cè)科學(xué)研究能力。AI 行業(yè)有個(gè)規(guī)律，一個(gè)榜出來，各家集中優(yōu)化，一年左右刷到天花板。這個(gè)榜目前各家分差還明顯，還沒到扎堆的階段

具體成績(jī)：

? FrontierScience-Research： 28.3 （聚合后 33.3 ），GPT-5.4 是 33.0，GPT-5.4 Pro 更高
? FrontierScience-Olympiad：聚合后 71.0 ，和 Claude Opus 4.5 持平
? DeepResearch Bench： 46.0 ，OpenAI Deep Research 是 47.0
? DeepResearch Bench II： 48.0 ，OpenAI Deep Research 是 45.4
? ResearchRubrics： 59.9 ，OpenAI Deep Research 是 59.7

不帶工具裸跑，成績(jī)也比基座有明顯提升。不全是靠工具調(diào)用漲的分

模型權(quán)重和推理代碼都開源，Apache 2.0

benchmark 詳細(xì)對(duì)比以及..

之前和他們團(tuán)隊(duì)聊天的時(shí)候，我問到
在這個(gè)過程中，有沒有發(fā)現(xiàn)什么奇怪或者不一樣的事情？

也確實(shí)有：用科研數(shù)據(jù)訓(xùn)出來的模型，在通用報(bào)告生成任務(wù)上也漲了

DeepResearch Bench，ResearchRubrics，這些和科研沒直接關(guān)系的榜，分?jǐn)?shù)都跟著上來

不過也合理，做研究這件事，要求主動(dòng)找證據(jù)，提假設(shè)，驗(yàn)證，迭代，最后寫結(jié)論，和 DeepResearch 挺像的，一旦建立起來，往外溢，大概是自然的

UniPat AI，去年 12 月成立的研究實(shí)驗(yàn)室。之前發(fā)過多模態(tài)評(píng)測(cè)基準(zhǔn) BabyVision，已被多個(gè)近期發(fā)布的模型納入評(píng)測(cè)體系

項(xiàng)目地址：
https://github.com/UniPat-AI/UniScientist

模型權(quán)重：
https://huggingface.co/UnipatAI/UniScientist-30B-A3B

Blog：
https://unipat.ai/blog/UniScientist

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.