337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

UniPat AI 造了批數(shù)據(jù),讓 Qwen 的 3B 激活小模型,單項(xiàng)超過 GPT-5.4

0
分享至

UniPat AI 開源了他們的一個(gè)科研 agent 模型 UniScientist,后訓(xùn)練自 Qwen3,30B參數(shù),3B激活

在 FrontierScience-Research 榜單上拿了 28.3 分,多跑幾次聚合后 33.3,略微還超過了 GPT-5.4(33.0分)


https://github.com/UniPat-AI/UniScientist

但....別急著下結(jié)論,雖然是老朋友,我也不能硬吹,得說一下:FrontierScience-Research 測(cè)的是一項(xiàng)很具體的能力

比如:給你一個(gè)開放式科學(xué)問題,自己檢索文獻(xiàn),提出假設(shè),做推導(dǎo),做仿真,迭代驗(yàn)證,最后交一份完整的研究報(bào)告。就是科研這一件事,不是通用智能

用小模型打平 GPT-5.4,靠的也不是模型本身多聰明,而是他們?cè)炝艘慌鷶?shù)據(jù)
這批數(shù)據(jù)怎么造的,比模型本身有意思

數(shù)據(jù)這件事

好模型 = 好數(shù)據(jù) + 好架構(gòu) + 足夠算力
這點(diǎn)來說,地球人都知道

但每次 Technical Report 一出來,架構(gòu)寫幾十頁(yè),數(shù)據(jù)那一塊輕描淡寫,甚至不提

也好理解,畢竟架構(gòu)可以復(fù)現(xiàn),但一批做好的領(lǐng)域數(shù)據(jù),說出去就沒了

UniScientist 做了 4700 多條科研題目,覆蓋物理、數(shù)學(xué)、生物、化學(xué)、計(jì)算機(jī)等 50 多個(gè)學(xué)科。每道題配 20 條以上的評(píng)分標(biāo)準(zhǔn),他們叫 rubric,每條只驗(yàn)證一個(gè)知識(shí)點(diǎn)

科研題目的答案是開放的,沒有標(biāo)準(zhǔn)答案。但可以把一個(gè)開放問題拆成 20 個(gè)檢查項(xiàng),逐條過,質(zhì)量就能量化,專家平均花 1 到 2 小時(shí)標(biāo)一條


學(xué)科分布 兩條彎路

造這批數(shù)據(jù)之前,走過兩條路

第一條,讓模型直接生成
速度快,成本低。找了一批頂級(jí)高校的碩博來看,反饋是「不太像人話,有點(diǎn)假」。措辭,問題的提法,懂行的人一眼看得出來

第二條,純?nèi)斯?biāo)注
質(zhì)量有保證,但一條標(biāo)下來要好幾天

還有一個(gè)更難的問題:科研題目很多是跨學(xué)科的
比如找一個(gè)化學(xué)博士,標(biāo)一道生物化學(xué)交叉方向的題,他懂化學(xué)那半,生物那半大概了解。生成題目的人和驗(yàn)證題目的人方向不同,理解會(huì)出現(xiàn)矛盾

但在這個(gè)方向上,模型沒有「不對(duì)口」的問題
于是在當(dāng)前這個(gè)階段,就有了 Human in the Loop 的做法,把數(shù)據(jù)生產(chǎn)拆成流程線。有些步驟模型做,有些步驟專家把關(guān),哪個(gè)環(huán)節(jié)該誰(shuí)來,一邊做一邊摸

雖然現(xiàn)在還不能把人拿出去,但我也相信在幾年以后,人就可以不在這個(gè) loop 里了

一個(gè)圖靈測(cè)試

對(duì)于搞科研,Unipat AI 團(tuán)隊(duì)做過一個(gè)實(shí)驗(yàn)
拿三組題,找了一個(gè)美國(guó)高校的博士來盲評(píng)。然后問:哪組最像真實(shí)研究者寫的?

三組分別是:

  • ? FrontierScience 的 benchmark 原題

  • ? 純?nèi)斯?biāo)注的題

  • ? 人機(jī)協(xié)作生成的題

對(duì) benchmark 原題,評(píng)價(jià)是:
中規(guī)中矩,看完能立刻想到解法方向

對(duì)純?nèi)斯?biāo)注那組:
看起來一知半解,有些地方模糊,不像完全對(duì)口的人寫的

對(duì)人機(jī)協(xié)作那組:
這道題的完成度,夠一個(gè)新晉教授拿項(xiàng)目申請(qǐng)書用了

專業(yè)越深,找到完全對(duì)口的人來標(biāo)就越難。人工標(biāo)注反而可能是更大的瓶頸
在足夠?qū)5念I(lǐng)域,「純?nèi)斯ぁ刮幢乇取溉藱C(jī)協(xié)作」更真實(shí)

再回到分?jǐn)?shù)上
UniScientist 用的基座模型是 Qwen3-30B-A3B

同一個(gè)模型,同樣的架構(gòu),同樣的算力,不做任何訓(xùn)練,直接跑 FrontierScience-Research,3 分
用 2000 條他們?cè)斓目蒲袛?shù)據(jù)訓(xùn)完,大概 15 分
擴(kuò)到 4700 條,28.3 分

模型沒換,漲的這 25 分是數(shù)據(jù)喂出來的
邊際效應(yīng)在哪,再加 10 倍數(shù)據(jù)會(huì)怎樣,目前不知道

整條數(shù)據(jù)生產(chǎn)的流程大概是這樣的

左邊是專家給出的科學(xué)論斷和證據(jù)來源,中間是模型做知識(shí)擴(kuò)展,把多個(gè)論斷整合成一道完整的研究問題,專家驗(yàn)證

右邊是從問題里拆出 rubric,再經(jīng)過一輪演化和專家驗(yàn)證,最后形成一條完整的訓(xùn)練數(shù)據(jù):研究背景,研究問題,評(píng)分標(biāo)準(zhǔn)


UniScientist 推理流程 題目長(zhǎng)什么樣

Blog 里放了幾道樣題,隨便看兩道

化學(xué)方向
給一個(gè)線性四烯的熱解反應(yīng),已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑,用 FMO 理論追蹤立體化學(xué),建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比,設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型,做 DFT 驗(yàn)證,還要做靈敏度分析。配了 30 條 rubric給一個(gè)線性四烯的熱解反應(yīng),已知產(chǎn)物比是 3:1。要求枚舉所有對(duì)稱性不同的環(huán)化路徑,用 FMO 理論追蹤立體化學(xué),建立統(tǒng)計(jì)模型和動(dòng)力學(xué)模型分別預(yù)測(cè)產(chǎn)物比,設(shè)計(jì)實(shí)驗(yàn)區(qū)分兩個(gè)模型,做 DFT 驗(yàn)證,還要做靈敏度分析。配了 30 條 rubric


生態(tài)學(xué)方向
一個(gè)植物加三種傳粉昆蟲加三種害蟲的 ODE 群落模型,給定參數(shù),要求判斷是否存在穩(wěn)定共存平衡點(diǎn),算出傳粉者的最低維持閾值,分析對(duì)抗壓力下植物崩潰的臨界條件。配了 24 條 rubric


每一道題都要求完整走一遍科研流程:
查文獻(xiàn)建模型算一遍驗(yàn)證寫報(bào)告...

Blog 里還放了一個(gè)完整的推理過程。

一道關(guān)于鎳酞菁 meso 位氮原子修飾的題,模型跑了 22 輪工具調(diào)用,搜了 Google Scholar,讀了 Nature Communications 的全文,被 ScienceDirect 擋了好幾次,換了別的源繼續(xù)找,最后交了一份 17000 字的報(bào)告,10 條 rubric 全拿滿




鎳酞菁 meso 位氮原子修飾

完整案例在這:
https://unipat.ai/blog/UniScientist

其他

模型是啥,其實(shí)不怎么重要,但還是講一講:基座是 Qwen3-30B-A3B-Thinking,MoE 架構(gòu),30B 總參數(shù),每次推理激活 3B。128k 上下文,訓(xùn)練用了約 1200 小時(shí) H200 算力

推理時(shí)有四個(gè)工具可以調(diào):網(wǎng)絡(luò)搜索,Google Scholar,網(wǎng)頁(yè)抓取,代碼執(zhí)行。每次任務(wù)最多跑 100 輪,支持多次 rollout 再聚合

說一下這個(gè)榜本身。FrontierScience-Research 是 OpenAI 去年 12 月放出來的,專門測(cè)科學(xué)研究能力。AI 行業(yè)有個(gè)規(guī)律,一個(gè)榜出來,各家集中優(yōu)化,一年左右刷到天花板。這個(gè)榜目前各家分差還明顯,還沒到扎堆的階段

具體成績(jī):

  • ? FrontierScience-Research: 28.3 (聚合后 33.3 ),GPT-5.4 是 33.0,GPT-5.4 Pro 更高

  • ? FrontierScience-Olympiad:聚合后 71.0 ,和 Claude Opus 4.5 持平

  • ? DeepResearch Bench: 46.0 ,OpenAI Deep Research 是 47.0

  • ? DeepResearch Bench II: 48.0 ,OpenAI Deep Research 是 45.4

  • ? ResearchRubrics: 59.9 ,OpenAI Deep Research 是 59.7

不帶工具裸跑,成績(jī)也比基座有明顯提升。不全是靠工具調(diào)用漲的分

模型權(quán)重和推理代碼都開源,Apache 2.0


benchmark 詳細(xì)對(duì)比 以及..

之前和他們團(tuán)隊(duì)聊天的時(shí)候,我問到
在這個(gè)過程中,有沒有發(fā)現(xiàn)什么奇怪或者不一樣的事情?

也確實(shí)有:用科研數(shù)據(jù)訓(xùn)出來的模型,在通用報(bào)告生成任務(wù)上也漲了

DeepResearch Bench,ResearchRubrics,這些和科研沒直接關(guān)系的榜,分?jǐn)?shù)都跟著上來

不過也合理,做研究這件事,要求主動(dòng)找證據(jù),提假設(shè),驗(yàn)證,迭代,最后寫結(jié)論,和 DeepResearch 挺像的,一旦建立起來,往外溢,大概是自然的

UniPat AI,去年 12 月成立的研究實(shí)驗(yàn)室。之前發(fā)過多模態(tài)評(píng)測(cè)基準(zhǔn) BabyVision,已被多個(gè)近期發(fā)布的模型納入評(píng)測(cè)體系

項(xiàng)目地址:
https://github.com/UniPat-AI/UniScientist

模型權(quán)重:
https://huggingface.co/UnipatAI/UniScientist-30B-A3B

Blog:
https://unipat.ai/blog/UniScientist

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
泰山0-4不敵,宿茂臻賽后言論徹底打服眾人

泰山0-4不敵,宿茂臻賽后言論徹底打服眾人

春日筆記
2026-03-22 05:05:57
出場(chǎng)數(shù)已達(dá)標(biāo)!不出意外,以杜蘭特本賽季的表現(xiàn)保底最佳三陣!

出場(chǎng)數(shù)已達(dá)標(biāo)!不出意外,以杜蘭特本賽季的表現(xiàn)保底最佳三陣!

田先生籃球
2026-03-21 13:03:30
炸穿天際!伊朗再出王炸,美國(guó)被坑慘了!

炸穿天際!伊朗再出王炸,美國(guó)被坑慘了!

大嘴說天下
2026-03-21 20:55:08
錢從中央直接發(fā)到卡里!農(nóng)業(yè)農(nóng)村部公布16項(xiàng)補(bǔ)貼“直達(dá)到戶”

錢從中央直接發(fā)到卡里!農(nóng)業(yè)農(nóng)村部公布16項(xiàng)補(bǔ)貼“直達(dá)到戶”

三農(nóng)雷哥
2026-03-21 19:02:33
砸 1 億鎊!曼城瘋搶世界頂級(jí)邊鋒,瓜帥王朝重建第一簽來了

砸 1 億鎊!曼城瘋搶世界頂級(jí)邊鋒,瓜帥王朝重建第一簽來了

瀾歸序
2026-03-22 02:19:15
爛番茄95%口碑大爆!不燒腦又解壓,這部好萊塢太空大片就是個(gè)爽

爛番茄95%口碑大爆!不燒腦又解壓,這部好萊塢太空大片就是個(gè)爽

桃桃淘電影
2026-03-21 12:00:13
太狠了!29歲女子列出6條硬核擇偶條件,母親憂心忡忡,怕嫁不出

太狠了!29歲女子列出6條硬核擇偶條件,母親憂心忡忡,怕嫁不出

火山詩(shī)話
2026-03-22 08:42:03
52歲北京炒股冠軍罕見發(fā)聲:洗盤如果洗不掉散戶,莊家會(huì)怎么辦?

52歲北京炒股冠軍罕見發(fā)聲:洗盤如果洗不掉散戶,莊家會(huì)怎么辦?

股經(jīng)縱橫談
2026-03-20 21:45:04
迪馬塔:向全中國(guó)展示了我們是強(qiáng)大的球隊(duì),是自己主場(chǎng)的冠軍

迪馬塔:向全中國(guó)展示了我們是強(qiáng)大的球隊(duì),是自己主場(chǎng)的冠軍

懂球帝
2026-03-21 21:57:43
老紅軍吃豬下水,被開國(guó)少將吊起來打,建國(guó)后二人住一院互不來往

老紅軍吃豬下水,被開國(guó)少將吊起來打,建國(guó)后二人住一院互不來往

浩渺青史
2026-03-19 18:36:25
武契奇通告全球:已拿到中國(guó)導(dǎo)彈,話音剛落,就受到俄外長(zhǎng)的敲打

武契奇通告全球:已拿到中國(guó)導(dǎo)彈,話音剛落,就受到俄外長(zhǎng)的敲打

浪子阿邴聊體育
2026-03-20 07:24:35
上海市通信管理局下架10款侵害用戶權(quán)益行為APP(SDK)

上海市通信管理局下架10款侵害用戶權(quán)益行為APP(SDK)

界面新聞
2026-03-20 19:54:02
硬氣出手!5000磅鉆地彈砸穿霍爾木茲,全球航道終于喘口氣

硬氣出手!5000磅鉆地彈砸穿霍爾木茲,全球航道終于喘口氣

老馬拉車莫少裝
2026-03-18 20:30:16
女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

女生主動(dòng)起來有多黏人?網(wǎng)友:這些女的太開放了

帶你感受人間冷暖
2026-01-27 00:20:06
真神仙專業(yè)!中國(guó)道教學(xué)院招生了,包含道教歷史與神仙等5個(gè)專業(yè),計(jì)劃招30名本科生,16名研究生

真神仙專業(yè)!中國(guó)道教學(xué)院招生了,包含道教歷史與神仙等5個(gè)專業(yè),計(jì)劃招30名本科生,16名研究生

觀威海
2026-03-21 15:43:14
壞消息,湖人隊(duì)盧卡·東契奇因第16次技術(shù)犯規(guī)被禁賽一場(chǎng)

壞消息,湖人隊(duì)盧卡·東契奇因第16次技術(shù)犯規(guī)被禁賽一場(chǎng)

好火子
2026-03-22 10:17:12
0-4!韓鵬沒水平還玩套路!名記:我直接說原因

0-4!韓鵬沒水平還玩套路!名記:我直接說原因

建哥說體育
2026-03-22 09:03:05
蔣介石晚年評(píng)價(jià)朱德:他最大的本事,就是讓人永遠(yuǎn)看不出他的本事

蔣介石晚年評(píng)價(jià)朱德:他最大的本事,就是讓人永遠(yuǎn)看不出他的本事

新一說史
2026-03-19 20:36:47
2026掃黑再升級(jí)!中央定調(diào)嚴(yán)打“六霸”,一個(gè)都不放過

2026掃黑再升級(jí)!中央定調(diào)嚴(yán)打“六霸”,一個(gè)都不放過

另子維愛讀史
2026-03-20 22:10:21
離異八載了,前夫在深夜驟然來電:我媽住院,你轉(zhuǎn)58萬過來

離異八載了,前夫在深夜驟然來電:我媽住院,你轉(zhuǎn)58萬過來

娛樂洞察點(diǎn)點(diǎn)
2026-03-21 15:04:53
2026-03-22 11:03:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數(shù) 49關(guān)注度
往期回顧 全部

科技要聞

OpenAI開啟“人海戰(zhàn)術(shù)” 沖刺8000人規(guī)模

頭條要聞

八國(guó)已就霍爾木茲海峽發(fā)聲 英核動(dòng)力潛艇抵達(dá)阿拉伯海

頭條要聞

八國(guó)已就霍爾木茲海峽發(fā)聲 英核動(dòng)力潛艇抵達(dá)阿拉伯海

體育要聞

鄭欽文兩盤橫掃前美網(wǎng)冠軍 迎邁阿密站開門紅

娛樂要聞

田栩?qū)幗K于涼了?出軌風(fēng)波影響惡劣

財(cái)經(jīng)要聞

睡夢(mèng)中欠債1.2萬?這只“蝦”殺瘋了

汽車要聞

14.28萬元起 吉利銀河星耀8遠(yuǎn)航家開啟預(yù)售

態(tài)度原創(chuàng)

數(shù)碼
親子
游戲
公開課
軍事航空

數(shù)碼要聞

無需充氣壓縮:榮耀手表5 Ultra升級(jí)支持血壓監(jiān)測(cè)功能

親子要聞

現(xiàn)在的小孩有多早熟?網(wǎng)友:初一來大姨媽

《紅色沙漠》按鍵反人類 官方回應(yīng)正開發(fā)解決補(bǔ)丁

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊導(dǎo)彈擊中以核設(shè)施附近 爆炸視頻公布

無障礙瀏覽 進(jìn)入關(guān)懷版