337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

距離“數字科學家”還有多遠?從“死記硬背”到“邏輯博弈”

0
分享至


潘 展|編譯

在實驗室的幽暗燈光下,科學家常年與實驗數據和復雜的理論公式博弈。而如今,一個全新的“協作者”出現在了實驗臺上。大語言模型(LLMs)已經展示了書寫論文、總結文獻、甚至是構思復雜實驗流程的驚人能力。

然而,當一個AI系統提出一種新的催化劑分子,或是預測了一種全新的蛋白質結構時,我們如何確定它是真的通過“理解”科學原理得出的結論,還是僅僅在進行一場精密的統計游戲?


近日,《科學》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學研究?

01


從“死記硬背”到“邏輯博弈”

在過去幾年中,AI 模型在各類學術基準測試中表現出了近乎狂飆的性能。無論是 MMLU(大規模多任務語言理解)還是其他通用學科測試,AI的得分屢創新高。然而,這引發了研究界深層的擔憂:這些測試是否正在失效?


前沿LLMs在流行基準和HLE上的性能,圖源:HLE

AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。由于目前的AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。

當模型面對一道復雜的物理競賽題時,它給出的正確答案可能并非基于對物理定律的深刻推演,而是基于海量訓練數據中的相似模式匹配。也由此,這種“記憶力驅動的智能”在科學研究中是危險的,科學家將它稱之為“數據污染”——科學的本質在于探索未知,而記憶只能復述已知。

為了甄別真正的科學智能,研究人員開始設計那些“無法通過互聯網搜索找到答案”的極端考題。其中,生物、化學、物理領域的GPQA(研究生級別谷歌驗證問答集)成為衡量這一能力的標桿。


各流行模型GPQA分數排行榜,圖片來源Frontier

GPQA的獨特之處在于其極高的門檻。即使是相關學科的專家,在擁有無限互聯網訪問權限的情況下,回答這些問題的正確率也僅在65%至70%之間。如果一個非相關領域的博士去參加測試,正確率往往會大幅跌落。

當新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測試中取得超過80%的正確率時,科研界感受到了震動。

他們認為,這不再是簡單的記憶檢索,而是模型展現出了某種形式的“科學推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進行嚴謹的外推。

02


從“結果導向”轉向“過程審計”

在科學發現中,結論的正確性固然重要,但推導過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監督”。


FrontierScience奧林匹克與科學研究上各模型準確率,圖源:OpenAI

這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評估一個AI是否具備合成復雜有機分子的能力時,評估者不再只看最終產量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應環境的溫度與壓力?是否識別并避開了可能發生的副反應?在實驗失敗時,它能否根據異常數據進行正確的歸因分析?

這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠寫出優美的科研術語,但在嚴密的邏輯審查下,其推導鏈條往往存在致命的科學漏洞。

03


從“實戰測試”到回歸科學的本質

衡量AI性能的最終戰場是真實的實驗室。目前,最前沿的評估方式被稱為“閉環自動化發現”。

在這種模式下,AI 被直接連接到自動化的化學合成實驗室或計算平臺。研究人員只給出一個宏大的目標,如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設中篩選最優路線,指導機器人進行實驗,并根據實驗回傳的實時數據,動態調整自己的假設。

當實驗數據與初始理論沖突時,AI能否迅速識別出是模型偏差還是實驗誤差的反思能力,成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結構、進而逼近真理的AI,才被認為具備了真正的科學直覺。

然而,即便是最先進的AI,在科學領域的表現依然面臨界限。我們衡量AI,并非為了證明它能取代科學家,而是為了確立一種全新的協作范式。

科學研究不僅需要邏輯推演,還需要那種打破范式的“直覺”。目前,AI擅長在既定的科學空間內進行海量的、高維度的搜索與優化,但在提出顛覆性的科學假說、或在模糊的交叉學科邊緣進行原創性飛躍方面,人類科學家依然掌握著主導權。

04


結語

我們距離創造出一個能夠獨立從事科學研究的“數字科學家”還有多遠?《科學》這篇文章的結論或許可以給予我們啟發:這取決于我們的評估體系演進得有多快。

當我們不再僅僅以“考試成績”來衡量模型,而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學科泛化能力”為坐標系時,我們不僅在篩選更好的工具,更是在重新定義科學本身。

在這個人機共進的時代,衡量AI的過程,本質上也是人類在不斷審視自身如何理解自然界的過程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science預印本



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普宣布停止攻擊五分鐘前,已有人15億美元做多美股

特朗普宣布停止攻擊五分鐘前,已有人15億美元做多美股

21世紀經濟報道
2026-03-24 17:47:05
外交部:日方應以實際行動維護中日關系政治基礎

外交部:日方應以實際行動維護中日關系政治基礎

界面新聞
2026-03-24 15:57:25
助理、合伙人回應“張雪峰心臟驟停正在搶救”

助理、合伙人回應“張雪峰心臟驟停正在搶救”

第一財經資訊
2026-03-24 19:15:58
多位網友曝張雪峰猝逝,相關賬號關閉評論,三年前曾突發心悸住院

多位網友曝張雪峰猝逝,相關賬號關閉評論,三年前曾突發心悸住院

萌神木木
2026-03-24 20:04:53
裁掉兩萬多名員工后,扎克伯格終于對自己下手了,他正秘密測試“AI替身”來幫自己當CEO

裁掉兩萬多名員工后,扎克伯格終于對自己下手了,他正秘密測試“AI替身”來幫自己當CEO

星海情報局
2026-03-23 19:55:13
擁有博士學位的“革命之子”,伊朗議會議長是以色列暗殺目標還是美國潛在合作伙伴?

擁有博士學位的“革命之子”,伊朗議會議長是以色列暗殺目標還是美國潛在合作伙伴?

紅星新聞
2026-03-24 16:55:09
市監局的“間歇性失明”:不曝光,麻醉魚、毒草莓就不存在?

市監局的“間歇性失明”:不曝光,麻醉魚、毒草莓就不存在?

爆角追蹤
2026-03-24 10:17:26
今天上午平涼路近蘭州路一男子因家庭糾紛當街毆打妻子 當事人已被刑拘

今天上午平涼路近蘭州路一男子因家庭糾紛當街毆打妻子 當事人已被刑拘

上觀新聞
2026-03-24 20:06:04
這次破案了,中方追回走私稀土,價值46個億,美國砸重金收買內鬼

這次破案了,中方追回走私稀土,價值46個億,美國砸重金收買內鬼

影孖看世界
2026-03-23 23:29:51
美國跟誰談了?特朗普:不能透露名字 怕他被殺

美國跟誰談了?特朗普:不能透露名字 怕他被殺

看看新聞Knews
2026-03-24 17:09:03
18歲男大學生患“桃花癲”,一周揮霍5萬元,半夜頻繁打電話騷擾同學,幻想神秘力量助自己進行偉大發明,經電休克 “重啟” 大腦治療后好轉

18歲男大學生患“桃花癲”,一周揮霍5萬元,半夜頻繁打電話騷擾同學,幻想神秘力量助自己進行偉大發明,經電休克 “重啟” 大腦治療后好轉

觀威海
2026-03-24 10:43:03
張雪峰頭像變灰色!本人資產曝光,早為11歲女兒鋪好路!

張雪峰頭像變灰色!本人資產曝光,早為11歲女兒鋪好路!

古希臘掌管松餅的神
2026-03-24 21:00:43
伊朗最高領袖顧問重申結束戰爭條件

伊朗最高領袖顧問重申結束戰爭條件

界面新聞
2026-03-24 15:44:17
廢舊手機回收迎來“火熱期”!有市民一次性賣五六部變現近千元

廢舊手機回收迎來“火熱期”!有市民一次性賣五六部變現近千元

閃電新聞
2026-03-24 14:50:40
搞不到尿素,愁壞印度

搞不到尿素,愁壞印度

南風窗
2026-03-24 13:11:09
張雪峰被曝心臟驟停搶救,前一天還在大魚大肉,一人吃6個菜

張雪峰被曝心臟驟停搶救,前一天還在大魚大肉,一人吃6個菜

映射生活的身影
2026-03-24 18:27:44
人民網剛批完姚晨,就被網友們發現它又在雙標了

人民網剛批完姚晨,就被網友們發現它又在雙標了

清書先生
2026-03-24 16:59:21
曝張雪峰心臟驟停搶救,殯葬人員證實已去世,11歲女兒被緊急接走

曝張雪峰心臟驟停搶救,殯葬人員證實已去世,11歲女兒被緊急接走

古希臘掌管松餅的神
2026-03-24 20:08:34
河北一網友稱加完油才發現是“中園石化”,涉事加油站回應稱名字是經過審批的;此前有加油站因與中國石化logo近似,被行政處罰10000元

河北一網友稱加完油才發現是“中園石化”,涉事加油站回應稱名字是經過審批的;此前有加油站因與中國石化logo近似,被行政處罰10000元

大風新聞
2026-03-24 12:12:03
大瓜!網傳張雪峰猝死,助理回應

大瓜!網傳張雪峰猝死,助理回應

新浪財經
2026-03-24 18:06:43
2026-03-24 21:16:49
深究科學 incentive-icons
深究科學
科學、技術、創新。
207文章數 10關注度
往期回顧 全部

科技要聞

黃仁勛看透中國AI圈 人情世故卷出最快創新

頭條要聞

張雪峰被指心臟驟停在蘇州搶救 公司回應:沒收到通知

頭條要聞

張雪峰被指心臟驟停在蘇州搶救 公司回應:沒收到通知

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

林峰張馨月全家浙江游 岳母幫忙帶女兒

財經要聞

特朗普再TACO 可以押注伊朗局勢降級?

汽車要聞

尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

態度原創

藝術
數碼
游戲
親子
軍事航空

藝術要聞

深圳又一世界級地標!崔愷院士操刀,斥資24.4億!

數碼要聞

小米大家電業務創歷史新高!2025空調出貨量超850萬臺:增速超24%

幫你暴富!《紅色沙漠》超多金條免費白嫖技巧來了

親子要聞

孩子的模仿能力超乎想象,尤其是3歲左右,父母要多上心

軍事要聞

以色列媒體:美國計劃于4月9日結束對伊朗戰爭

無障礙瀏覽 進入關懷版