網易首頁 > 網易號 > 正文申請入駐

距離“數字科學家”還有多遠？從“死記硬背”到“邏輯博弈”

2026-03-09 11:44:05　來源: 深究科學

浙江舉報

分享至

潘展|編譯

在實驗室的幽暗燈光下，科學家常年與實驗數據和復雜的理論公式博弈。而如今，一個全新的“協作者”出現在了實驗臺上。大語言模型（LLMs）已經展示了書寫論文、總結文獻、甚至是構思復雜實驗流程的驚人能力。

然而，當一個AI系統提出一種新的催化劑分子，或是預測了一種全新的蛋白質結構時，我們如何確定它是真的通過“理解”科學原理得出的結論，還是僅僅在進行一場精密的統計游戲？

近日，《科學》雜志探討了這一核心議題：我們究竟該如何衡量人工智能是否聰明到足以從事科學研究？

從“死記硬背”到“邏輯博弈”

在過去幾年中，AI 模型在各類學術基準測試中表現出了近乎狂飆的性能。無論是 MMLU（大規模多任務語言理解）還是其他通用學科測試，AI的得分屢創新高。然而，這引發了研究界深層的擔憂：這些測試是否正在失效？

前沿LLMs在流行基準和HLE上的性能，圖源：HLE

AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集，許多基準測試題本質上已經成為了模型的“考前背誦材料”。由于目前的AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集，許多基準測試題本質上已經成為了模型的“考前背誦材料”。

當模型面對一道復雜的物理競賽題時，它給出的正確答案可能并非基于對物理定律的深刻推演，而是基于海量訓練數據中的相似模式匹配。也由此，這種“記憶力驅動的智能”在科學研究中是危險的，科學家將它稱之為“數據污染”——科學的本質在于探索未知，而記憶只能復述已知。

為了甄別真正的科學智能，研究人員開始設計那些“無法通過互聯網搜索找到答案”的極端考題。其中，生物、化學、物理領域的GPQA（研究生級別谷歌驗證問答集）成為衡量這一能力的標桿。

各流行模型GPQA分數排行榜，圖片來源Frontier

GPQA的獨特之處在于其極高的門檻。即使是相關學科的專家，在擁有無限互聯網訪問權限的情況下，回答這些問題的正確率也僅在65%至70%之間。如果一個非相關領域的博士去參加測試，正確率往往會大幅跌落。

當新一代AI 模型（如 OpenAI o1 系列）在 GPQA-Diamond 測試中取得超過80%的正確率時，科研界感受到了震動。

他們認為，這不再是簡單的記憶檢索，而是模型展現出了某種形式的“科學推演能力”——它能夠處理多步驟的邏輯鏈條，在信息不足的情況下進行嚴謹的外推。

從“結果導向”轉向“過程審計”

在科學發現中，結論的正確性固然重要，但推導過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監督”。

FrontierScience奧林匹克與科學研究上各模型準確率，圖源：OpenAI

這不僅僅是檢查AI最后的答案是否正確，而是要求模型展示其思維路徑，如在評估一個AI是否具備合成復雜有機分子的能力時，評估者不再只看最終產量，而是逐一審查AI的每一步操作邏輯：它是否考慮了反應環境的溫度與壓力？是否識別并避開了可能發生的副反應？在實驗失敗時，它能否根據異常數據進行正確的歸因分析？

這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠寫出優美的科研術語，但在嚴密的邏輯審查下，其推導鏈條往往存在致命的科學漏洞。

從“實戰測試”到回歸科學的本質

衡量AI性能的最終戰場是真實的實驗室。目前，最前沿的評估方式被稱為“閉環自動化發現”。

在這種模式下，AI 被直接連接到自動化的化學合成實驗室或計算平臺。研究人員只給出一個宏大的目標，如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設中篩選最優路線，指導機器人進行實驗，并根據實驗回傳的實時數據，動態調整自己的假設。

當實驗數據與初始理論沖突時，AI能否迅速識別出是模型偏差還是實驗誤差的反思能力，成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結構、進而逼近真理的AI，才被認為具備了真正的科學直覺。

然而，即便是最先進的AI，在科學領域的表現依然面臨界限。我們衡量AI，并非為了證明它能取代科學家，而是為了確立一種全新的協作范式。

科學研究不僅需要邏輯推演，還需要那種打破范式的“直覺”。目前，AI擅長在既定的科學空間內進行海量的、高維度的搜索與優化，但在提出顛覆性的科學假說、或在模糊的交叉學科邊緣進行原創性飛躍方面，人類科學家依然掌握著主導權。

結語

我們距離創造出一個能夠獨立從事科學研究的“數字科學家”還有多遠？《科學》這篇文章的結論或許可以給予我們啟發：這取決于我們的評估體系演進得有多快。

當我們不再僅僅以“考試成績”來衡量模型，而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學科泛化能力”為坐標系時，我們不僅在篩選更好的工具，更是在重新定義科學本身。

在這個人機共進的時代，衡量AI的過程，本質上也是人類在不斷審視自身如何理解自然界的過程。

https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science

Deep Science預印本

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

RXD大會首發北京：當硅谷還在談論物理AI，西門子已重寫工業規則

機器之心Pro 2026-03-24 17:24:04
0 跟貼 0
你以為在養龍蝦，其實龍蝦在養你

孤獨大腦 2026-03-24 19:41:59
0 跟貼 0

挑戰谷歌！硅谷150人創企發新模型，性能比肩香蕉、價格便宜三成！

智東西 2026-03-24 20:17:21
0 跟貼 0

0設計基礎、不會PS軟件，我用悟空做出了《一圖看懂華為發布會》

雷科技 2026-03-24 20:26:43
0 跟貼 0
騰訊挖來多位字節Seed骨干，向姚順雨匯報丨智能涌現獨家

36氪 2026-03-24 20:52:04
0 跟貼 0

從北緯社區龍蝦大賽到中關村論壇人工智能主題日：海淀AI的新敘事

機器之心Pro 2026-03-24 20:50:43
0 跟貼 0

科學家用女兒做實驗，意外頻發

酒酒愛追劇 2026-03-23 15:38:42
1 跟貼 1
究竟是物理防曬厲害，還是化學防曬更勝一籌，結果讓人意外！

沙雕小分隊 2026-03-20 16:25:57
255 跟貼 255

這不是實驗，是拿命開玩笑

娟姐配音 2026-03-24 07:53:52
7 跟貼 7
課堂有趣的實驗，這樣能成功嗎

趣聞小探 2026-03-20 12:28:21
0 跟貼 0
世界模型開始做減法？LeCun團隊和清華團隊給出兩種思路

機器之心Pro 2026-03-24 17:32:11
0 跟貼 0
如果潛艇沉沒會發生什么？18秒讓你了解這個實驗的最終結果

日不西沉 2026-03-24 03:50:28
4 跟貼 4
請找出實驗中的規范操作！

妙讀國學 2026-03-23 08:10:18
1 跟貼 1
哈佛物理教授瘋了：我讓AI寫論文，結果兩周干完博士一年工作！已發頂刊

新智元 2026-03-24 17:28:46
14 跟貼 14
神秘生物出現女人被吸成干尸

伙計看劇 2026-03-21 17:00:37
1 跟貼 1
富家花重金頭下，泰森11的拳頭模型，有錢就是豪橫

易說搞笑部 2026-03-20 16:00:28
1 跟貼 1
橫著的角度，有點物理常識都不可能拉上來，何況你這個小車！

皮球看生活 2026-03-23 08:54:02
0 跟貼 0
陶哲軒：我差點江郎才盡，只因在普林斯頓待了一年

量子位 2026-03-23 18:20:48
21 跟貼 21
深度長文：速度越快時間越慢，為什么速度會影響時間？

宇宙時空 2026-03-24 17:18:25
0 跟貼 0
百詞斬崩了！連續打卡幾百天的學生稱因“斷簽”急哭，公司深夜回應

極目新聞 2026-03-24 07:58:43
808 跟貼 808
史上最大造芯計劃啟動，馬斯克胃口為何這么大

澎湃新聞 2026-03-24 07:30:37
764 跟貼 764
新華時評：“罵聲”何嘗不是改進工作的鞭策聲

澎湃新聞 2026-03-23 23:28:03
961 跟貼 961
拋硬幣連續出了10次正面？窩要驗幣！“賭神”貝葉斯告訴你這幣還真有問題

中科院物理所 2026-03-24 14:39:56
0 跟貼 0
揭秘民間戲法，紙條變韭菜！背后原理是這樣

皮皮流鼻涕 2026-03-23 14:27:29
1 跟貼 1
男生抽煙找不到打火機，用空氣壓縮法生火，物理老師看了都得點贊

爆笑糗事大集合 2026-03-23 16:01:31
2 跟貼 2
1964年霍金私生活影像，雖不幸患上了肌肉萎縮硬化癥，但還能說話

風行者說 2026-03-24 11:37:08
0 跟貼 0
雞屆第一深情的坤霸天，“這叫屈服生物本能寶貝”

任雪珊的動漫 2026-03-20 19:45:19
4 跟貼 4
MIT團隊給機器人裝上透視眼，藏在紙箱里的東西也能看見

DeepTech深科技 2026-03-24 14:52:33
0 跟貼 0
美國模型飛機試飛，鏡頭一轉事不簡單，指揮員吃了熊心豹子膽

桔子笑笑 2026-03-23 14:56:42
1 跟貼 1
離奇！美5名頂尖科學家接連死亡，UFO與黑科技成奪命符？

風雨與陽光 2026-03-24 16:37:06
0 跟貼 0
中小學春假，多地跟進！

學申論的談妹 2026-03-23 21:46:48
866 跟貼 866
不用一個字，MIT團隊讓細胞自動機教會了大模型推理

DeepTech深科技 2026-03-23 18:28:08
1 跟貼 1
印度單腿立交橋，印度物理學中講的是單腿安全，我們不去操閑心

自流愛生活 2026-03-23 10:58:16
0 跟貼 0
全球科研投入第一或將易主：機構預測中國最早于2028年超越美國

DeepTech深科技 2026-03-24 13:58:20
3 跟貼 3
3個盤子每個盤子8個水果，孩子列式寫3×8被老師判錯；到底是“3×8”還是“8×3”？一位83歲退休教師致信揚子晚報：別為難孩子了

揚子晚報 2026-03-24 18:55:58
0 跟貼 0
AWE上的黑科技！物理學大佬直接現場開課拆解

斑馬野談 2026-03-20 07:47:32
0 跟貼 0
十連勝！上海男籃“復刻”95申花？

上觀新聞 2026-03-24 09:26:12
60 跟貼 60
保定競秀區：科普研學“對話”微生物

人民資訊 2026-03-24 17:47:10
0 跟貼 0
沒有很炸裂的物理原理全是簡單粗暴的手動設計

芋泥哈啵啵 2026-03-24 03:17:31
0 跟貼 0
滴滴AI打車：開啟Agent鏈接物理世界新篇章

劉興亮 2026-03-24 14:54:36
3 跟貼 3

深究科學

科學、技術、創新。

207文章數 10關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

藝術

數碼

游戲

親子

軍事航空

手機 / 數碼

房產 / 家居

距離“數字科學家”還有多遠？從“死記硬背”到“邏輯博弈”

黃仁勛看透中國AI圈 人情世故卷出最快創新

張雪峰被指心臟驟停在蘇州搶救 公司回應：沒收到通知

張雪峰被指心臟驟停在蘇州搶救 公司回應：沒收到通知

NBA最強左手射手，是個右撇子

林峰張馨月全家浙江游 岳母幫忙帶女兒

特朗普再TACO 可以押注伊朗局勢降級？

尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

態度原創

深圳又一世界級地標！崔愷院士操刀，斥資24.4億！

小米大家電業務創歷史新高！2025空調出貨量超850萬臺：增速超24%

幫你暴富！《紅色沙漠》超多金條免費白嫖技巧來了

孩子的模仿能力超乎想象，尤其是3歲左右，父母要多上心

以色列媒體：美國計劃于4月9日結束對伊朗戰爭

黃仁勛看透中國AI圈人情世故卷出最快創新

張雪峰被指心臟驟停在蘇州搶救公司回應：沒收到通知

張雪峰被指心臟驟停在蘇州搶救公司回應：沒收到通知

林峰張馨月全家浙江游岳母幫忙帶女兒

尚界Z7雙車預售22.98萬起問界M6預售26.98萬起