![]()
潘 展|編譯
在實驗室的幽暗燈光下,科學家常年與實驗數據和復雜的理論公式博弈。而如今,一個全新的“協作者”出現在了實驗臺上。大語言模型(LLMs)已經展示了書寫論文、總結文獻、甚至是構思復雜實驗流程的驚人能力。
然而,當一個AI系統提出一種新的催化劑分子,或是預測了一種全新的蛋白質結構時,我們如何確定它是真的通過“理解”科學原理得出的結論,還是僅僅在進行一場精密的統計游戲?
![]()
近日,《科學》雜志探討了這一核心議題:我們究竟該如何衡量人工智能是否聰明到足以從事科學研究?
01
從“死記硬背”到“邏輯博弈”
在過去幾年中,AI 模型在各類學術基準測試中表現出了近乎狂飆的性能。無論是 MMLU(大規模多任務語言理解)還是其他通用學科測試,AI的得分屢創新高。然而,這引發了研究界深層的擔憂:這些測試是否正在失效?
![]()
前沿LLMs在流行基準和HLE上的性能,圖源:HLE
AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。由于目前的AI模型在訓練階段幾乎“閱讀”了互聯網上公開的所有科學論文、教科書和在線習題集,許多基準測試題本質上已經成為了模型的“考前背誦材料”。
當模型面對一道復雜的物理競賽題時,它給出的正確答案可能并非基于對物理定律的深刻推演,而是基于海量訓練數據中的相似模式匹配。也由此,這種“記憶力驅動的智能”在科學研究中是危險的,科學家將它稱之為“數據污染”——科學的本質在于探索未知,而記憶只能復述已知。
為了甄別真正的科學智能,研究人員開始設計那些“無法通過互聯網搜索找到答案”的極端考題。其中,生物、化學、物理領域的GPQA(研究生級別谷歌驗證問答集)成為衡量這一能力的標桿。
![]()
各流行模型GPQA分數排行榜,圖片來源Frontier
GPQA的獨特之處在于其極高的門檻。即使是相關學科的專家,在擁有無限互聯網訪問權限的情況下,回答這些問題的正確率也僅在65%至70%之間。如果一個非相關領域的博士去參加測試,正確率往往會大幅跌落。
當新一代AI 模型(如 OpenAI o1 系列)在 GPQA-Diamond 測試中取得超過80%的正確率時,科研界感受到了震動。
他們認為,這不再是簡單的記憶檢索,而是模型展現出了某種形式的“科學推演能力”——它能夠處理多步驟的邏輯鏈條,在信息不足的情況下進行嚴謹的外推。
02
從“結果導向”轉向“過程審計”
在科學發現中,結論的正確性固然重要,但推導過程的嚴謹性往往決定了研究的價值。最新的評估框架開始引入“過程監督”。
![]()
FrontierScience奧林匹克與科學研究上各模型準確率,圖源:OpenAI
這不僅僅是檢查AI最后的答案是否正確,而是要求模型展示其思維路徑,如在評估一個AI是否具備合成復雜有機分子的能力時,評估者不再只看最終產量,而是逐一審查AI的每一步操作邏輯:它是否考慮了反應環境的溫度與壓力?是否識別并避開了可能發生的副反應?在實驗失敗時,它能否根據異常數據進行正確的歸因分析?
這種方法有力地剔除了“邏輯幻覺”。許多模型在測試中能夠寫出優美的科研術語,但在嚴密的邏輯審查下,其推導鏈條往往存在致命的科學漏洞。
03
從“實戰測試”到回歸科學的本質
衡量AI性能的最終戰場是真實的實驗室。目前,最前沿的評估方式被稱為“閉環自動化發現”。
在這種模式下,AI 被直接連接到自動化的化學合成實驗室或計算平臺。研究人員只給出一個宏大的目標,如“尋找一種能更高效固碳的納米材料”。AI 必須在海量假設中篩選最優路線,指導機器人進行實驗,并根據實驗回傳的實時數據,動態調整自己的假設。
當實驗數據與初始理論沖突時,AI能否迅速識別出是模型偏差還是實驗誤差的反思能力,成為衡量其是否“聰明”的黃金標準。那些能夠通過少量實驗修正自身知識結構、進而逼近真理的AI,才被認為具備了真正的科學直覺。
然而,即便是最先進的AI,在科學領域的表現依然面臨界限。我們衡量AI,并非為了證明它能取代科學家,而是為了確立一種全新的協作范式。
科學研究不僅需要邏輯推演,還需要那種打破范式的“直覺”。目前,AI擅長在既定的科學空間內進行海量的、高維度的搜索與優化,但在提出顛覆性的科學假說、或在模糊的交叉學科邊緣進行原創性飛躍方面,人類科學家依然掌握著主導權。
04
結語
我們距離創造出一個能夠獨立從事科學研究的“數字科學家”還有多遠?《科學》這篇文章的結論或許可以給予我們啟發:這取決于我們的評估體系演進得有多快。
當我們不再僅僅以“考試成績”來衡量模型,而是以“邏輯嚴謹度”、“實驗修正能力”和“跨學科泛化能力”為坐標系時,我們不僅在篩選更好的工具,更是在重新定義科學本身。
在這個人機共進的時代,衡量AI的過程,本質上也是人類在不斷審視自身如何理解自然界的過程。
https://www.science.org/content/article/how-will-we-know-if-ai-smart-enough-do-science
Deep Science預印本
![]()
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.