日前,谷歌DeepMind 與多所頂尖學術機構的研究者聯合發布論文《Aletheia:自主攻克FirstProof數學難題挑戰賽》(arXiv:2602.21201) 。
![]()
論文的核心是,評估名為 Aletheia 的數學研究代理系統在 FirstProof 這一公開挑戰中的表現。
在沒有人類干預的情況下,Aletheia成功完成多道研究級數學難題。
這不是簡單的“算對了題”,而是達到了接近學術發表標準的證明水平。
這意味著 AI 開始真正觸及“數學創造力”,這個長期被認為是人類專屬的領域。
FirstProof 不是簡單的算術或者基礎證明題,而是由專業數學家設定的一組十個研究級難度的問題。
這些問題往往涉及抽象概念和嚴謹推理,傳統上只有受過訓練的數學家才能應對。組織方希望通過這個挑戰評估當前 AI 在數學領域的真實能力邊界。
![]()
Aletheia 也并不是一個普通的自動答題機器人,而是一個結合了生成式模型和驗證機制的智能體,基于谷歌最新的大模型架構 Gemini 3 Deep Think。
它的設計目標不僅是輸出答案,而是在 無人類干預的前提下 盡可能自動地提出數學證明。
也就是說,從理解題意、構思思路、生成證明草稿,到最終輸出一段嚴謹 LaTeX 格式的證明文本,整個過程都是由智能體自主完成的。
Aletheia 由三個核心模塊構成:
猜想生成:從數學文獻中識別有價值的開放問題,并生成形式化命題。
自主證明搜索:結合符號推理、啟發式搜索與自我修正,尋找形式化證明。
嚴謹驗證:使用自動證明檢驗器與自我批判機制,過濾無效論證并確保正確性。
![]()
整個流程完全自動化,無需人類撰寫提示、選擇問題或審核中間步驟。Aletheia 自主判斷哪些問題可解、哪些方向有價值、以及證明何時完成且正確。
論文作者為了評估其真實能力,在整個流程中嚴格排除了人為提示和干預,只保留最終專家對結果的判斷與評價。
在 FirstProof 的十個問題中,Aletheia 成功給出了六個問題的可評估解答,被獨立數學專家(有些來自論文作者之外的學術界)認為,滿足出版前的“可修訂發表”標準。
![]()
更重要的是,這種能力是在沒有人工設計思路的情況下實現的,充分體現了 AI 在數學推理上從輔助工具向真正“研究伙伴”的轉變。
值得注意的是,Aletheia 并不是在所有問題上都做到了完美。在那些極其復雜或高度依賴深厚數學直覺的問題上,它仍然無法給出有效輸出。所以說,暫時它還不是完全合格的數學家。
但總的來說,這項工作標志著 AI 在數學研究領域取得了實質性的進展。
從 ChatGPT 或 Gemini 這類大語言模型能會話式討論數學,到 Aletheia 能在沒有人類引導的情況下解決復雜證明問題,是科研史上的一次重要里程碑。
雖然距離完全取代人類數學家還有很長的路要走,但這一成果無疑推動了人工智能在創意推理與科學發現方面的邊界。
這不僅對數學界是重要突破,也預示著未來 AI 將在數學、物理、計算機科學,乃至整個基礎科研領域,承擔越來越重要的角色。
也就是說,AI第一次真正從“輔助工具”進化為獨立科研主體,開創了“AI自主做科學研究”的全新范式。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.