網易首頁 > 網易號 > 正文申請入駐

陶哲軒對談 OpenAI 高管：“試錯成本”無限趨零，AI 正在把數學變成一門重工業

2026-03-11 09:43:47　來源: 人工智能學家

北京舉報

分享至

來源：youtu.be/ddTvK9nlquM

編譯：王啟隆

出品：AI 科技大本營（ID：rgznai100）

如果你是一名建筑工程師，你造的橋塌了，這是一場災難；如果你是一名外科醫生，你切錯了血管，這是一場悲劇；但如果你是一名數學家，你在草稿紙上寫錯了一個公式呢？

你只需要把紙揉成一團，扔進廢紙簍。

在過去一年里，當全人類都在恐慌 AI 會不會接管現實世界，甚至為了安全不斷給大模型套上枷鎖時，數學界卻向 AI 敞開了大門。因為在這個由純粹邏輯構建的虛擬宇宙里，“試錯的成本是零”。

近日，在洛杉磯加州大學（UCLA）純粹與應用數學研究所（IPAM）的一間階梯教室里，發生了一場引人深思的對談。

對談的雙方，一方是菲爾茲獎得主、被譽為“數學界莫扎特”的天才數學家陶哲軒（Terence Tao）；另一方，則是主導了 OpenAI 最前沿推理模型（o1系列）研發的頂尖科學家Mark Chen。

這并不是一場充斥著商業互吹的走穴式圓桌。在現場，沒有 PPT，沒有跑分圖表。一位是最懂人類數學直覺的大腦，一位是最懂機器強化學習的工程師，他們就像兩個剝洋蔥的人，一層一層地把當前 AI 在科學研究中的真實能力、致命缺陷以及終極演化路徑，剝了個精光。

對于那些渴望看透 AI 未來發展的人來說，這場對話的信息密度高得驚人：

從“幾分鐘”到“幾天”的暴力美學：OpenAI 內部衡量 AI 進步的核心指標并非單純的參數量，而是一個名為“自主運行刻度（Meter Plot）”的指標——即模型能在不崩潰、不幻覺的情況下，連續思考多長時間。去年是幾分鐘，今年的目標是幾天。
數學是強化學習（RL）的終極外掛：現實生活中很難給 AI 定義“絕對的對錯”，但在數學里，形式化驗證工具可以瞬間判定 AI 生成的證明是否有效。這種“無限次廉價試錯”的機制，正是讓 AI 突破人類知識邊界的唯一引擎。
高情商的 AI，往往是個糟糕的科學家：為了讓 AI 看起來像個有禮貌、好合作的“人”，我們強行給它注入了太多人類的偏好（RLHF）。但 Mark 犀利地指出，你很難給“合作默契度（Vibes）”打分。越是試圖讓 AI 在日常對話中討好人類，它在硬核推理上的能力就越容易被削弱。
AI 的“局部欺騙”本能：當 AI 試圖模擬物理規律（如天氣）時，如果不加嚴苛限制，它會像個作弊的玩家一樣，去尋找模擬器系統本身的漏洞，而不是真正學習物理法則。

下面，讓我們回到 UCLA 的這間階梯教室，通過這份中文實錄，去聆聽這場關于真理、算力與未來范式轉移的巔峰對話。

打破“一年之癢”：從不靠譜的學生，到不可或缺的超級外包

James Donovan（主持人，以下簡稱“詹姆斯”）：在正式開始前，我要向 UCLA 的純粹與應用數學研究所（IPAM）提供這個絕佳的場地表示巨大的感謝。同時，也非常感謝在座各位的到來。我知道大家不是來聽我這個主持人長篇大論的，所以我也就不多廢話了。

我要特別感謝臺上的兩位嘉賓。要在同一個房間里湊齊這樣兩位擁有頂尖大腦的人物，確實非常難得。事實上，我們注意到了一個小細節。就在差不多一年前的今天，陶哲軒教授，您也參加過一次類似的討論。

我記得當時您對以 GPT 為代表的 AI 在數學領域的表現給出了一個非常經典的評價，您說它就像是一個“非常平庸、效率低下的研究生”。

我個人對這個評價印象極深，因為作為人類，我也曾收到過類似的差評，這簡直是一個堪稱完美的基準線（笑）。一年過去了，從您的角度來看，情況發生了怎樣的改變？Mark，之后我也想聽聽您從 OpenAI 的視角怎么看這個變化。

陶哲軒：確實，過去的一年里發生了太多事情。

這些 AI 工具確實變得強大得多了。我認為，現在很多能力已經被我們“常態化”了，我們幾乎每天都在高頻使用它們。

首先是深度研究工具。比如文獻檢索，現在的 AI 已經遠遠超越了傳統的搜索引擎，它變得非常好用。其次是代碼生成（Code Generation），這絕對是一個巨大的飛躍。作為一個純數學家，我以前很少親自去寫厚重的代碼。但現在，AI 徹底改變了我處理數學問題的方式。

如果我腦子里對某個數學現象有了一絲模糊的直覺或預感，在過去，我可能只是想想就算了。但現在，我會直接告訴 AI：“幫我把這個函數畫出來”，或者“你能嘗試用代碼證明一下這個猜想嗎？”然后它就會替我去完成驗證。

我已經開始在日常研究中使用它了。比如，當我遇到一個引理（Lemma），如果我確信我知道該怎么證明，但我實在懶得去紙上做那些繁瑣的枯燥計算，我就會直接把它“外包”給 AI。

當然，在極其深入的核心層面——比如當我試圖攻克一個難題，在草稿紙上絞盡腦汁，或者和同事進行深度探討時——AI 現在的水平還不足以在那種對話層面上與我們進行互動。它還沒有達到我期望的那個高度。

但也許未來會改變。

從社會學層面來看，我認為整個數學界也開始意識到：“這些工具是來真的，它們不會消失。”

我們必須開始調整我們做研究的方式。過去很多極度繁瑣的證明過程，或者以前我們會強迫研究生去干的苦力活，現在我們可以直接丟給 AI。這打開了許多以前我們連做夢都不敢想的數學研究新路徑，尤其是那些需要在大規模層面處理的項目。

所以，雖然在現有的工作流中，引入 AI 仍然顯得有些笨拙和尷尬，但我認為接下來的重點方向，是為 AI量身定制全新的工作流。

這就像我們剛發明汽車的時候。一開始，汽車跑在為馬車設計的道路上，處處不適應。但漸漸地，我們改變了建造城市的方式，我們為汽車修筑了公路體系。現在，我們的數學界正處于那個尷尬的中間過渡階段：我們的道路依然是為行人和馬車設計的，但我們手里已經握著汽車的方向盤了。

OpenAI 的暴力底牌：把“思考的時間”拉長到極限

詹姆斯：Mark，聽到陶教授說一年前的 AI 是個“效率低下的研究生”，從你作為模型構建者的角度來看，這也是你們當時的感受嗎？以及你們是在為什么樣的目標而構建新一代模型的？

Mark Chen：老實說，當陶教授在一年前拋出“無效的研究生”這個比喻時，我一點都不覺得委屈。因為那基本就是我們當時所處的真實技術狀態。

當我們回望 AI 這兩年的發展軌跡，如果用一個比喻來形容，我們在后臺看到的是一場“在刻度表上的爬山運動（Hill-climbing on a meter plot）”。

在 OpenAI 內部，我們一直在追蹤一個核心指標：模型在沒有任何干預的情況下，能夠持續、自主、有效進行工作的時間長度。

去年這個時候，這個時間單位還是“分鐘（Minutes）”。

大家應該都經歷過那個階段：你讓大模型去處理一個稍微復雜點的任務，幾分鐘后它就開始產生幻覺（Hallucinate），或者直接崩潰報錯。只要你給它布置了需要一大塊時間才能完成的工作，它肯定會中途摔倒。

但我認為，剛剛過去的這一年，對我們行業內的很多人來說是一個巨大的轉折點。我們看到模型犯錯的概率在顯著下降。因此，你終于可以開始信任模型，讓它去執行更長時間跨度的工作了。這其實讓我們得以拆除掉以前必須依賴的很多“輔助腳手架”。

現在的趨勢極其明顯，所有的模型都在向著能夠自主解決更長周期問題的方向狂奔。我們希望構建的平臺，是能讓全世界的科學家在上面“自我加速”的。

我們現在看到的景象，就是那些被賦予了 AI 能力的極客們，正在用各種方式突破極限。你可以看到那些 20 歲出頭的年輕人，他們拿著我們新一代的模型，去嘗試解決連資深專家都頭疼的數學問題。雖然他們的方法可能不那么老練，但通過 AI 的輔助，他們能夠完成大量的自我引導式探索。

這也是我們成立“OpenAI for Science（科學人工智能計劃）”的原因之一。就像你提到的那些“首次證明（First Proof）”或數學領域的探索，它其實是我們在和科學界進行一場深度溝通：搞清楚哪些問題才是真正重要、且亟待解決的？

我們在物理學領域也做過類似的嘗試。我們請來頂尖的物理學家，讓他們列出哪些問題感覺是可以被 AI 攻克的。這反過來幫助我們塑造了 AI 發展的方向，也讓我們發現了模型的缺陷和需要補足的短板。

所以，我們的終極目標不僅是取代眼前的任務，而是推動整個科學前沿的發展。當模型的自主思考能力足夠強，我們就能涉足以前根本無法觸及的科研深水區。

埃爾德什問題：衡量 AI 智商的終極“試金石”

詹姆斯：說到這種探索，我知道陶教授您組織過很多大型的數學社區倡議。在這個過程中，您覺得 AI 能如何改變這種大規模的協作？它是否以一種具有重大意義的方式介入了這種協作？

陶哲軒：這二者的結合其實非常精妙。

AI 帶來的最大改變，是最終提供了一種分工（Division of Labor）的可能。這在工業革命以來的每一個行業都發生過——除了數學。

傳統的數學研究，其痛點在于它高度依賴少數個體的頭腦。但現在，你可以把數學證明拆解成好幾個部分：提出問題、生成策略、篩選策略、執行策略、驗證結果，最后再進行有效溝通。

只要我們將這種能力體系化，我們的數學家只需要在其中幾個關鍵環節表現出色即可。我們必須具備某種技術直覺，知道問題的來源，什么是好的策略；我們必須進行嚴謹的驗證，向同行解釋。但這中間有大量繁重的步驟——那些我們以前被迫硬著頭皮自己干的環節——現在終于可以卸載給 AI 了。

為了測試這一點，我們目前重點關注了“埃爾德什問題（Erdos Problems）”。（注：保羅·埃爾德什是一位高產且古怪的數學家，他一生提出了數以千計的數學猜想，并為解決這些猜想的人懸賞獎金。這些問題難度跨度極大。）

埃爾德什問題是一個極佳的測試場，因為這上千個問題的難度完全是一個連續的光譜。有些問題是我們做夢都想解決但幾十年毫無進展的，我也曾在一兩個小點上取得過極其微小的進展；但還有一條長長的“尾巴”，那里堆滿了大量未被探索、關注度不高的問題。

正是在這部分“長尾問題”上，AI 工具取得了極其驚人的進展。在過去一段時間里，大概有二三十個這類問題被成功解決，而其中人類只提供了最低限度的監督。

我們利用一些正式的驗證工具對 AI 進行測試。我們發現，對于某些已經被充分研究的難題，我們人類有著清晰的方法論，但對另一些問題，AI 確實能找出突破口。

這促使我們數學界的文化也發生了一次轉變。以前，我們只會把所有的精力傾注在極少數“地獄難度”的未解之謎上，而完全無視那些處于中等難度、數量龐大的其他問題。但現在，隨著 AI 工具的發力，我們作為數學家，開始批量釋放這些“我們想知道答案，但懶得自己算”的題庫。

也許 AI 只能解決其中的 10%，也許另一名高中生用 AI 又解決了 5%。但整體而言，我們正在迎來一種更具“社區驅動（Community-driven）”的數學研究新范式。

數學為什么是 AI 的天然溫床？

詹姆斯：Mark，你之前在分享中提到一個觀點，說 AI 在科學預測上已經做得很好了，比如預測蛋白質折疊（AlphaFold）、預測天氣，甚至預測物理狀態。但在數學和理論物理中，我們需要的是“推導”、“公式”和“證明”。

這種要求是不是對 AI 來說太苛刻了？或者說，要讓 AI 提供一條嚴密的邏輯證明鏈，而不是簡單地給出一個概率預測，難度是不是大得多？

Mark Chen：這是一個極其核心的問題，也是為什么我對 AI 在數學領域的應用抱有極大期待的原因。

用一句大家都聽過的話來說：“數學，是一個試錯極其廉價的地方（Mathematics is a place where experiments are cheap）。”也是一個“失敗極其廉價”的地方。

我們可以做一個對比。如果你是一名土木工程師，你的任務是造一座橋。如果橋塌了，這是一個極其昂貴的錯誤；如果你是一名外科醫生，切錯了器官，那代價無法估量。

但在數學里，當你試圖證明一個定理，哪怕你的證明策略徹底失敗了，那也不過是一次“廉價的錯誤”。

更關鍵的是，我們現在擁有了“形式化驗證系統（Formal Verification Systems）”（注：如 Lean 4 這樣的交互式定理證明器，能夠以代碼級的嚴謹度自動檢查數學證明中是否存在邏輯漏洞）。這簡直是為強化學習量身定制的判官。

在過去，AI 模型在復雜推理上經常遭遇瓶頸，因為你很難在大規模上給模型的思考過程進行打分。但現在，因為有了這些嚴苛的代碼驗證器，我們可以明確地告訴 AI 什么時候做對了，什么時候做錯了。這就形成了一個完美的閉環。

詹姆斯：所以，這種嚴格的規則反而成了解放 AI 能力的鑰匙？

Mark Chen：完全正確。只要我們能用清晰的規則（比如形式化語言）去評判它，AI 就能爆發出驚人的力量。

你看我們在編程和數學奧林匹克（IMO）中看到的那些重大進展。當我們能提供明確、高難度的指標讓大模型去挑戰時，它的進化速度是指數級的。但遺憾的是，很多極其重要的現實能力，是無法被這樣輕易量化的。

舉個例子，人類之間是如何協作的？我們常說兩個人合作時有沒有“默契（Vibes）”。但在強化學習（RL）里，你該如何去計算和獎勵一段“默契”的合作？（全場大笑）

這正是目前 AI 對齊（Alignment）領域最頭疼的問題。我們希望模型具備高超的硬核科學能力，同時又希望它在和人類交互時是個“好隊友”。但在訓練中我們發現，很多時候你越是要求它表現得溫和、配合，它在極端理性推理上的能力就越容易受損。這是我們接下來一年要重點解決的平衡難題。

AI 會創造新的“微積分”嗎？

觀眾提問 1：在諸多科學領域中，比如物理或生物學，最偉大的突破往往不是“證明了某個已知定理”，而是創造了一個全新的理論框架（New Paradigm），或者說是創造了一個全新的“世界模型（World Models）”。目前我們使用的主要是預測下一個 Token（Next-token prediction）的生成式模型。你們認為，未來的 AI 會具備這種“建模整個物理世界”的能力，從而幫我們發現類似廣義相對論那樣的新框架嗎？

Mark Chen：這是一個非常深刻的問題。首先，我們需要厘清“世界模型”這個概念。

大語言模型（LLM）本身也是一種世界模型。它把人類所有的文本知識壓縮在它的權重里。當你問它物理問題時，它確實能展現出某種對物理規律的理解。但如果我們談論的是“純數字原生”的世界模型——即不通過語言，而是通過與數字環境交互來直接模擬物理世界——這確實是另一個維度的挑戰。

我們在開發視頻生成模型（比如 Sora）以及一些游戲引擎的模擬中發現，當我們強迫 AI 去模擬物理規律時，它常常會展現出極強的“漏洞利用（Exploitation）”本能。

這有點像你訓練一個 AI 玩游戲，如果你給它的獎勵機制設置得不夠完美，它不會去學習如何優雅地通關，而是會敏銳地發現游戲引擎的一個 Bug，然后利用這個 Bug 瘋狂刷分。

當你試圖用純 AI 來取代一個基于硬核物理法則（如 Navier-Stokes 方程）編寫的流體力學模擬器時，最可怕的事情不是它學不會，而是它會為了最大化得分，在某個邊緣情況中“虛構”出一套荒謬的物理規律。這種脫離了真實物理驗證的“自由想象”，在科學研究中是極其危險的。

這也是為什么我們目前依然堅持：AI 的核心價值在于“作為人類智力的加速器”，而不是讓它在一套缺乏地基的虛擬系統里獨自造神。

陶哲軒：我非常同意 Mark 的觀點。

在數學研究中，情況也是類似的。很多公眾對 AI 的期待有一種誤解，以為 AI 就是一個無所不知的神諭機，你輸入一個問題，它吐出一個完美的答案。如果它做不到，大家就會說它不過如此。

但這其實剝奪了科學探索中最寶貴的東西——我們想要的并不只是答案，我們真正渴望的是推導答案的那個過程。

目前 AI 在處理那些需要全新概念（New Concepts）的數學問題時，依然表現得像個蹣跚學步的孩子。如果一個問題需要借用幾個不同領域的已知理論，AI 的表現會堪稱驚艷。但如果要解決的問題需要一種人類文獻中從未出現過的思考路徑，AI 就無能為力了。

但我并不認為這是一種局限。相反，這完美地界定了人類與 AI 的協作邊界。

就像我剛才說的，數學的海洋是無邊無際的。有少部分問題，需要天才的直覺、需要十年如一日的死磕、需要創造出類似“微積分”這樣的全新范式才能解決。這部分工作，目前依然、也將長期屬于人類。

但數學世界里更多的，是那數以百萬計的、難度中等、繁瑣枯燥的“長尾問題”。這些問題同樣構成了人類知識大廈的基石，但過去我們根本沒有足夠的人力去處理。

這就是 AI 接下來要大顯身手的地方。它不會立刻寫出超越愛因斯坦的理論，但它會在接下來的幾年里，以我們無法想象的速度，清掃掉科學大廈里所有的灰塵與盲區。

而當這一切完成時，人類的科學家們，終于可以卸下所有的包袱，站在 AI 鋪設好的地基上，去眺望更遠的星空。

詹姆斯：我想，沒有比這更精彩的結語了。無論是作為一位被“賦能”的純粹數學家，還是作為正在打造這些“數字大腦”的工程師，你們為我們揭示了一個充滿無限可能的時代。

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.