![]()
來源:youtu.be/ddTvK9nlquM
編譯:王啟隆
出品:AI 科技大本營(ID:rgznai100)
如果你是一名建筑工程師,你造的橋塌了,這是一場災難;如果你是一名外科醫生,你切錯了血管,這是一場悲劇;但如果你是一名數學家,你在草稿紙上寫錯了一個公式呢?
你只需要把紙揉成一團,扔進廢紙簍。
在過去一年里,當全人類都在恐慌 AI 會不會接管現實世界,甚至為了安全不斷給大模型套上枷鎖時,數學界卻向 AI 敞開了大門。因為在這個由純粹邏輯構建的虛擬宇宙里,“試錯的成本是零”。
近日,在洛杉磯加州大學(UCLA)純粹與應用數學研究所(IPAM)的一間階梯教室里,發生了一場引人深思的對談。
![]()
對談的雙方,一方是菲爾茲獎得主、被譽為“數學界莫扎特”的天才數學家陶哲軒(Terence Tao);另一方,則是主導了 OpenAI 最前沿推理模型(o1系列)研發的頂尖科學家Mark Chen。
這并不是一場充斥著商業互吹的走穴式圓桌。在現場,沒有 PPT,沒有跑分圖表。一位是最懂人類數學直覺的大腦,一位是最懂機器強化學習的工程師,他們就像兩個剝洋蔥的人,一層一層地把當前 AI 在科學研究中的真實能力、致命缺陷以及終極演化路徑,剝了個精光。
對于那些渴望看透 AI 未來發展的人來說,這場對話的信息密度高得驚人:
從“幾分鐘”到“幾天”的暴力美學:OpenAI 內部衡量 AI 進步的核心指標并非單純的參數量,而是一個名為“自主運行刻度(Meter Plot)”的指標——即模型能在不崩潰、不幻覺的情況下,連續思考多長時間。去年是幾分鐘,今年的目標是幾天。
數學是強化學習(RL)的終極外掛:現實生活中很難給 AI 定義“絕對的對錯”,但在數學里,形式化驗證工具可以瞬間判定 AI 生成的證明是否有效。這種“無限次廉價試錯”的機制,正是讓 AI 突破人類知識邊界的唯一引擎。
高情商的 AI,往往是個糟糕的科學家:為了讓 AI 看起來像個有禮貌、好合作的“人”,我們強行給它注入了太多人類的偏好(RLHF)。但 Mark 犀利地指出,你很難給“合作默契度(Vibes)”打分。越是試圖讓 AI 在日常對話中討好人類,它在硬核推理上的能力就越容易被削弱。
AI 的“局部欺騙”本能:當 AI 試圖模擬物理規律(如天氣)時,如果不加嚴苛限制,它會像個作弊的玩家一樣,去尋找模擬器系統本身的漏洞,而不是真正學習物理法則。
下面,讓我們回到 UCLA 的這間階梯教室,通過這份中文實錄,去聆聽這場關于真理、算力與未來范式轉移的巔峰對話。
![]()
打破“一年之癢”:從不靠譜的學生,到不可或缺的超級外包
James Donovan(主持人,以下簡稱“詹姆斯”):在正式開始前,我要向 UCLA 的純粹與應用數學研究所(IPAM)提供這個絕佳的場地表示巨大的感謝。同時,也非常感謝在座各位的到來。我知道大家不是來聽我這個主持人長篇大論的,所以我也就不多廢話了。
我要特別感謝臺上的兩位嘉賓。要在同一個房間里湊齊這樣兩位擁有頂尖大腦的人物,確實非常難得。事實上,我們注意到了一個小細節。就在差不多一年前的今天,陶哲軒教授,您也參加過一次類似的討論。
我記得當時您對以 GPT 為代表的 AI 在數學領域的表現給出了一個非常經典的評價,您說它就像是一個“非常平庸、效率低下的研究生”。
我個人對這個評價印象極深,因為作為人類,我也曾收到過類似的差評,這簡直是一個堪稱完美的基準線(笑)。一年過去了,從您的角度來看,情況發生了怎樣的改變?Mark,之后我也想聽聽您從 OpenAI 的視角怎么看這個變化。
陶哲軒:確實,過去的一年里發生了太多事情。
這些 AI 工具確實變得強大得多了。我認為,現在很多能力已經被我們“常態化”了,我們幾乎每天都在高頻使用它們。
首先是深度研究工具。比如文獻檢索,現在的 AI 已經遠遠超越了傳統的搜索引擎,它變得非常好用。其次是代碼生成(Code Generation),這絕對是一個巨大的飛躍。作為一個純數學家,我以前很少親自去寫厚重的代碼。但現在,AI 徹底改變了我處理數學問題的方式。
如果我腦子里對某個數學現象有了一絲模糊的直覺或預感,在過去,我可能只是想想就算了。但現在,我會直接告訴 AI:“幫我把這個函數畫出來”,或者“你能嘗試用代碼證明一下這個猜想嗎?”然后它就會替我去完成驗證。
我已經開始在日常研究中使用它了。比如,當我遇到一個引理(Lemma),如果我確信我知道該怎么證明,但我實在懶得去紙上做那些繁瑣的枯燥計算,我就會直接把它“外包”給 AI。
當然,在極其深入的核心層面——比如當我試圖攻克一個難題,在草稿紙上絞盡腦汁,或者和同事進行深度探討時——AI 現在的水平還不足以在那種對話層面上與我們進行互動。它還沒有達到我期望的那個高度。
但也許未來會改變。
從社會學層面來看,我認為整個數學界也開始意識到:“這些工具是來真的,它們不會消失。”
我們必須開始調整我們做研究的方式。過去很多極度繁瑣的證明過程,或者以前我們會強迫研究生去干的苦力活,現在我們可以直接丟給 AI。這打開了許多以前我們連做夢都不敢想的數學研究新路徑,尤其是那些需要在大規模層面處理的項目。
所以,雖然在現有的工作流中,引入 AI 仍然顯得有些笨拙和尷尬,但我認為接下來的重點方向,是為 AI量身定制全新的工作流。
這就像我們剛發明汽車的時候。一開始,汽車跑在為馬車設計的道路上,處處不適應。但漸漸地,我們改變了建造城市的方式,我們為汽車修筑了公路體系。現在,我們的數學界正處于那個尷尬的中間過渡階段:我們的道路依然是為行人和馬車設計的,但我們手里已經握著汽車的方向盤了。
![]()
OpenAI 的暴力底牌:把“思考的時間”拉長到極限
詹姆斯:Mark,聽到陶教授說一年前的 AI 是個“效率低下的研究生”,從你作為模型構建者的角度來看,這也是你們當時的感受嗎?以及你們是在為什么樣的目標而構建新一代模型的?
Mark Chen:老實說,當陶教授在一年前拋出“無效的研究生”這個比喻時,我一點都不覺得委屈。因為那基本就是我們當時所處的真實技術狀態。
當我們回望 AI 這兩年的發展軌跡,如果用一個比喻來形容,我們在后臺看到的是一場“在刻度表上的爬山運動(Hill-climbing on a meter plot)”。
在 OpenAI 內部,我們一直在追蹤一個核心指標:模型在沒有任何干預的情況下,能夠持續、自主、有效進行工作的時間長度。
去年這個時候,這個時間單位還是“分鐘(Minutes)”。
大家應該都經歷過那個階段:你讓大模型去處理一個稍微復雜點的任務,幾分鐘后它就開始產生幻覺(Hallucinate),或者直接崩潰報錯。只要你給它布置了需要一大塊時間才能完成的工作,它肯定會中途摔倒。
但我認為,剛剛過去的這一年,對我們行業內的很多人來說是一個巨大的轉折點。我們看到模型犯錯的概率在顯著下降。因此,你終于可以開始信任模型,讓它去執行更長時間跨度的工作了。這其實讓我們得以拆除掉以前必須依賴的很多“輔助腳手架”。
現在的趨勢極其明顯,所有的模型都在向著能夠自主解決更長周期問題的方向狂奔。我們希望構建的平臺,是能讓全世界的科學家在上面“自我加速”的。
我們現在看到的景象,就是那些被賦予了 AI 能力的極客們,正在用各種方式突破極限。你可以看到那些 20 歲出頭的年輕人,他們拿著我們新一代的模型,去嘗試解決連資深專家都頭疼的數學問題。雖然他們的方法可能不那么老練,但通過 AI 的輔助,他們能夠完成大量的自我引導式探索。
這也是我們成立“OpenAI for Science(科學人工智能計劃)”的原因之一。就像你提到的那些“首次證明(First Proof)”或數學領域的探索,它其實是我們在和科學界進行一場深度溝通:搞清楚哪些問題才是真正重要、且亟待解決的?
我們在物理學領域也做過類似的嘗試。我們請來頂尖的物理學家,讓他們列出哪些問題感覺是可以被 AI 攻克的。這反過來幫助我們塑造了 AI 發展的方向,也讓我們發現了模型的缺陷和需要補足的短板。
所以,我們的終極目標不僅是取代眼前的任務,而是推動整個科學前沿的發展。當模型的自主思考能力足夠強,我們就能涉足以前根本無法觸及的科研深水區。
![]()
埃爾德什問題:衡量 AI 智商的終極“試金石”
詹姆斯:說到這種探索,我知道陶教授您組織過很多大型的數學社區倡議。在這個過程中,您覺得 AI 能如何改變這種大規模的協作?它是否以一種具有重大意義的方式介入了這種協作?
陶哲軒:這二者的結合其實非常精妙。
AI 帶來的最大改變,是最終提供了一種分工(Division of Labor)的可能。這在工業革命以來的每一個行業都發生過——除了數學。
傳統的數學研究,其痛點在于它高度依賴少數個體的頭腦。但現在,你可以把數學證明拆解成好幾個部分:提出問題、生成策略、篩選策略、執行策略、驗證結果,最后再進行有效溝通。
只要我們將這種能力體系化,我們的數學家只需要在其中幾個關鍵環節表現出色即可。我們必須具備某種技術直覺,知道問題的來源,什么是好的策略;我們必須進行嚴謹的驗證,向同行解釋。但這中間有大量繁重的步驟——那些我們以前被迫硬著頭皮自己干的環節——現在終于可以卸載給 AI 了。
為了測試這一點,我們目前重點關注了“埃爾德什問題(Erdos Problems)”。(注:保羅·埃爾德什是一位高產且古怪的數學家,他一生提出了數以千計的數學猜想,并為解決這些猜想的人懸賞獎金。這些問題難度跨度極大。)
埃爾德什問題是一個極佳的測試場,因為這上千個問題的難度完全是一個連續的光譜。有些問題是我們做夢都想解決但幾十年毫無進展的,我也曾在一兩個小點上取得過極其微小的進展;但還有一條長長的“尾巴”,那里堆滿了大量未被探索、關注度不高的問題。
正是在這部分“長尾問題”上,AI 工具取得了極其驚人的進展。在過去一段時間里,大概有二三十個這類問題被成功解決,而其中人類只提供了最低限度的監督。
我們利用一些正式的驗證工具對 AI 進行測試。我們發現,對于某些已經被充分研究的難題,我們人類有著清晰的方法論,但對另一些問題,AI 確實能找出突破口。
這促使我們數學界的文化也發生了一次轉變。以前,我們只會把所有的精力傾注在極少數“地獄難度”的未解之謎上,而完全無視那些處于中等難度、數量龐大的其他問題。但現在,隨著 AI 工具的發力,我們作為數學家,開始批量釋放這些“我們想知道答案,但懶得自己算”的題庫。
也許 AI 只能解決其中的 10%,也許另一名高中生用 AI 又解決了 5%。但整體而言,我們正在迎來一種更具“社區驅動(Community-driven)”的數學研究新范式。
![]()
數學為什么是 AI 的天然溫床?
詹姆斯:Mark,你之前在分享中提到一個觀點,說 AI 在科學預測上已經做得很好了,比如預測蛋白質折疊(AlphaFold)、預測天氣,甚至預測物理狀態。但在數學和理論物理中,我們需要的是“推導”、“公式”和“證明”。
這種要求是不是對 AI 來說太苛刻了?或者說,要讓 AI 提供一條嚴密的邏輯證明鏈,而不是簡單地給出一個概率預測,難度是不是大得多?
Mark Chen:這是一個極其核心的問題,也是為什么我對 AI 在數學領域的應用抱有極大期待的原因。
用一句大家都聽過的話來說:“數學,是一個試錯極其廉價的地方(Mathematics is a place where experiments are cheap)。”也是一個“失敗極其廉價”的地方。
我們可以做一個對比。如果你是一名土木工程師,你的任務是造一座橋。如果橋塌了,這是一個極其昂貴的錯誤;如果你是一名外科醫生,切錯了器官,那代價無法估量。
但在數學里,當你試圖證明一個定理,哪怕你的證明策略徹底失敗了,那也不過是一次“廉價的錯誤”。
更關鍵的是,我們現在擁有了“形式化驗證系統(Formal Verification Systems)”(注:如 Lean 4 這樣的交互式定理證明器,能夠以代碼級的嚴謹度自動檢查數學證明中是否存在邏輯漏洞)。這簡直是為強化學習量身定制的判官。
在過去,AI 模型在復雜推理上經常遭遇瓶頸,因為你很難在大規模上給模型的思考過程進行打分。但現在,因為有了這些嚴苛的代碼驗證器,我們可以明確地告訴 AI 什么時候做對了,什么時候做錯了。這就形成了一個完美的閉環。
詹姆斯:所以,這種嚴格的規則反而成了解放 AI 能力的鑰匙?
Mark Chen:完全正確。只要我們能用清晰的規則(比如形式化語言)去評判它,AI 就能爆發出驚人的力量。
你看我們在編程和數學奧林匹克(IMO)中看到的那些重大進展。當我們能提供明確、高難度的指標讓大模型去挑戰時,它的進化速度是指數級的。但遺憾的是,很多極其重要的現實能力,是無法被這樣輕易量化的。
舉個例子,人類之間是如何協作的?我們常說兩個人合作時有沒有“默契(Vibes)”。但在強化學習(RL)里,你該如何去計算和獎勵一段“默契”的合作?(全場大笑)
這正是目前 AI 對齊(Alignment)領域最頭疼的問題。我們希望模型具備高超的硬核科學能力,同時又希望它在和人類交互時是個“好隊友”。但在訓練中我們發現,很多時候你越是要求它表現得溫和、配合,它在極端理性推理上的能力就越容易受損。這是我們接下來一年要重點解決的平衡難題。
![]()
AI 會創造新的“微積分”嗎?
觀眾提問 1:在諸多科學領域中,比如物理或生物學,最偉大的突破往往不是“證明了某個已知定理”,而是創造了一個全新的理論框架(New Paradigm),或者說是創造了一個全新的“世界模型(World Models)”。目前我們使用的主要是預測下一個 Token(Next-token prediction)的生成式模型。你們認為,未來的 AI 會具備這種“建模整個物理世界”的能力,從而幫我們發現類似廣義相對論那樣的新框架嗎?
Mark Chen:這是一個非常深刻的問題。首先,我們需要厘清“世界模型”這個概念。
大語言模型(LLM)本身也是一種世界模型。它把人類所有的文本知識壓縮在它的權重里。當你問它物理問題時,它確實能展現出某種對物理規律的理解。但如果我們談論的是“純數字原生”的世界模型——即不通過語言,而是通過與數字環境交互來直接模擬物理世界——這確實是另一個維度的挑戰。
我們在開發視頻生成模型(比如 Sora)以及一些游戲引擎的模擬中發現,當我們強迫 AI 去模擬物理規律時,它常常會展現出極強的“漏洞利用(Exploitation)”本能。
這有點像你訓練一個 AI 玩游戲,如果你給它的獎勵機制設置得不夠完美,它不會去學習如何優雅地通關,而是會敏銳地發現游戲引擎的一個 Bug,然后利用這個 Bug 瘋狂刷分。
當你試圖用純 AI 來取代一個基于硬核物理法則(如 Navier-Stokes 方程)編寫的流體力學模擬器時,最可怕的事情不是它學不會,而是它會為了最大化得分,在某個邊緣情況中“虛構”出一套荒謬的物理規律。這種脫離了真實物理驗證的“自由想象”,在科學研究中是極其危險的。
這也是為什么我們目前依然堅持:AI 的核心價值在于“作為人類智力的加速器”,而不是讓它在一套缺乏地基的虛擬系統里獨自造神。
陶哲軒:我非常同意 Mark 的觀點。
在數學研究中,情況也是類似的。很多公眾對 AI 的期待有一種誤解,以為 AI 就是一個無所不知的神諭機,你輸入一個問題,它吐出一個完美的答案。如果它做不到,大家就會說它不過如此。
但這其實剝奪了科學探索中最寶貴的東西——我們想要的并不只是答案,我們真正渴望的是推導答案的那個過程。
目前 AI 在處理那些需要全新概念(New Concepts)的數學問題時,依然表現得像個蹣跚學步的孩子。如果一個問題需要借用幾個不同領域的已知理論,AI 的表現會堪稱驚艷。但如果要解決的問題需要一種人類文獻中從未出現過的思考路徑,AI 就無能為力了。
但我并不認為這是一種局限。相反,這完美地界定了人類與 AI 的協作邊界。
就像我剛才說的,數學的海洋是無邊無際的。有少部分問題,需要天才的直覺、需要十年如一日的死磕、需要創造出類似“微積分”這樣的全新范式才能解決。這部分工作,目前依然、也將長期屬于人類。
但數學世界里更多的,是那數以百萬計的、難度中等、繁瑣枯燥的“長尾問題”。這些問題同樣構成了人類知識大廈的基石,但過去我們根本沒有足夠的人力去處理。
這就是 AI 接下來要大顯身手的地方。它不會立刻寫出超越愛因斯坦的理論,但它會在接下來的幾年里,以我們無法想象的速度,清掃掉科學大廈里所有的灰塵與盲區。
而當這一切完成時,人類的科學家們,終于可以卸下所有的包袱,站在 AI 鋪設好的地基上,去眺望更遠的星空。
詹姆斯:我想,沒有比這更精彩的結語了。無論是作為一位被“賦能”的純粹數學家,還是作為正在打造這些“數字大腦”的工程師,你們為我們揭示了一個充滿無限可能的時代。
閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”
![]()
未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。
截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告
(加入未來知識庫,全部資料免費閱讀和下載)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.