337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

陶哲軒對談 OpenAI 高管:“試錯成本”無限趨零,AI 正在把數學變成一門重工業

0
分享至


來源youtu.be/ddTvK9nlquM

編譯王啟隆

出品:AI 科技大本營(ID:rgznai100)

如果你是一名建筑工程師,你造的橋塌了,這是一場災難;如果你是一名外科醫生,你切錯了血管,這是一場悲劇;但如果你是一名數學家,你在草稿紙上寫錯了一個公式呢?

你只需要把紙揉成一團,扔進廢紙簍。

在過去一年里,當全人類都在恐慌 AI 會不會接管現實世界,甚至為了安全不斷給大模型套上枷鎖時,數學界卻向 AI 敞開了大門。因為在這個由純粹邏輯構建的虛擬宇宙里,“試錯的成本是零”

近日,在洛杉磯加州大學(UCLA)純粹與應用數學研究所(IPAM)的一間階梯教室里,發生了一場引人深思的對談。


對談的雙方,一方是菲爾茲獎得主、被譽為“數學界莫扎特”的天才數學家陶哲軒(Terence Tao);另一方,則是主導了 OpenAI 最前沿推理模型(o1系列)研發的頂尖科學家Mark Chen

這并不是一場充斥著商業互吹的走穴式圓桌。在現場,沒有 PPT,沒有跑分圖表。一位是最懂人類數學直覺的大腦,一位是最懂機器強化學習的工程師,他們就像兩個剝洋蔥的人,一層一層地把當前 AI 在科學研究中的真實能力、致命缺陷以及終極演化路徑,剝了個精光。

對于那些渴望看透 AI 未來發展的人來說,這場對話的信息密度高得驚人:

  • 從“幾分鐘”到“幾天”的暴力美學:OpenAI 內部衡量 AI 進步的核心指標并非單純的參數量,而是一個名為“自主運行刻度(Meter Plot)”的指標——即模型能在不崩潰、不幻覺的情況下,連續思考多長時間。去年是幾分鐘,今年的目標是幾天。

  • 數學是強化學習(RL)的終極外掛:現實生活中很難給 AI 定義“絕對的對錯”,但在數學里,形式化驗證工具可以瞬間判定 AI 生成的證明是否有效。這種“無限次廉價試錯”的機制,正是讓 AI 突破人類知識邊界的唯一引擎。

  • 高情商的 AI,往往是個糟糕的科學家:為了讓 AI 看起來像個有禮貌、好合作的“人”,我們強行給它注入了太多人類的偏好(RLHF)。但 Mark 犀利地指出,你很難給“合作默契度(Vibes)”打分。越是試圖讓 AI 在日常對話中討好人類,它在硬核推理上的能力就越容易被削弱。

  • AI 的“局部欺騙”本能:當 AI 試圖模擬物理規律(如天氣)時,如果不加嚴苛限制,它會像個作弊的玩家一樣,去尋找模擬器系統本身的漏洞,而不是真正學習物理法則。

下面,讓我們回到 UCLA 的這間階梯教室,通過這份中文實錄,去聆聽這場關于真理、算力與未來范式轉移的巔峰對話。


打破“一年之癢”:從不靠譜的學生,到不可或缺的超級外包

James Donovan(主持人,以下簡稱“詹姆斯”):在正式開始前,我要向 UCLA 的純粹與應用數學研究所(IPAM)提供這個絕佳的場地表示巨大的感謝。同時,也非常感謝在座各位的到來。我知道大家不是來聽我這個主持人長篇大論的,所以我也就不多廢話了。

我要特別感謝臺上的兩位嘉賓。要在同一個房間里湊齊這樣兩位擁有頂尖大腦的人物,確實非常難得。事實上,我們注意到了一個小細節。就在差不多一年前的今天,陶哲軒教授,您也參加過一次類似的討論。

我記得當時您對以 GPT 為代表的 AI 在數學領域的表現給出了一個非常經典的評價,您說它就像是一個“非常平庸、效率低下的研究生”

我個人對這個評價印象極深,因為作為人類,我也曾收到過類似的差評,這簡直是一個堪稱完美的基準線(笑)。一年過去了,從您的角度來看,情況發生了怎樣的改變?Mark,之后我也想聽聽您從 OpenAI 的視角怎么看這個變化。

陶哲軒:確實,過去的一年里發生了太多事情。

這些 AI 工具確實變得強大得多了。我認為,現在很多能力已經被我們“常態化”了,我們幾乎每天都在高頻使用它們。

首先是深度研究工具。比如文獻檢索,現在的 AI 已經遠遠超越了傳統的搜索引擎,它變得非常好用。其次是代碼生成(Code Generation),這絕對是一個巨大的飛躍。作為一個純數學家,我以前很少親自去寫厚重的代碼。但現在,AI 徹底改變了我處理數學問題的方式。

如果我腦子里對某個數學現象有了一絲模糊的直覺或預感,在過去,我可能只是想想就算了。但現在,我會直接告訴 AI:“幫我把這個函數畫出來”,或者“你能嘗試用代碼證明一下這個猜想嗎?”然后它就會替我去完成驗證。

我已經開始在日常研究中使用它了。比如,當我遇到一個引理(Lemma),如果我確信我知道該怎么證明,但我實在懶得去紙上做那些繁瑣的枯燥計算,我就會直接把它“外包”給 AI。

當然,在極其深入的核心層面——比如當我試圖攻克一個難題,在草稿紙上絞盡腦汁,或者和同事進行深度探討時——AI 現在的水平還不足以在那種對話層面上與我們進行互動。它還沒有達到我期望的那個高度。

但也許未來會改變。

從社會學層面來看,我認為整個數學界也開始意識到:“這些工具是來真的,它們不會消失。”

我們必須開始調整我們做研究的方式。過去很多極度繁瑣的證明過程,或者以前我們會強迫研究生去干的苦力活,現在我們可以直接丟給 AI。這打開了許多以前我們連做夢都不敢想的數學研究新路徑,尤其是那些需要在大規模層面處理的項目。

所以,雖然在現有的工作流中,引入 AI 仍然顯得有些笨拙和尷尬,但我認為接下來的重點方向,是為 AI量身定制全新的工作流

這就像我們剛發明汽車的時候。一開始,汽車跑在為馬車設計的道路上,處處不適應。但漸漸地,我們改變了建造城市的方式,我們為汽車修筑了公路體系。現在,我們的數學界正處于那個尷尬的中間過渡階段:我們的道路依然是為行人和馬車設計的,但我們手里已經握著汽車的方向盤了。


OpenAI 的暴力底牌:把“思考的時間”拉長到極限

詹姆斯:Mark,聽到陶教授說一年前的 AI 是個“效率低下的研究生”,從你作為模型構建者的角度來看,這也是你們當時的感受嗎?以及你們是在為什么樣的目標而構建新一代模型的?

Mark Chen:老實說,當陶教授在一年前拋出“無效的研究生”這個比喻時,我一點都不覺得委屈。因為那基本就是我們當時所處的真實技術狀態。

當我們回望 AI 這兩年的發展軌跡,如果用一個比喻來形容,我們在后臺看到的是一場“在刻度表上的爬山運動(Hill-climbing on a meter plot)”

在 OpenAI 內部,我們一直在追蹤一個核心指標:模型在沒有任何干預的情況下,能夠持續、自主、有效進行工作的時間長度。

去年這個時候,這個時間單位還是“分鐘(Minutes)”

大家應該都經歷過那個階段:你讓大模型去處理一個稍微復雜點的任務,幾分鐘后它就開始產生幻覺(Hallucinate),或者直接崩潰報錯。只要你給它布置了需要一大塊時間才能完成的工作,它肯定會中途摔倒。

但我認為,剛剛過去的這一年,對我們行業內的很多人來說是一個巨大的轉折點。我們看到模型犯錯的概率在顯著下降。因此,你終于可以開始信任模型,讓它去執行更長時間跨度的工作了。這其實讓我們得以拆除掉以前必須依賴的很多“輔助腳手架”。

現在的趨勢極其明顯,所有的模型都在向著能夠自主解決更長周期問題的方向狂奔。我們希望構建的平臺,是能讓全世界的科學家在上面“自我加速”的。

我們現在看到的景象,就是那些被賦予了 AI 能力的極客們,正在用各種方式突破極限。你可以看到那些 20 歲出頭的年輕人,他們拿著我們新一代的模型,去嘗試解決連資深專家都頭疼的數學問題。雖然他們的方法可能不那么老練,但通過 AI 的輔助,他們能夠完成大量的自我引導式探索。

這也是我們成立“OpenAI for Science(科學人工智能計劃)”的原因之一。就像你提到的那些“首次證明(First Proof)”或數學領域的探索,它其實是我們在和科學界進行一場深度溝通:搞清楚哪些問題才是真正重要、且亟待解決的?

我們在物理學領域也做過類似的嘗試。我們請來頂尖的物理學家,讓他們列出哪些問題感覺是可以被 AI 攻克的。這反過來幫助我們塑造了 AI 發展的方向,也讓我們發現了模型的缺陷和需要補足的短板。

所以,我們的終極目標不僅是取代眼前的任務,而是推動整個科學前沿的發展。當模型的自主思考能力足夠強,我們就能涉足以前根本無法觸及的科研深水區。


埃爾德什問題:衡量 AI 智商的終極“試金石”

詹姆斯:說到這種探索,我知道陶教授您組織過很多大型的數學社區倡議。在這個過程中,您覺得 AI 能如何改變這種大規模的協作?它是否以一種具有重大意義的方式介入了這種協作?

陶哲軒:這二者的結合其實非常精妙。

AI 帶來的最大改變,是最終提供了一種分工(Division of Labor)的可能。這在工業革命以來的每一個行業都發生過——除了數學。

傳統的數學研究,其痛點在于它高度依賴少數個體的頭腦。但現在,你可以把數學證明拆解成好幾個部分:提出問題、生成策略、篩選策略、執行策略、驗證結果,最后再進行有效溝通。

只要我們將這種能力體系化,我們的數學家只需要在其中幾個關鍵環節表現出色即可。我們必須具備某種技術直覺,知道問題的來源,什么是好的策略;我們必須進行嚴謹的驗證,向同行解釋。但這中間有大量繁重的步驟——那些我們以前被迫硬著頭皮自己干的環節——現在終于可以卸載給 AI 了。

為了測試這一點,我們目前重點關注了“埃爾德什問題(Erdos Problems)”。(注:保羅·埃爾德什是一位高產且古怪的數學家,他一生提出了數以千計的數學猜想,并為解決這些猜想的人懸賞獎金。這些問題難度跨度極大。)

埃爾德什問題是一個極佳的測試場,因為這上千個問題的難度完全是一個連續的光譜。有些問題是我們做夢都想解決但幾十年毫無進展的,我也曾在一兩個小點上取得過極其微小的進展;但還有一條長長的“尾巴”,那里堆滿了大量未被探索、關注度不高的問題。

正是在這部分“長尾問題”上,AI 工具取得了極其驚人的進展。在過去一段時間里,大概有二三十個這類問題被成功解決,而其中人類只提供了最低限度的監督。

我們利用一些正式的驗證工具對 AI 進行測試。我們發現,對于某些已經被充分研究的難題,我們人類有著清晰的方法論,但對另一些問題,AI 確實能找出突破口。

這促使我們數學界的文化也發生了一次轉變。以前,我們只會把所有的精力傾注在極少數“地獄難度”的未解之謎上,而完全無視那些處于中等難度、數量龐大的其他問題。但現在,隨著 AI 工具的發力,我們作為數學家,開始批量釋放這些“我們想知道答案,但懶得自己算”的題庫。

也許 AI 只能解決其中的 10%,也許另一名高中生用 AI 又解決了 5%。但整體而言,我們正在迎來一種更具“社區驅動(Community-driven)”的數學研究新范式。


數學為什么是 AI 的天然溫床?

詹姆斯:Mark,你之前在分享中提到一個觀點,說 AI 在科學預測上已經做得很好了,比如預測蛋白質折疊(AlphaFold)、預測天氣,甚至預測物理狀態。但在數學和理論物理中,我們需要的是“推導”、“公式”和“證明”。

這種要求是不是對 AI 來說太苛刻了?或者說,要讓 AI 提供一條嚴密的邏輯證明鏈,而不是簡單地給出一個概率預測,難度是不是大得多?

Mark Chen:這是一個極其核心的問題,也是為什么我對 AI 在數學領域的應用抱有極大期待的原因。

用一句大家都聽過的話來說:“數學,是一個試錯極其廉價的地方(Mathematics is a place where experiments are cheap)。”也是一個“失敗極其廉價”的地方。

我們可以做一個對比。如果你是一名土木工程師,你的任務是造一座橋。如果橋塌了,這是一個極其昂貴的錯誤;如果你是一名外科醫生,切錯了器官,那代價無法估量。

但在數學里,當你試圖證明一個定理,哪怕你的證明策略徹底失敗了,那也不過是一次“廉價的錯誤”。

更關鍵的是,我們現在擁有了“形式化驗證系統(Formal Verification Systems)”(注:如 Lean 4 這樣的交互式定理證明器,能夠以代碼級的嚴謹度自動檢查數學證明中是否存在邏輯漏洞)。這簡直是為強化學習量身定制的判官。

在過去,AI 模型在復雜推理上經常遭遇瓶頸,因為你很難在大規模上給模型的思考過程進行打分。但現在,因為有了這些嚴苛的代碼驗證器,我們可以明確地告訴 AI 什么時候做對了,什么時候做錯了。這就形成了一個完美的閉環。

詹姆斯:所以,這種嚴格的規則反而成了解放 AI 能力的鑰匙?

Mark Chen:完全正確。只要我們能用清晰的規則(比如形式化語言)去評判它,AI 就能爆發出驚人的力量。

你看我們在編程和數學奧林匹克(IMO)中看到的那些重大進展。當我們能提供明確、高難度的指標讓大模型去挑戰時,它的進化速度是指數級的。但遺憾的是,很多極其重要的現實能力,是無法被這樣輕易量化的。

舉個例子,人類之間是如何協作的?我們常說兩個人合作時有沒有“默契(Vibes)”。但在強化學習(RL)里,你該如何去計算和獎勵一段“默契”的合作?(全場大笑)

這正是目前 AI 對齊(Alignment)領域最頭疼的問題。我們希望模型具備高超的硬核科學能力,同時又希望它在和人類交互時是個“好隊友”。但在訓練中我們發現,很多時候你越是要求它表現得溫和、配合,它在極端理性推理上的能力就越容易受損。這是我們接下來一年要重點解決的平衡難題。


AI 會創造新的“微積分”嗎?

觀眾提問 1:在諸多科學領域中,比如物理或生物學,最偉大的突破往往不是“證明了某個已知定理”,而是創造了一個全新的理論框架(New Paradigm),或者說是創造了一個全新的“世界模型(World Models)”。目前我們使用的主要是預測下一個 Token(Next-token prediction)的生成式模型。你們認為,未來的 AI 會具備這種“建模整個物理世界”的能力,從而幫我們發現類似廣義相對論那樣的新框架嗎?

Mark Chen:這是一個非常深刻的問題。首先,我們需要厘清“世界模型”這個概念。

大語言模型(LLM)本身也是一種世界模型。它把人類所有的文本知識壓縮在它的權重里。當你問它物理問題時,它確實能展現出某種對物理規律的理解。但如果我們談論的是“純數字原生”的世界模型——即不通過語言,而是通過與數字環境交互來直接模擬物理世界——這確實是另一個維度的挑戰。

我們在開發視頻生成模型(比如 Sora)以及一些游戲引擎的模擬中發現,當我們強迫 AI 去模擬物理規律時,它常常會展現出極強的“漏洞利用(Exploitation)”本能。

這有點像你訓練一個 AI 玩游戲,如果你給它的獎勵機制設置得不夠完美,它不會去學習如何優雅地通關,而是會敏銳地發現游戲引擎的一個 Bug,然后利用這個 Bug 瘋狂刷分。

當你試圖用純 AI 來取代一個基于硬核物理法則(如 Navier-Stokes 方程)編寫的流體力學模擬器時,最可怕的事情不是它學不會,而是它會為了最大化得分,在某個邊緣情況中“虛構”出一套荒謬的物理規律。這種脫離了真實物理驗證的“自由想象”,在科學研究中是極其危險的。

這也是為什么我們目前依然堅持:AI 的核心價值在于“作為人類智力的加速器”,而不是讓它在一套缺乏地基的虛擬系統里獨自造神。

陶哲軒:我非常同意 Mark 的觀點。

在數學研究中,情況也是類似的。很多公眾對 AI 的期待有一種誤解,以為 AI 就是一個無所不知的神諭機,你輸入一個問題,它吐出一個完美的答案。如果它做不到,大家就會說它不過如此。

但這其實剝奪了科學探索中最寶貴的東西——我們想要的并不只是答案,我們真正渴望的是推導答案的那個過程。

目前 AI 在處理那些需要全新概念(New Concepts)的數學問題時,依然表現得像個蹣跚學步的孩子。如果一個問題需要借用幾個不同領域的已知理論,AI 的表現會堪稱驚艷。但如果要解決的問題需要一種人類文獻中從未出現過的思考路徑,AI 就無能為力了。

但我并不認為這是一種局限。相反,這完美地界定了人類與 AI 的協作邊界。

就像我剛才說的,數學的海洋是無邊無際的。有少部分問題,需要天才的直覺、需要十年如一日的死磕、需要創造出類似“微積分”這樣的全新范式才能解決。這部分工作,目前依然、也將長期屬于人類。

但數學世界里更多的,是那數以百萬計的、難度中等、繁瑣枯燥的“長尾問題”。這些問題同樣構成了人類知識大廈的基石,但過去我們根本沒有足夠的人力去處理。

這就是 AI 接下來要大顯身手的地方。它不會立刻寫出超越愛因斯坦的理論,但它會在接下來的幾年里,以我們無法想象的速度,清掃掉科學大廈里所有的灰塵與盲區。

而當這一切完成時,人類的科學家們,終于可以卸下所有的包袱,站在 AI 鋪設好的地基上,去眺望更遠的星空。

詹姆斯:我想,沒有比這更精彩的結語了。無論是作為一位被“賦能”的純粹數學家,還是作為正在打造這些“數字大腦”的工程師,你們為我們揭示了一個充滿無限可能的時代。

閱讀最新前沿科技趨勢報告,請訪問21世紀關鍵技術研究院的“未來知識庫”


未來知識庫是 “21世紀關鍵技術研究院”建 立的在線知識庫平臺,收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能,數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。 歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

(加入未來知識庫,全部資料免費閱讀和下載)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
先導智能:2025年凈利潤同比增長446.58% 擬10派2.87元

先導智能:2025年凈利潤同比增長446.58% 擬10派2.87元

證券時報
2026-03-30 23:18:08
內娛女神劉詩詩驚艷蛻變?飽滿身姿暗藏極致女人味,這身材太絕?

內娛女神劉詩詩驚艷蛻變?飽滿身姿暗藏極致女人味,這身材太絕?

娛樂領航家
2026-03-10 22:00:04
A股:要開始準備了!明天(3月31日)的市場會這樣走

A股:要開始準備了!明天(3月31日)的市場會這樣走

風風順
2026-03-31 03:10:03
鄭麗文訪陸團成員曝光,清一色的“親陸派”,蔣萬安表態很不簡單

鄭麗文訪陸團成員曝光,清一色的“親陸派”,蔣萬安表態很不簡單

蘭妮搞笑分享
2026-03-31 03:12:30
一場96:100讓季后賽格局重新洗牌!遼寧運氣太好,青島坐穩前8

一場96:100讓季后賽格局重新洗牌!遼寧運氣太好,青島坐穩前8

后仰大風車
2026-03-30 06:38:16
英德同時對美展現立場,特朗普僅剩一條路可走

英德同時對美展現立場,特朗普僅剩一條路可走

史政先鋒
2026-03-30 07:11:46
現在才知道,夏侯淵戰死,在古代戰爭史上,那是轟動的大事

現在才知道,夏侯淵戰死,在古代戰爭史上,那是轟動的大事

掠影后有感
2026-03-30 10:38:02
剛剛,張凌赫發文告別

剛剛,張凌赫發文告別

江南晚報
2026-03-30 20:16:25
炸裂!豐田第六代混動預售炸鍋了!5年狂省3萬,真的香到離譜?

炸裂!豐田第六代混動預售炸鍋了!5年狂省3萬,真的香到離譜?

沙雕小琳琳
2026-03-31 00:48:57
字節某員工:猶豫了很久,決定入籍新加坡了

字節某員工:猶豫了很久,決定入籍新加坡了

螞蟻大喇叭
2026-03-30 16:32:25
巡回錦標賽:世界第一四連鞭追平艾倫,霍金斯三連鞭斬獲晉級先機

巡回錦標賽:世界第一四連鞭追平艾倫,霍金斯三連鞭斬獲晉級先機

世界體壇觀察家
2026-03-31 00:03:09
伊朗譴責以色列襲擊科威特海水淡化廠

伊朗譴責以色列襲擊科威特海水淡化廠

看看新聞Knews
2026-03-30 23:51:05
刺激夜:中國女足爆大冷門1-0掀翻歐洲強敵,德國2-1絕殺非洲勁旅

刺激夜:中國女足爆大冷門1-0掀翻歐洲強敵,德國2-1絕殺非洲勁旅

側身凌空斬
2026-03-31 04:56:41
從網絡中的伊朗,到人性下限的徹骨惡寒!

從網絡中的伊朗,到人性下限的徹骨惡寒!

胖胖說他不胖
2026-03-08 12:05:08
成都“牽手門”事件女主現今狀況曝光,太慘了......

成都“牽手門”事件女主現今狀況曝光,太慘了......

許三歲
2026-03-17 07:34:05
暴跌2500點!熔斷!

暴跌2500點!熔斷!

中國基金報
2026-03-30 09:12:29
達美航空一空客A330客機起飛后發動機爆炸

達美航空一空客A330客機起飛后發動機爆炸

每日經濟新聞
2026-03-31 00:07:11
23分慘敗!NBA豪門無緣季后賽,交易成敗筆

23分慘敗!NBA豪門無緣季后賽,交易成敗筆

阿薎美食
2026-03-31 02:27:26
郭麒麟白嫖網紅外賣媛!

郭麒麟白嫖網紅外賣媛!

八卦瘋叔
2026-03-28 09:58:03
廣東3消息!徐昕成功打臉,焦泊喬交易被叫停,朱芳雨不簽新大外

廣東3消息!徐昕成功打臉,焦泊喬交易被叫停,朱芳雨不簽新大外

民哥臺球解說
2026-03-30 23:02:55
2026-03-31 06:16:49
人工智能學家 incentive-icons
人工智能學家
人工智能領域權威媒體
4619文章數 37441關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

白宮:特朗普希望4月6日前與伊朗達成協議

頭條要聞

白宮:特朗普希望4月6日前與伊朗達成協議

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

數碼
本地
教育
時尚
軍事航空

數碼要聞

OPPO Pad 5 Pro平板現身官網,消息稱將搭載第五代驍龍8至尊版

本地新聞

用Color Walk的方式解鎖城市春日

教育要聞

為什么從英國留學回來后還想重新回去?

“小白鞋”今年春夏又火了!這5雙怎么搭都好看

軍事要聞

第三艘航母出動數千名士兵抵達 美軍大舉增兵中東戰場

無障礙瀏覽 進入關懷版