專訪OpenAI首席科學家：我們離“AI自己做研究”有多遠？

2026-03-21 22:57:35　來源: DeepTech深科技

北京舉報

分享至

OpenAI 正在重新聚焦其研究方向，將資源集中投入一項新的宏大目標。這家公司瞄準的是“AI 研究員”——一個完全自動化的、基于智能體的系統(tǒng)，能夠獨立處理復雜問題。OpenAI 表示，這個新目標將成為公司未來幾年的“北極星”，它將把推理模型、智能體和可解釋性方面的工作整合在一起。

并且，項目已經(jīng)提上了日程。OpenAI 計劃在 9 月前打造出“自主 AI 研究實習生”——一個能夠獨立承擔少量特定研究問題的系統(tǒng)。該系統(tǒng)計劃于 2028 年推出，這個 AI 實習生將是全自動多智能體研究系統(tǒng)的前身。OpenAI 稱，它將能處理人類難以應對的復雜問題。

這些任務可能涉及數(shù)學和物理，比如提出新的證明或猜想，也可能涉及生物學和化學等生命科學，甚至是商業(yè)和政策難題。從理論來說，可以將任何能用文本、代碼或白板草圖表述的問題丟給這個工具，而這覆蓋的范圍非常廣泛。

最近幾年，OpenAI 被視為引領 AI 行業(yè)的風向標。它憑借大語言模型建立的早期主導地位，塑造了如今數(shù)億人每天使用的技術。但是現(xiàn)在，它面臨來自 Anthropic 和 Google DeepMind 等競爭對手的激烈挑戰(zhàn)。OpenAI 接下來決定造什么，對它自己和 AI 的未來都很重要。

（來源：麻省理工科技評論）

這個決定很大程度上取決于 OpenAI 的首席科學家雅庫布·帕喬基（Jakub Pachocki），他負責制定公司的長期研究目標。帕喬基在 GPT-4 和推理模型的開發(fā)中都扮演了關鍵角色，前者是 2023 年發(fā)布的一款改變行業(yè)格局的大語言模型，后者是 2024 年首次出現(xiàn)的一項技術，如今已成為所有主流聊天機器人和智能體系統(tǒng)的基礎。

在本周的獨家專訪中，帕喬基向《麻省理工科技評論》詳細介紹了 OpenAI 的最新愿景。“我認為我們正在接近一個節(jié)點，屆時模型將能夠像人一樣，以連貫的方式無限期地工作。”他說，“當然，你仍然需要人來掌控全局、設定目標。但我認為我們會達到一種狀態(tài)——一個數(shù)據(jù)中心就相當于一整座研究實驗室。”

通往“AI 研究員”的技術路徑

事實上，這類宏大愿景并不新鮮。通過解決世界上最困難的問題來拯救世界，是所有頂尖 AI 公司的公開使命。德米斯·哈薩比斯（Demis Hassabis）2022 年就告訴過《麻省理工科技評論》，這是他創(chuàng)辦 DeepMind 的初衷。Anthropic 的 CEO 達里奧·阿莫迪（Dario Amodei）說，他正在數(shù)據(jù)中心里打造一個“天才之國”。OpenAI 的 CEO 山姆·奧特曼（Sam Altman）想攻克癌癥，對此帕喬基表示，OpenAI 現(xiàn)在已經(jīng)具備了實現(xiàn)目標所需的大部分條件。

今年 1 月，OpenAI 發(fā)布了 Codex，一款基于智能體的應用，可在本地或云環(huán)境中生成并執(zhí)行代碼任務。它具有分析文檔、生成圖表、制作收件箱和社交媒體的每日摘要等功能。（其他公司也發(fā)布了類似工具，比如 Anthropic 的 Claude Code 和 Claude Cowork。）

OpenAI 稱，公司大多數(shù)技術人員現(xiàn)在工作中都在使用 Codex。帕喬基認為，可以將 Codex 看作 AI 研究員的一個非常早期的版本，他預計 Codex 會有根本性的提升。

關鍵是讓系統(tǒng)能在更長的時間內運行，同時減少對人類指導的依賴。“我們對自動化研究實習生的真正期待是，你可以把那些一個人需要花幾天時間完成的任務交給它。”帕喬基說。

“很多人都對構建能進行更長周期科學研究的系統(tǒng)感到興奮，”艾倫人工智能研究院的研究科學家道格·唐尼（Doug Downey）認為，這主要是受到代碼智能體成功經(jīng)驗的驅動。“你能把相當復雜的編程任務交給 Codex 這樣的工具，這非常有用，也令人印象深刻。與此同時，這也帶來了一個更大的問題：我們是否能將這種能力拓展到編程之外，在更廣泛的科學領域做到類似的事情？”

對帕喬基來說，答案顯然是“能”。他認為，這只是沿著我們已有的路徑繼續(xù)往前走，全面能力的提升也會讓模型在沒有幫助的情況下工作更久。他以 2020 年 GPT-3 到 2023 年 GPT-4 的飛躍作為例子。他指出，GPT-4 在處理問題時的持續(xù)能力遠超前代，即使沒有專門訓練也是如此。

推理模型帶來了又一次飛躍。訓練大語言模型逐步解題、在犯錯或走入死胡同里時回溯，也讓模型在更長時間段內的工作能力得到了提升。帕喬基相信，OpenAI 的推理模型還會繼續(xù)進步。

與此同時，OpenAI 也在通過給系統(tǒng)喂入特定的復雜任務樣本來訓練它們更長時間地獨立工作，比如數(shù)學和編程競賽中的高難度題目。這些題目迫使模型學會追蹤超長文本，將問題拆分成多個子任務并加以管理。

但他們的目的不是造出一個只會贏數(shù)學競賽的模型。帕喬基說，這其實是在把技術推向真實世界之前，先驗證它的可行性。“如果我們真的想做，我們可以造出一個出色的 AI 數(shù)學家。但這不是我們現(xiàn)在要優(yōu)先做的事，因為到了你相信自己能做到的時候，有更緊迫的事情要做。我們現(xiàn)在更專注于在真實世界中有意義的研究。”

目前的工作方向是把 Codex 在編程方面的能力推廣到通用問題解決上。“編程領域正在發(fā)生巨大的變化，”他說，“我們的工作方式和一年前完全不同了。沒有人還在一直手動編輯代碼。取而代之的是，你管理一組 Codex 智能體。”按照這個邏輯，如果 Codex 能解決編程問題，它就能解決任何問題。

加速拐點已經(jīng)出現(xiàn)

過去幾個月，OpenAI 確實取得了一些重要成果。在若干未解數(shù)學問題上，研究人員利用 GPT-5 系列模型（驅動 Codex 的大語言模型）發(fā)現(xiàn)了新解法，并在一些生物學、化學和物理學難題中突破了看似走不通的困境。

“看著這些模型提出大多數(shù)博士生至少要花好幾周才能想到的點子，我預計這項技術在不久的將來會帶來更多加速。”帕喬基說。

但帕喬基承認，事情還沒有塵埃落定，他也理解為什么有些人仍然懷疑這項技術究竟能帶來哪些變革。他認為，這取決于每個人的工作方式和需求。“我能理解有些人覺得它目前還不太有用。”他說。

他告訴《麻省理工科技評論》，一年前他甚至不用自動補全——這是生成式編程技術最基礎的版本。“我對自己的代碼非常挑剔，”他說，“能自己在 vim 里敲出來，我就自己敲。”（vim 是一款深受硬核程序員喜愛的文本編輯器，使用大量鍵盤快捷鍵而非鼠標來操作。）

但當他看到最新模型的表現(xiàn)后，想法改變了。他仍然不會把復雜的設計任務交出去，但當他只是想快速驗證幾個想法時，它是個省時利器。“一個周末就能讓它跑完以前我需要花一周寫代碼才能做的實驗。”他說。

“我還沒覺得它到了可以放手讓它主導整個設計的程度，”他補充道，“但當你看到它做出了一件需要花一周時間才能完成的事，這很難反駁。”

帕喬基的計劃是把 Codex 這類工具現(xiàn)有的問題解決能力大幅增強，然后推廣到各個科學領域。唐尼也認為自動化研究員的構想非常酷：“如果明天早上回來，發(fā)現(xiàn)智能體干了一堆活，有新結果可以看，那會非常令人興奮。”

但他提醒，構建這樣一個系統(tǒng)可能比帕喬基描述的要難。去年夏天，唐尼和同事們在一系列科學任務上測試了幾個頂尖大語言模型。OpenAI 最新的模型 GPT-5 名列前茅，盡管它仍然會犯很多錯誤。

“如果你需要把多個任務串聯(lián)在一起，連續(xù)做對好幾個的概率往往會下降。”他說。唐尼承認這個領域進展很快，他還沒有測試最新版本的 GPT-5（OpenAI 兩周前發(fā)布了 GPT-5.4）。“所以那些結果可能已經(jīng)過時了。”他說。

安全性與治理的關鍵未解問題

那么，一個在幾乎沒有人類監(jiān)督的情況下能獨立解決復雜問題的系統(tǒng)，可能帶來哪些風險？帕喬基告訴《麻省理工科技評論》，OpenAI 內部一直在討論這些風險。

“如果你相信 AI 即將顯著加速研究，包括 AI 自身的研究，這對世界來說是一個巨大的變化，這是一件大事。”他告訴《麻省理工科技評論》，“而且，伴隨著一些嚴肅的未解問題。如果它這么聰明、這么能干，能運行整個研究項目，萬一它做了壞事呢？”

在帕喬基看來，這種情況可能以多種方式發(fā)生：系統(tǒng)可能失控，可能被黑客入侵，也可能只是誤解了指令。

目前 OpenAI 應對這些問題的最主要技術手段，是訓練推理模型在工作過程中分享它們正在做什么的細節(jié)。這種監(jiān)控大語言模型的方法被稱為“思維鏈監(jiān)控”（chain-of-thought monitoring）。

簡單來說，大語言模型在逐步執(zhí)行任務時，會被訓練在一種“草稿本”上記錄自己正在做的事情。研究人員可以通過這些筆記，在一定程度上用于分析和評估模型行為。近日，OpenAI 發(fā)布了關于如何在內部使用思維鏈監(jiān)控來研究 Codex 的新細節(jié)。

“一旦系統(tǒng)開始在大型數(shù)據(jù)中心里長時間自主運行，我認為思維鏈監(jiān)控將成為我們真正依賴的東西。”帕喬基說。

其設想是用其他大語言模型來監(jiān)控 AI 研究員的草稿本，在不良行為成為問題之前就識別到它，而不是試圖從一開始就阻止不良行為的發(fā)生。人類對大語言模型的理解還不夠深入，無法做到完全控制。

“我覺得要真正說‘好了，這個問題解決了’，還需要很長時間，”他說，“在你能真正信任這些系統(tǒng)之前，你肯定需要有限制措施。”帕喬基認為，強大的模型應該部署在沙箱環(huán)境中，與任何它們可能破壞或利用來造成傷害的東西隔離開。

現(xiàn)在，AI 工具已經(jīng)被用于發(fā)起新型網(wǎng)絡攻擊，有人擔心它們會被用來設計合成病原體作為生物武器。“這將是一件非常奇異的事情。這是一種在某些方面前所未有的高度集中的權力，”帕喬基說，“想象一下，你進入一個世界，一個數(shù)據(jù)中心就能完成 OpenAI 或 Google 能做的全部工作。過去需要大型組織才能完成的事情，現(xiàn)在幾個人就夠了。”他認為，這對各國政府來說是一個巨大的挑戰(zhàn)。

但有些人會說，政府本身就是問題的一部分。比如，美國政府想在戰(zhàn)場上使用 AI。Anthropic 與五角大樓最近的對峙表明，社會各界對于這項技術應該和不應該被如何使用遠未達成共識，更不用說由誰來劃定紅線。在那場爭端的緊接著，OpenAI 就站出來與五角大樓簽了協(xié)議，取代了競爭對手。局面仍然混沌不明。

《麻省理工科技評論》就此追問帕喬基：是真的相信其他人能解決這些問題，還是作為未來的關鍵設計者，感受到了個人責任？“我確實感受到了個人責任，”他說，“但我不認為 OpenAI 僅憑自己就能解決這個問題，無論是把技術推向某個特定方向還是以某種特定方式設計產品。我們肯定需要政策制定者的大量參與。”

那么，我們現(xiàn)在身處何處？真的走在通往帕喬基所描繪的那種 AI 的道路上嗎？“我在這個領域待了二十多年了，我已經(jīng)不敢相信自己對某些能力到底還有多遠的預判了。”他說。

OpenAI 的公開使命是確保通用 AI（一種假想的未來技術，許多 AI 樂觀派相信它將能在大多數(shù)認知任務上與人類匹敵）造福全人類。OpenAI 計劃通過率先造出它來實現(xiàn)這一目標。但帕喬基在與《麻省理工科技評論》的對話中只提到過一次 AGI，而且他很快就用“具有經(jīng)濟變革性的技術”這個說法進行了替代。

大語言模型和人腦不一樣，他說：“它們在某些方面和人類表面上相似，因為它們基本上是在人類語言上訓練的。但它們不是通過進化形成的，不像人類那樣高效。”

“即使到 2028 年，我也不預期我們會得到在所有方面都和人一樣聰明的系統(tǒng)。”他補充道，“我不認為它會發(fā)生，但我不認為那是絕對必要的。有趣的是，你不需要在所有方面都和人一樣聰明，就能產生巨大的變革力量。”

https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/

排版：劉雅坤

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.