OpenAI 正在重新聚焦其研究方向,將資源集中投入一項新的宏大目標。這家公司瞄準的是“AI 研究員”——一個完全自動化的、基于智能體的系統(tǒng),能夠獨立處理復雜問題。OpenAI 表示,這個新目標將成為公司未來幾年的“北極星”,它將把推理模型、智能體和可解釋性方面的工作整合在一起。
并且,項目已經(jīng)提上了日程。OpenAI 計劃在 9 月前打造出“自主 AI 研究實習生”——一個能夠獨立承擔少量特定研究問題的系統(tǒng)。該系統(tǒng)計劃于 2028 年推出,這個 AI 實習生將是全自動多智能體研究系統(tǒng)的前身。OpenAI 稱,它將能處理人類難以應對的復雜問題。
這些任務可能涉及數(shù)學和物理,比如提出新的證明或猜想,也可能涉及生物學和化學等生命科學,甚至是商業(yè)和政策難題。從理論來說,可以將任何能用文本、代碼或白板草圖表述的問題丟給這個工具,而這覆蓋的范圍非常廣泛。
最近幾年,OpenAI 被視為引領 AI 行業(yè)的風向標。它憑借大語言模型建立的早期主導地位,塑造了如今數(shù)億人每天使用的技術。但是現(xiàn)在,它面臨來自 Anthropic 和 Google DeepMind 等競爭對手的激烈挑戰(zhàn)。OpenAI 接下來決定造什么,對它自己和 AI 的未來都很重要。
![]()
(來源:麻省理工科技評論)
這個決定很大程度上取決于 OpenAI 的首席科學家雅庫布·帕喬基(Jakub Pachocki),他負責制定公司的長期研究目標。帕喬基在 GPT-4 和推理模型的開發(fā)中都扮演了關鍵角色,前者是 2023 年發(fā)布的一款改變行業(yè)格局的大語言模型,后者是 2024 年首次出現(xiàn)的一項技術,如今已成為所有主流聊天機器人和智能體系統(tǒng)的基礎。
在本周的獨家專訪中,帕喬基向《麻省理工科技評論》詳細介紹了 OpenAI 的最新愿景。“我認為我們正在接近一個節(jié)點,屆時模型將能夠像人一樣,以連貫的方式無限期地工作。”他說,“當然,你仍然需要人來掌控全局、設定目標。但我認為我們會達到一種狀態(tài)——一個數(shù)據(jù)中心就相當于一整座研究實驗室。”
通往“AI 研究員”的技術路徑
事實上,這類宏大愿景并不新鮮。通過解決世界上最困難的問題來拯救世界,是所有頂尖 AI 公司的公開使命。德米斯·哈薩比斯(Demis Hassabis)2022 年就告訴過《麻省理工科技評論》,這是他創(chuàng)辦 DeepMind 的初衷。Anthropic 的 CEO 達里奧·阿莫迪(Dario Amodei)說,他正在數(shù)據(jù)中心里打造一個“天才之國”。OpenAI 的 CEO 山姆·奧特曼(Sam Altman)想攻克癌癥,對此帕喬基表示,OpenAI 現(xiàn)在已經(jīng)具備了實現(xiàn)目標所需的大部分條件。
今年 1 月,OpenAI 發(fā)布了 Codex,一款基于智能體的應用,可在本地或云環(huán)境中生成并執(zhí)行代碼任務。它具有分析文檔、生成圖表、制作收件箱和社交媒體的每日摘要等功能。(其他公司也發(fā)布了類似工具,比如 Anthropic 的 Claude Code 和 Claude Cowork。)
OpenAI 稱,公司大多數(shù)技術人員現(xiàn)在工作中都在使用 Codex。帕喬基認為,可以將 Codex 看作 AI 研究員的一個非常早期的版本,他預計 Codex 會有根本性的提升。
關鍵是讓系統(tǒng)能在更長的時間內運行,同時減少對人類指導的依賴。“我們對自動化研究實習生的真正期待是,你可以把那些一個人需要花幾天時間完成的任務交給它。”帕喬基說。
“很多人都對構建能進行更長周期科學研究的系統(tǒng)感到興奮,”艾倫人工智能研究院的研究科學家道格·唐尼(Doug Downey)認為,這主要是受到代碼智能體成功經(jīng)驗的驅動。“你能把相當復雜的編程任務交給 Codex 這樣的工具,這非常有用,也令人印象深刻。與此同時,這也帶來了一個更大的問題:我們是否能將這種能力拓展到編程之外,在更廣泛的科學領域做到類似的事情?”
對帕喬基來說,答案顯然是“能”。他認為,這只是沿著我們已有的路徑繼續(xù)往前走,全面能力的提升也會讓模型在沒有幫助的情況下工作更久。他以 2020 年 GPT-3 到 2023 年 GPT-4 的飛躍作為例子。他指出,GPT-4 在處理問題時的持續(xù)能力遠超前代,即使沒有專門訓練也是如此。
推理模型帶來了又一次飛躍。訓練大語言模型逐步解題、在犯錯或走入死胡同里時回溯,也讓模型在更長時間段內的工作能力得到了提升。帕喬基相信,OpenAI 的推理模型還會繼續(xù)進步。
與此同時,OpenAI 也在通過給系統(tǒng)喂入特定的復雜任務樣本來訓練它們更長時間地獨立工作,比如數(shù)學和編程競賽中的高難度題目。這些題目迫使模型學會追蹤超長文本,將問題拆分成多個子任務并加以管理。
但他們的目的不是造出一個只會贏數(shù)學競賽的模型。帕喬基說,這其實是在把技術推向真實世界之前,先驗證它的可行性。“如果我們真的想做,我們可以造出一個出色的 AI 數(shù)學家。但這不是我們現(xiàn)在要優(yōu)先做的事,因為到了你相信自己能做到的時候,有更緊迫的事情要做。我們現(xiàn)在更專注于在真實世界中有意義的研究。”
目前的工作方向是把 Codex 在編程方面的能力推廣到通用問題解決上。“編程領域正在發(fā)生巨大的變化,”他說,“我們的工作方式和一年前完全不同了。沒有人還在一直手動編輯代碼。取而代之的是,你管理一組 Codex 智能體。”按照這個邏輯,如果 Codex 能解決編程問題,它就能解決任何問題。
加速拐點已經(jīng)出現(xiàn)
過去幾個月,OpenAI 確實取得了一些重要成果。在若干未解數(shù)學問題上,研究人員利用 GPT-5 系列模型(驅動 Codex 的大語言模型)發(fā)現(xiàn)了新解法,并在一些生物學、化學和物理學難題中突破了看似走不通的困境。
“看著這些模型提出大多數(shù)博士生至少要花好幾周才能想到的點子,我預計這項技術在不久的將來會帶來更多加速。”帕喬基說。
但帕喬基承認,事情還沒有塵埃落定,他也理解為什么有些人仍然懷疑這項技術究竟能帶來哪些變革。他認為,這取決于每個人的工作方式和需求。“我能理解有些人覺得它目前還不太有用。”他說。
他告訴《麻省理工科技評論》,一年前他甚至不用自動補全——這是生成式編程技術最基礎的版本。“我對自己的代碼非常挑剔,”他說,“能自己在 vim 里敲出來,我就自己敲。”(vim 是一款深受硬核程序員喜愛的文本編輯器,使用大量鍵盤快捷鍵而非鼠標來操作。)
但當他看到最新模型的表現(xiàn)后,想法改變了。他仍然不會把復雜的設計任務交出去,但當他只是想快速驗證幾個想法時,它是個省時利器。“一個周末就能讓它跑完以前我需要花一周寫代碼才能做的實驗。”他說。
“我還沒覺得它到了可以放手讓它主導整個設計的程度,”他補充道,“但當你看到它做出了一件需要花一周時間才能完成的事,這很難反駁。”
帕喬基的計劃是把 Codex 這類工具現(xiàn)有的問題解決能力大幅增強,然后推廣到各個科學領域。唐尼也認為自動化研究員的構想非常酷:“如果明天早上回來,發(fā)現(xiàn)智能體干了一堆活,有新結果可以看,那會非常令人興奮。”
但他提醒,構建這樣一個系統(tǒng)可能比帕喬基描述的要難。去年夏天,唐尼和同事們在一系列科學任務上測試了幾個頂尖大語言模型。OpenAI 最新的模型 GPT-5 名列前茅,盡管它仍然會犯很多錯誤。
“如果你需要把多個任務串聯(lián)在一起,連續(xù)做對好幾個的概率往往會下降。”他說。唐尼承認這個領域進展很快,他還沒有測試最新版本的 GPT-5(OpenAI 兩周前發(fā)布了 GPT-5.4)。“所以那些結果可能已經(jīng)過時了。”他說。
安全性與治理的關鍵未解問題
那么,一個在幾乎沒有人類監(jiān)督的情況下能獨立解決復雜問題的系統(tǒng),可能帶來哪些風險?帕喬基告訴《麻省理工科技評論》,OpenAI 內部一直在討論這些風險。
“如果你相信 AI 即將顯著加速研究,包括 AI 自身的研究,這對世界來說是一個巨大的變化,這是一件大事。”他告訴《麻省理工科技評論》,“而且,伴隨著一些嚴肅的未解問題。如果它這么聰明、這么能干,能運行整個研究項目,萬一它做了壞事呢?”
在帕喬基看來,這種情況可能以多種方式發(fā)生:系統(tǒng)可能失控,可能被黑客入侵,也可能只是誤解了指令。
目前 OpenAI 應對這些問題的最主要技術手段,是訓練推理模型在工作過程中分享它們正在做什么的細節(jié)。這種監(jiān)控大語言模型的方法被稱為“思維鏈監(jiān)控”(chain-of-thought monitoring)。
簡單來說,大語言模型在逐步執(zhí)行任務時,會被訓練在一種“草稿本”上記錄自己正在做的事情。研究人員可以通過這些筆記,在一定程度上用于分析和評估模型行為。近日,OpenAI 發(fā)布了關于如何在內部使用思維鏈監(jiān)控來研究 Codex 的新細節(jié)。
“一旦系統(tǒng)開始在大型數(shù)據(jù)中心里長時間自主運行,我認為思維鏈監(jiān)控將成為我們真正依賴的東西。”帕喬基說。
其設想是用其他大語言模型來監(jiān)控 AI 研究員的草稿本,在不良行為成為問題之前就識別到它,而不是試圖從一開始就阻止不良行為的發(fā)生。人類對大語言模型的理解還不夠深入,無法做到完全控制。
“我覺得要真正說‘好了,這個問題解決了’,還需要很長時間,”他說,“在你能真正信任這些系統(tǒng)之前,你肯定需要有限制措施。”帕喬基認為,強大的模型應該部署在沙箱環(huán)境中,與任何它們可能破壞或利用來造成傷害的東西隔離開。
現(xiàn)在,AI 工具已經(jīng)被用于發(fā)起新型網(wǎng)絡攻擊,有人擔心它們會被用來設計合成病原體作為生物武器。“這將是一件非常奇異的事情。這是一種在某些方面前所未有的高度集中的權力,”帕喬基說,“想象一下,你進入一個世界,一個數(shù)據(jù)中心就能完成 OpenAI 或 Google 能做的全部工作。過去需要大型組織才能完成的事情,現(xiàn)在幾個人就夠了。”他認為,這對各國政府來說是一個巨大的挑戰(zhàn)。
但有些人會說,政府本身就是問題的一部分。比如,美國政府想在戰(zhàn)場上使用 AI。Anthropic 與五角大樓最近的對峙表明,社會各界對于這項技術應該和不應該被如何使用遠未達成共識,更不用說由誰來劃定紅線。在那場爭端的緊接著,OpenAI 就站出來與五角大樓簽了協(xié)議,取代了競爭對手。局面仍然混沌不明。
《麻省理工科技評論》就此追問帕喬基:是真的相信其他人能解決這些問題,還是作為未來的關鍵設計者,感受到了個人責任?“我確實感受到了個人責任,”他說,“但我不認為 OpenAI 僅憑自己就能解決這個問題,無論是把技術推向某個特定方向還是以某種特定方式設計產品。我們肯定需要政策制定者的大量參與。”
那么,我們現(xiàn)在身處何處?真的走在通往帕喬基所描繪的那種 AI 的道路上嗎?“我在這個領域待了二十多年了,我已經(jīng)不敢相信自己對某些能力到底還有多遠的預判了。”他說。
OpenAI 的公開使命是確保通用 AI(一種假想的未來技術,許多 AI 樂觀派相信它將能在大多數(shù)認知任務上與人類匹敵)造福全人類。OpenAI 計劃通過率先造出它來實現(xiàn)這一目標。但帕喬基在與《麻省理工科技評論》的對話中只提到過一次 AGI,而且他很快就用“具有經(jīng)濟變革性的技術”這個說法進行了替代。
大語言模型和人腦不一樣,他說:“它們在某些方面和人類表面上相似,因為它們基本上是在人類語言上訓練的。但它們不是通過進化形成的,不像人類那樣高效。”
“即使到 2028 年,我也不預期我們會得到在所有方面都和人一樣聰明的系統(tǒng)。”他補充道,“我不認為它會發(fā)生,但我不認為那是絕對必要的。有趣的是,你不需要在所有方面都和人一樣聰明,就能產生巨大的變革力量。”
https://www.technologyreview.com/2026/03/20/1134438/openai-is-throwing-everything-into-building-a-fully-automated-researcher/
排版:劉雅坤
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.