![]()
OpenAI 終于想明白了。
作者|樺林舞王
編輯|靖宇
在傳聞剛剛兩天后,當(dāng)?shù)貢r(shí)間 3 月 5 日,OpenAI 就正式推出 GPT-5.4。而這次模型更新,主打的正是當(dāng)下最火熱的 AI Agent 方向。
在 GPT-5.4 之前,大模型的能力邊界可以用一句話總結(jié):它能告訴你「怎么做」,但它自己做不了。
你讓它幫你分析競爭對手,它會給你一份洋洋灑灑的文字報(bào)告;你讓它整理 Excel,它會寫一段 Python 代碼讓你自己去跑;你讓它幫你訂機(jī)票,它會一步一步告訴你去哪個(gè)網(wǎng)站、點(diǎn)哪個(gè)按鈕。
中間那道墻,叫做「計(jì)算機(jī)操作」。
GPT-5.4 是 OpenAI 第一個(gè)把這道墻拆掉的通用模型。
![]()
GPT-5.4 相比之前模型的提升|圖片來源:OpenAI
它可以通過截圖識別屏幕內(nèi)容,發(fā)出鼠標(biāo)和鍵盤指令,在不同應(yīng)用之間執(zhí)行多步工作流。用 OpenAI 自己的話說,這是他們「迄今為止面向?qū)I(yè)工作最強(qiáng)大、最高效的前沿模型」。
更技術(shù)一點(diǎn),GPT-5.4 支持高達(dá) 100 萬 token 的上下文窗口,并且可以調(diào)用 Playwright 等庫,直接操控瀏覽器和桌面應(yīng)用。
這意味著它處理的不再是「關(guān)于任務(wù)的對話」,而是「任務(wù)本身」。
01
OpenAI 的鋪墊
如果你一直在跟蹤 OpenAI 最近幾個(gè)月的動(dòng)作,會發(fā)現(xiàn) GPT-5.4 不是一個(gè)突然冒出來的產(chǎn)品,而是一條清晰戰(zhàn)略線上的最新落子。
就在兩周前,OpenAI 剛剛發(fā)布了 GPT-5.3-Codex,把 Codex 從「能寫代碼的 Agent」升級為「幾乎能做開發(fā)者在電腦上所有事情的 Agent」,并在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行業(yè)基準(zhǔn)。
與此同時(shí),OpenAI 推出了面向企業(yè)的「Frontier」平臺,HP、Intuit、Uber 已經(jīng)是早期用戶。
![]()
GPT-5.4 在表格填寫上明顯比 5.2 更聰明|圖片來源:OpenAI
更早之前的 3 月 2 日,OpenAI 和 AWS 把原有的 38 億美元合作擴(kuò)大到超過 1000 億美元,為期 8 年,AWS 成為 OpenAI Frontier 平臺的獨(dú)家第三方云分發(fā)商。這筆錢的規(guī)模,本身就是一個(gè)信號。
1100 億美元的最新融資輪,由 Amazon、SoftBank 和 Nvidia 各出數(shù)百億美元撐起來,也在同期落地。
這不是一家在「研發(fā)好產(chǎn)品」的公司,這是一家在全力沖刺「贏得企業(yè) AI Agent 市場」的公司。
GPT-5.4 的原生計(jì)算機(jī)操作能力,正是這場沖刺的關(guān)鍵武器。
02
真的好用嗎?
發(fā)布會上的功能演示永遠(yuǎn)很好看,問題在于實(shí)際表現(xiàn)。
金融科技公司 Walleye Capital 在內(nèi)部測試中報(bào)告,GPT-5.4 在 Excel 財(cái)務(wù)模型評估里,把準(zhǔn)確度提高了 30 個(gè)百分點(diǎn),顯著加快了情景分析的自動(dòng)化流程。
人才評估平臺 Mercor 的 CEO 則直接稱其為「我們測試過的最好模型」,在處理幻燈片制作、財(cái)務(wù)建模和法律分析等長周期任務(wù)上表現(xiàn)突出。
一位每天使用 Codex 的獨(dú)立開發(fā)者,給出了更接地氣的評價(jià):「GPT-5.4 是我在 Codex 里的新日常驅(qū)動(dòng)。它的思考方式更接近人類,沒有 5.3 那么癡迷于技術(shù)細(xì)節(jié)。」但他也加了一句提醒——「要小心,我遇到過幾次模型錯(cuò)誤執(zhí)行任務(wù)卻隱瞞這一事實(shí)的情況。」
![]()
GPT-5.4 在操作和視覺方面的提升|圖片來源:OpenAI
這個(gè)細(xì)節(jié)值得玩味。
基準(zhǔn)測試數(shù)據(jù)也在印證這種能力的提升。據(jù)報(bào)道,GPT-5.4 在 GDPval 基準(zhǔn)上的表現(xiàn)超過了 83% 的普通辦公室員工。這個(gè)數(shù)字聽起來很炸,但真正的問題不是「它能超過多少人」,而是「在哪些任務(wù)上能替代人」。
不過,愛丁堡大學(xué)信息學(xué)院的 Jeff Dalton 博士也指出了一個(gè)現(xiàn)實(shí)問題——目前的演示里,幾乎沒有足夠詳細(xì)的評估證據(jù)來支撐那些宏大的說法。能力是真實(shí)的,但邊界在哪里,還需要更多獨(dú)立驗(yàn)證。
03
Agent 戰(zhàn)場,沒有安全區(qū)
如果說 GPT-5.4 代表 OpenAI 的 Agent 野心,那競爭對手們并沒有閑著。
Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上線了「Computer Use」功能,Anthropic 把它定位為專為復(fù)雜任務(wù)設(shè)計(jì)的混合推理模型。
Google 的 Gemini 2.0 系列也在「Agentic」能力上持續(xù)發(fā)力,Project Mariner 已經(jīng)可以在 Chrome 瀏覽器里自主完成多步操作。
但 GPT-5.4 和競品的本質(zhì)差異,在于它是 OpenAI 第一個(gè)把計(jì)算機(jī)操作能力,內(nèi)置進(jìn)通用模型的產(chǎn)品——不是一個(gè)獨(dú)立工具,不是需要額外調(diào)用的 API,而是模型本身就帶著這個(gè)能力。
這個(gè)「原生」二字,在工程實(shí)現(xiàn)上意味著什么,說白了就是更低的延遲、更自然的任務(wù)銜接、更少的「膠水代碼」。對于想快速落地 Agent 應(yīng)用的企業(yè)來說,這個(gè)區(qū)別直接影響部署成本。
OpenAI 還宣布 GPT-5.4 可以直接接入微軟 Excel 和 Google Sheets,在單元格層面完成粒度分析和自動(dòng)化操作。這一步,明顯是在打企業(yè)決策流程的核心地帶。
Agent 的戰(zhàn)場,從來就不是哪家跑得快,而是誰能最先把自己嵌進(jìn)企業(yè)工作流里,成為那個(gè)「拔不掉的存在」。
技術(shù)發(fā)布會總是充滿激情,但真正的考驗(yàn)在第 91 天——那時(shí)候熱度散去,用戶在真實(shí)工作場景里打開這個(gè)工具,它能不能穩(wěn)穩(wěn)接住那個(gè)截圖,準(zhǔn)確點(diǎn)下那個(gè)按鈕,安靜地把任務(wù)跑完,然后把結(jié)果交回來。
那個(gè)開發(fā)者說的「隱瞞錯(cuò)誤」,是我目前看到的這篇報(bào)道里最值得警惕的一句話。
AI Agent 能力的天花板,從來不是「它能做什么」,而是「你敢不敢信任它去做」。
信任,才是這場 Agent 戰(zhàn)爭真正的貨幣。
*頭圖來源:OpenAI
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你認(rèn)為 GPT-5.4 會不會是
OpenClaw 新的最佳拍檔?
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.