網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

GPT-5.4！「Agent 原生」大模型來了？

2026-03-06 08:43:35　來源: 極客公園

北京舉報(bào)

分享至

OpenAI 終于想明白了。

作者｜樺林舞王

編輯｜靖宇

在傳聞剛剛兩天后，當(dāng)?shù)貢r(shí)間 3 月 5 日，OpenAI 就正式推出 GPT-5.4。而這次模型更新，主打的正是當(dāng)下最火熱的 AI Agent 方向。

在 GPT-5.4 之前，大模型的能力邊界可以用一句話總結(jié)：它能告訴你「怎么做」，但它自己做不了。

你讓它幫你分析競爭對手，它會給你一份洋洋灑灑的文字報(bào)告；你讓它整理 Excel，它會寫一段 Python 代碼讓你自己去跑；你讓它幫你訂機(jī)票，它會一步一步告訴你去哪個(gè)網(wǎng)站、點(diǎn)哪個(gè)按鈕。

中間那道墻，叫做「計(jì)算機(jī)操作」。

GPT-5.4 是 OpenAI 第一個(gè)把這道墻拆掉的通用模型。

GPT-5.4 相比之前模型的提升｜圖片來源：OpenAI

它可以通過截圖識別屏幕內(nèi)容，發(fā)出鼠標(biāo)和鍵盤指令，在不同應(yīng)用之間執(zhí)行多步工作流。用 OpenAI 自己的話說，這是他們「迄今為止面向?qū)I(yè)工作最強(qiáng)大、最高效的前沿模型」。

更技術(shù)一點(diǎn)，GPT-5.4 支持高達(dá) 100 萬 token 的上下文窗口，并且可以調(diào)用 Playwright 等庫，直接操控瀏覽器和桌面應(yīng)用。

這意味著它處理的不再是「關(guān)于任務(wù)的對話」，而是「任務(wù)本身」。

OpenAI 的鋪墊

如果你一直在跟蹤 OpenAI 最近幾個(gè)月的動(dòng)作，會發(fā)現(xiàn) GPT-5.4 不是一個(gè)突然冒出來的產(chǎn)品，而是一條清晰戰(zhàn)略線上的最新落子。

就在兩周前，OpenAI 剛剛發(fā)布了 GPT-5.3-Codex，把 Codex 從「能寫代碼的 Agent」升級為「幾乎能做開發(fā)者在電腦上所有事情的 Agent」，并在 SWE-Bench Pro 和 Terminal-Bench 上刷新了行業(yè)基準(zhǔn)。

與此同時(shí)，OpenAI 推出了面向企業(yè)的「Frontier」平臺，HP、Intuit、Uber 已經(jīng)是早期用戶。

GPT-5.4 在表格填寫上明顯比 5.2 更聰明｜圖片來源：OpenAI

更早之前的 3 月 2 日，OpenAI 和 AWS 把原有的 38 億美元合作擴(kuò)大到超過 1000 億美元，為期 8 年，AWS 成為 OpenAI Frontier 平臺的獨(dú)家第三方云分發(fā)商。這筆錢的規(guī)模，本身就是一個(gè)信號。

1100 億美元的最新融資輪，由 Amazon、SoftBank 和 Nvidia 各出數(shù)百億美元撐起來，也在同期落地。

這不是一家在「研發(fā)好產(chǎn)品」的公司，這是一家在全力沖刺「贏得企業(yè) AI Agent 市場」的公司。

GPT-5.4 的原生計(jì)算機(jī)操作能力，正是這場沖刺的關(guān)鍵武器。

真的好用嗎？

發(fā)布會上的功能演示永遠(yuǎn)很好看，問題在于實(shí)際表現(xiàn)。

金融科技公司 Walleye Capital 在內(nèi)部測試中報(bào)告，GPT-5.4 在 Excel 財(cái)務(wù)模型評估里，把準(zhǔn)確度提高了 30 個(gè)百分點(diǎn)，顯著加快了情景分析的自動(dòng)化流程。

人才評估平臺 Mercor 的 CEO 則直接稱其為「我們測試過的最好模型」，在處理幻燈片制作、財(cái)務(wù)建模和法律分析等長周期任務(wù)上表現(xiàn)突出。

一位每天使用 Codex 的獨(dú)立開發(fā)者，給出了更接地氣的評價(jià)：「GPT-5.4 是我在 Codex 里的新日常驅(qū)動(dòng)。它的思考方式更接近人類，沒有 5.3 那么癡迷于技術(shù)細(xì)節(jié)。」但他也加了一句提醒——「要小心，我遇到過幾次模型錯(cuò)誤執(zhí)行任務(wù)卻隱瞞這一事實(shí)的情況。」

GPT-5.4 在操作和視覺方面的提升｜圖片來源：OpenAI

這個(gè)細(xì)節(jié)值得玩味。

基準(zhǔn)測試數(shù)據(jù)也在印證這種能力的提升。據(jù)報(bào)道，GPT-5.4 在 GDPval 基準(zhǔn)上的表現(xiàn)超過了 83% 的普通辦公室員工。這個(gè)數(shù)字聽起來很炸，但真正的問題不是「它能超過多少人」，而是「在哪些任務(wù)上能替代人」。

不過，愛丁堡大學(xué)信息學(xué)院的 Jeff Dalton 博士也指出了一個(gè)現(xiàn)實(shí)問題——目前的演示里，幾乎沒有足夠詳細(xì)的評估證據(jù)來支撐那些宏大的說法。能力是真實(shí)的，但邊界在哪里，還需要更多獨(dú)立驗(yàn)證。

Agent 戰(zhàn)場，沒有安全區(qū)

如果說 GPT-5.4 代表 OpenAI 的 Agent 野心，那競爭對手們并沒有閑著。

Anthropic 的 Claude 3.7 Sonnet 早在今年 2 月就上線了「Computer Use」功能，Anthropic 把它定位為專為復(fù)雜任務(wù)設(shè)計(jì)的混合推理模型。

Google 的 Gemini 2.0 系列也在「Agentic」能力上持續(xù)發(fā)力，Project Mariner 已經(jīng)可以在 Chrome 瀏覽器里自主完成多步操作。

但 GPT-5.4 和競品的本質(zhì)差異，在于它是 OpenAI 第一個(gè)把計(jì)算機(jī)操作能力，內(nèi)置進(jìn)通用模型的產(chǎn)品——不是一個(gè)獨(dú)立工具，不是需要額外調(diào)用的 API，而是模型本身就帶著這個(gè)能力。

這個(gè)「原生」二字，在工程實(shí)現(xiàn)上意味著什么，說白了就是更低的延遲、更自然的任務(wù)銜接、更少的「膠水代碼」。對于想快速落地 Agent 應(yīng)用的企業(yè)來說，這個(gè)區(qū)別直接影響部署成本。

OpenAI 還宣布 GPT-5.4 可以直接接入微軟 Excel 和 Google Sheets，在單元格層面完成粒度分析和自動(dòng)化操作。這一步，明顯是在打企業(yè)決策流程的核心地帶。

Agent 的戰(zhàn)場，從來就不是哪家跑得快，而是誰能最先把自己嵌進(jìn)企業(yè)工作流里，成為那個(gè)「拔不掉的存在」。

技術(shù)發(fā)布會總是充滿激情，但真正的考驗(yàn)在第 91 天——那時(shí)候熱度散去，用戶在真實(shí)工作場景里打開這個(gè)工具，它能不能穩(wěn)穩(wěn)接住那個(gè)截圖，準(zhǔn)確點(diǎn)下那個(gè)按鈕，安靜地把任務(wù)跑完，然后把結(jié)果交回來。

那個(gè)開發(fā)者說的「隱瞞錯(cuò)誤」，是我目前看到的這篇報(bào)道里最值得警惕的一句話。

AI Agent 能力的天花板，從來不是「它能做什么」，而是「你敢不敢信任它去做」。

信任，才是這場 Agent 戰(zhàn)爭真正的貨幣。

*頭圖來源：OpenAI

本文為極客公園原創(chuàng)文章，轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO

極客一問

你認(rèn)為 GPT-5.4 會不會是

OpenClaw 新的最佳拍檔？

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.