這周 OpenAI 打了一套密集到離譜的組合拳——4天4個(gè)重磅發(fā)布
模型、應(yīng)用、桌面端、企業(yè)工具全面鋪開(kāi),看得人目不暇接
一、GPT-5.3 Instant:不"cringe"了
3月3日上線(xiàn),替代 GPT-5.2 Instant 成為 ChatGPT 的默認(rèn)日常模型。
這次改了什么?一句話(huà):說(shuō)人話(huà)了。
之前的 GPT-5.2 Instant 有個(gè)毛病——?jiǎng)硬粍?dòng)就來(lái)一句"讓我們停下來(lái),深呼吸",或者在你問(wèn)個(gè)正常問(wèn)題時(shí)給你貼一堆免責(zé)聲明。用戶(hù)吐槽這叫"cringe"(尬),OpenAI 這次直接把這個(gè)當(dāng)核心問(wèn)題來(lái)修。
關(guān)鍵數(shù)據(jù):
高風(fēng)險(xiǎn)領(lǐng)域(醫(yī)療、法律、金融)幻覺(jué)率降低 **26.8%**(聯(lián)網(wǎng)模式)
用戶(hù)反饋場(chǎng)景幻覺(jué)率降低 **22.5%**(聯(lián)網(wǎng)模式)
大幅削減不必要的拒答和說(shuō)教式開(kāi)場(chǎng)白
寫(xiě)作能力也有提升,小說(shuō)、潤(rùn)色這些創(chuàng)意場(chǎng)景更好用了
3月4日,Codex 桌面應(yīng)用正式上線(xiàn) Windows
之前只有 macOS 版,上線(xiàn)第一周下載量就破了100萬(wàn),目前周活160萬(wàn)
50萬(wàn)人排隊(duì)等 Windows 版,這次終于來(lái)了。
核心亮點(diǎn):
原生沙盒:和微軟合作打造,操作系統(tǒng)級(jí)隔離,不需要退回 WSL 或虛擬機(jī)。沙盒已開(kāi)源
多智能體并行:多個(gè) Agent 同時(shí)跑,各自在獨(dú)立工作樹(shù)里干活,互不沖突
技能系統(tǒng)(Skills):把 Figma 設(shè)計(jì)稿轉(zhuǎn)代碼、Linear 項(xiàng)目管理、一鍵部署到 Cloudflare/Vercel,甚至用 GPT 圖像生成做游戲素材——全打包成可復(fù)用的技能包
自動(dòng)化:設(shè)好時(shí)間表,Agent 在后臺(tái)自動(dòng)跑 bug 分流、CI 總結(jié)、發(fā)布簡(jiǎn)報(bào)
IDE 支持:新增 Visual Studio、Rider、PhpStorm、Git Bash、GitHub Desktop、Sublime Text
有個(gè)演示案例挺瘋的:僅憑一個(gè)初始提示,Agent 獨(dú)立消耗超過(guò)700萬(wàn)個(gè) Token構(gòu)建了一款賽車(chē)游戲。
定價(jià):ChatGPT Free 用戶(hù)也能試用。付費(fèi)用戶(hù)在4月2日前速率額度翻倍。不過(guò)說(shuō)實(shí)話(huà),AI 編程 Agent 吃 Token 的速度,Plus 的額度可能撐不了多久。
三、ChatGPT for Excel:AI 進(jìn)入金融腹地
同一天,OpenAI 放出了 ChatGPT for Excel(Beta),直接把 ChatGPT 嵌入到 Excel 工作簿里。
這不是那種幫你寫(xiě)個(gè) VLOOKUP 的簡(jiǎn)單助手。它能:
自然語(yǔ)言建模:你說(shuō)"幫我做一個(gè)三年期的 DCF 估值模型",它直接在工作簿里建
跨工作簿推理:理解 Sheet 之間的公式關(guān)聯(lián),追蹤假設(shè)如何在模型中流動(dòng)
透明可審計(jì):每一步操作都解釋在做什么,鏈接到具體單元格,修改前請(qǐng)求許可
配套的金融數(shù)據(jù)集成更猛:FactSet、Moody's、MSCI、S&P Global、Dow Jones Factiva全接進(jìn)來(lái)了。咨詢(xún)合作伙伴包括麥肯錫、貝恩、BCG、埃森哲、普華永道。
在內(nèi)部投行基準(zhǔn)測(cè)試上,模型從 GPT-5 的 43.7% 飆到 GPT-5.4 Thinking 的 **87.3%**。這意味著初級(jí)分析師的電子表格建模工作,AI 已經(jīng)能做到接近九成的水平。
目前限美國(guó)、加拿大、澳大利亞的 Business/Enterprise/Pro/Plus 用戶(hù)
Google Sheets 版即將推出
四、GPT-5.4:真正的重頭戲
3月5日,GPT-5.4 正式發(fā)布
這是 OpenAI 目前最強(qiáng)的模型,也是這波密集發(fā)布的壓軸
一句話(huà)概括:編碼能力 + 推理能力 + 計(jì)算機(jī)操控,三合一。
核心升級(jí)
100萬(wàn) Token 上下文窗口:API 版本支持最高 1M tokens,OpenAI 有史以來(lái)最大
原生 Computer Use:能通過(guò) Playwright 寫(xiě)代碼操控電腦,也能看截圖發(fā)鼠標(biāo)鍵盤(pán)指令。這是 OpenAI 第一次在通用模型里做原生計(jì)算機(jī)操控
Tool Search:不再把所有工具定義都塞進(jìn)提示詞,按需查找。在 Scale MCP Atlas 基準(zhǔn)上減少47% token 用量,準(zhǔn)確率不變
事實(shí)準(zhǔn)確性:?jiǎn)螚l錯(cuò)誤降低 33%,完整回復(fù)含錯(cuò)誤降低 18%
基準(zhǔn)
GPT-5.4
GPT-5.2
OSWorld(計(jì)算機(jī)操控)
75.0%
47.3%
人類(lèi)表現(xiàn) 72.4%,GPT-5.4 超越人類(lèi)
GDPval(知識(shí)工作)
83.0%
70.9%
在44個(gè)職業(yè)中匹配/超過(guò)行業(yè)專(zhuān)家
ARC-AGI-2(抽象推理)
73.3%
52.9%
+20.4%
BrowseComp(網(wǎng)絡(luò)搜索)
82.7%
65.8%
Pro版達(dá)到 89.3%
IB 建模(投行任務(wù))
87.3%
68.4%
+18.9%
SWE-Bench Pro(編碼)
57.7%
55.6%
整合了 5.3-Codex 的編碼能力
MMMU Pro(視覺(jué)理解)
81.2%
79.5%
超過(guò) Gemini 3.1 Pro 的 80.5%
OSWorld 超越人類(lèi)表現(xiàn)這個(gè)事,我覺(jué)得是這次發(fā)布最值得關(guān)注的數(shù)據(jù)點(diǎn)。計(jì)算機(jī)操控這個(gè)領(lǐng)域,從"能用"到"超過(guò)人",GPT-5.4 邁了一大步。
定價(jià)
模型
輸入
輸出
gpt-5.4
$2.50/M tokens
$15/M tokens
gpt-5.4-pro
$30/M tokens
$180/M tokens
比 GPT-5.2 貴了一點(diǎn)點(diǎn)(輸入 2.50),但考慮到 token 效率提升,實(shí)際成本可能差不多。
安全評(píng)估
OpenAI 同步發(fā)布了詳細(xì)的安全評(píng)估報(bào)告。幾個(gè)值得關(guān)注的點(diǎn):
網(wǎng)絡(luò)安全能力被評(píng)為 High:這是第一個(gè)部署了 High 級(jí)別網(wǎng)絡(luò)安全緩解措施的通用模型
生物/化學(xué)能力也是 High:超過(guò)中位數(shù)專(zhuān)家基準(zhǔn)
思維鏈可監(jiān)控性在下降:這被標(biāo)記為需要持續(xù)關(guān)注的脆弱性
思維鏈可控性仍然很低:模型很難故意混淆自己的推理過(guò)程,對(duì)安全而言是好事
說(shuō)完產(chǎn)品,聊聊背景。
根據(jù)36氪報(bào)道,Anthropic(Claude)的年化收入已接近200億美元,兩周內(nèi)增長(zhǎng)50億。Claude Code 單產(chǎn)品年化收入突破25億美元。更夸張的是,2026年2月 Anthropic 在美國(guó)市場(chǎng)份額飆升至近 70%,OpenAI 降到約 30%。一年前這個(gè)比例還是反的。
API 花費(fèi)方面,Anthropic 占據(jù)90%份額。全球 GitHub 上4%的公開(kāi)代碼提交由 Claude Code 生成。
所以你能理解 OpenAI 為什么一周四連發(fā)了——市場(chǎng)份額在流失,必須快速刷存在感。GPT-5.4 + Codex 桌面端 + Excel 插件 + 金融數(shù)據(jù)生態(tài),這套組合拳打的就是"從模型到應(yīng)用到生態(tài)"的全棧覆蓋。
有意思的是,與此同時(shí) Anthropic 因?yàn)閳?jiān)持 AI 安全準(zhǔn)則被美國(guó)國(guó)防部封殺,被定性為"供應(yīng)鏈風(fēng)險(xiǎn)"。OpenAI 則迅速填補(bǔ)了這個(gè)缺口。全球已有約250萬(wàn)人加入了 QuitGPT 抵制運(yùn)動(dòng),社交媒體相關(guān)帖子播放量突破3600萬(wàn)。奧特曼自己都承認(rèn)"吃相難看"。
一邊是產(chǎn)品力的狂飆,一邊是輿論場(chǎng)的反噬。2026年的 AI 競(jìng)爭(zhēng),比以往任何時(shí)候都更像一場(chǎng)多維度的戰(zhàn)爭(zhēng)。
總結(jié)
這周 OpenAI 的發(fā)布密度確實(shí)罕見(jiàn)。簡(jiǎn)單排個(gè)優(yōu)先級(jí):
最該關(guān)注的:GPT-5.4 的 Computer Use 能力和 1M 上下文,這代表下一代 AI Agent 的基礎(chǔ)設(shè)施
最實(shí)用的:Codex Windows 客戶(hù)端,如果你是 Windows 開(kāi)發(fā)者,現(xiàn)在就可以用了
最有想象力的:ChatGPT for Excel + 金融數(shù)據(jù)集成,這是 AI 深入垂直行業(yè)的信號(hào)
最被低估的:GPT-5.3 Instant 的"反cringe"更新,日常使用體驗(yàn)提升明顯
OpenAI 能不能靠這波追回來(lái)?還是說(shuō) Claude 的勢(shì)頭已經(jīng)不可逆?我覺(jué)得短期看產(chǎn)品力,長(zhǎng)期看生態(tài)。這場(chǎng)仗,遠(yuǎn)沒(méi)打完。
.4
制作不易,如果這篇文章覺(jué)得對(duì)你有用,可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊:點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè),謝謝你看我的文章,我們下篇再見(jiàn)!
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.