網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI一周四連發(fā)

2026-03-06 13:42:26　來(lái)源: Ai學(xué)習(xí)的老章

北京舉報(bào)

分享至

這周 OpenAI 打了一套密集到離譜的組合拳——4天4個(gè)重磅發(fā)布

模型、應(yīng)用、桌面端、企業(yè)工具全面鋪開(kāi)，看得人目不暇接

一、GPT-5.3 Instant：不"cringe"了

3月3日上線(xiàn)，替代 GPT-5.2 Instant 成為 ChatGPT 的默認(rèn)日常模型。

這次改了什么？一句話(huà)：說(shuō)人話(huà)了。

之前的 GPT-5.2 Instant 有個(gè)毛病——?jiǎng)硬粍?dòng)就來(lái)一句"讓我們停下來(lái)，深呼吸"，或者在你問(wèn)個(gè)正常問(wèn)題時(shí)給你貼一堆免責(zé)聲明。用戶(hù)吐槽這叫"cringe"（尬），OpenAI 這次直接把這個(gè)當(dāng)核心問(wèn)題來(lái)修。

關(guān)鍵數(shù)據(jù)：

高風(fēng)險(xiǎn)領(lǐng)域（醫(yī)療、法律、金融）幻覺(jué)率降低 **26.8%**（聯(lián)網(wǎng)模式）
用戶(hù)反饋場(chǎng)景幻覺(jué)率降低 **22.5%**（聯(lián)網(wǎng)模式）
大幅削減不必要的拒答和說(shuō)教式開(kāi)場(chǎng)白
寫(xiě)作能力也有提升，小說(shuō)、潤(rùn)色這些創(chuàng)意場(chǎng)景更好用了

二、Codex 登陸 Windows：50萬(wàn)人等的那個(gè)

3月4日，Codex 桌面應(yīng)用正式上線(xiàn) Windows

之前只有 macOS 版，上線(xiàn)第一周下載量就破了100萬(wàn)，目前周活160萬(wàn)

50萬(wàn)人排隊(duì)等 Windows 版，這次終于來(lái)了。

核心亮點(diǎn)：

原生沙盒：和微軟合作打造，操作系統(tǒng)級(jí)隔離，不需要退回 WSL 或虛擬機(jī)。沙盒已開(kāi)源
多智能體并行：多個(gè) Agent 同時(shí)跑，各自在獨(dú)立工作樹(shù)里干活，互不沖突
技能系統(tǒng)（Skills）：把 Figma 設(shè)計(jì)稿轉(zhuǎn)代碼、Linear 項(xiàng)目管理、一鍵部署到 Cloudflare/Vercel，甚至用 GPT 圖像生成做游戲素材——全打包成可復(fù)用的技能包
自動(dòng)化：設(shè)好時(shí)間表，Agent 在后臺(tái)自動(dòng)跑 bug 分流、CI 總結(jié)、發(fā)布簡(jiǎn)報(bào)
IDE 支持：新增 Visual Studio、Rider、PhpStorm、Git Bash、GitHub Desktop、Sublime Text

有個(gè)演示案例挺瘋的：僅憑一個(gè)初始提示，Agent 獨(dú)立消耗超過(guò)700萬(wàn)個(gè) Token構(gòu)建了一款賽車(chē)游戲。

定價(jià)：ChatGPT Free 用戶(hù)也能試用。付費(fèi)用戶(hù)在4月2日前速率額度翻倍。不過(guò)說(shuō)實(shí)話(huà)，AI 編程 Agent 吃 Token 的速度，Plus 的額度可能撐不了多久。

三、ChatGPT for Excel：AI 進(jìn)入金融腹地

同一天，OpenAI 放出了 ChatGPT for Excel（Beta），直接把 ChatGPT 嵌入到 Excel 工作簿里。

這不是那種幫你寫(xiě)個(gè) VLOOKUP 的簡(jiǎn)單助手。它能：

自然語(yǔ)言建模：你說(shuō)"幫我做一個(gè)三年期的 DCF 估值模型"，它直接在工作簿里建
跨工作簿推理：理解 Sheet 之間的公式關(guān)聯(lián)，追蹤假設(shè)如何在模型中流動(dòng)
透明可審計(jì)：每一步操作都解釋在做什么，鏈接到具體單元格，修改前請(qǐng)求許可

ChatGPT for Excel 界面

配套的金融數(shù)據(jù)集成更猛：FactSet、Moody's、MSCI、S&P Global、Dow Jones Factiva全接進(jìn)來(lái)了。咨詢(xún)合作伙伴包括麥肯錫、貝恩、BCG、埃森哲、普華永道。

在內(nèi)部投行基準(zhǔn)測(cè)試上，模型從 GPT-5 的 43.7% 飆到 GPT-5.4 Thinking 的 **87.3%**。這意味著初級(jí)分析師的電子表格建模工作，AI 已經(jīng)能做到接近九成的水平。

目前限美國(guó)、加拿大、澳大利亞的 Business/Enterprise/Pro/Plus 用戶(hù)

Google Sheets 版即將推出

四、GPT-5.4：真正的重頭戲

3月5日，GPT-5.4 正式發(fā)布

這是 OpenAI 目前最強(qiáng)的模型，也是這波密集發(fā)布的壓軸

一句話(huà)概括：編碼能力 + 推理能力 + 計(jì)算機(jī)操控，三合一。

核心升級(jí)

100萬(wàn) Token 上下文窗口：API 版本支持最高 1M tokens，OpenAI 有史以來(lái)最大
原生 Computer Use：能通過(guò) Playwright 寫(xiě)代碼操控電腦，也能看截圖發(fā)鼠標(biāo)鍵盤(pán)指令。這是 OpenAI 第一次在通用模型里做原生計(jì)算機(jī)操控
Tool Search：不再把所有工具定義都塞進(jìn)提示詞，按需查找。在 Scale MCP Atlas 基準(zhǔn)上減少47% token 用量，準(zhǔn)確率不變
事實(shí)準(zhǔn)確性：?jiǎn)螚l錯(cuò)誤降低 33%，完整回復(fù)含錯(cuò)誤降低 18%

Benchmark 炸場(chǎng)

基準(zhǔn)

GPT-5.4

GPT-5.2

OSWorld（計(jì)算機(jī)操控）

75.0%

47.3%

人類(lèi)表現(xiàn) 72.4%，GPT-5.4 超越人類(lèi)

GDPval（知識(shí)工作）

83.0%

70.9%

在44個(gè)職業(yè)中匹配/超過(guò)行業(yè)專(zhuān)家

ARC-AGI-2（抽象推理）

73.3%

52.9%

+20.4%

BrowseComp（網(wǎng)絡(luò)搜索）

82.7%

65.8%

Pro版達(dá)到 89.3%

IB 建模（投行任務(wù)）

87.3%

68.4%

+18.9%

SWE-Bench Pro（編碼）

57.7%

55.6%

整合了 5.3-Codex 的編碼能力

MMMU Pro（視覺(jué)理解）

81.2%

79.5%

超過(guò) Gemini 3.1 Pro 的 80.5%

OSWorld 超越人類(lèi)表現(xiàn)這個(gè)事，我覺(jué)得是這次發(fā)布最值得關(guān)注的數(shù)據(jù)點(diǎn)。計(jì)算機(jī)操控這個(gè)領(lǐng)域，從"能用"到"超過(guò)人"，GPT-5.4 邁了一大步。

定價(jià)

模型

輸入

輸出

gpt-5.4

$2.50/M tokens

$15/M tokens

gpt-5.4-pro

$30/M tokens

$180/M tokens

比 GPT-5.2 貴了一點(diǎn)點(diǎn)（輸入 2.50），但考慮到 token 效率提升，實(shí)際成本可能差不多。

安全評(píng)估

OpenAI 同步發(fā)布了詳細(xì)的安全評(píng)估報(bào)告。幾個(gè)值得關(guān)注的點(diǎn)：

網(wǎng)絡(luò)安全能力被評(píng)為 High：這是第一個(gè)部署了 High 級(jí)別網(wǎng)絡(luò)安全緩解措施的通用模型
生物/化學(xué)能力也是 High：超過(guò)中位數(shù)專(zhuān)家基準(zhǔn)
思維鏈可監(jiān)控性在下降：這被標(biāo)記為需要持續(xù)關(guān)注的脆弱性
思維鏈可控性仍然很低：模型很難故意混淆自己的推理過(guò)程，對(duì)安全而言是好事

背景：為什么這么急？

說(shuō)完產(chǎn)品，聊聊背景。

根據(jù)36氪報(bào)道，Anthropic（Claude）的年化收入已接近200億美元，兩周內(nèi)增長(zhǎng)50億。Claude Code 單產(chǎn)品年化收入突破25億美元。更夸張的是，2026年2月 Anthropic 在美國(guó)市場(chǎng)份額飆升至近 70%，OpenAI 降到約 30%。一年前這個(gè)比例還是反的。

API 花費(fèi)方面，Anthropic 占據(jù)90%份額。全球 GitHub 上4%的公開(kāi)代碼提交由 Claude Code 生成。

所以你能理解 OpenAI 為什么一周四連發(fā)了——市場(chǎng)份額在流失，必須快速刷存在感。GPT-5.4 + Codex 桌面端 + Excel 插件 + 金融數(shù)據(jù)生態(tài)，這套組合拳打的就是"從模型到應(yīng)用到生態(tài)"的全棧覆蓋。

有意思的是，與此同時(shí) Anthropic 因?yàn)閳?jiān)持 AI 安全準(zhǔn)則被美國(guó)國(guó)防部封殺，被定性為"供應(yīng)鏈風(fēng)險(xiǎn)"。OpenAI 則迅速填補(bǔ)了這個(gè)缺口。全球已有約250萬(wàn)人加入了 QuitGPT 抵制運(yùn)動(dòng)，社交媒體相關(guān)帖子播放量突破3600萬(wàn)。奧特曼自己都承認(rèn)"吃相難看"。

一邊是產(chǎn)品力的狂飆，一邊是輿論場(chǎng)的反噬。2026年的 AI 競(jìng)爭(zhēng)，比以往任何時(shí)候都更像一場(chǎng)多維度的戰(zhàn)爭(zhēng)。

總結(jié)

這周 OpenAI 的發(fā)布密度確實(shí)罕見(jiàn)。簡(jiǎn)單排個(gè)優(yōu)先級(jí)：

最該關(guān)注的：GPT-5.4 的 Computer Use 能力和 1M 上下文，這代表下一代 AI Agent 的基礎(chǔ)設(shè)施
最實(shí)用的：Codex Windows 客戶(hù)端，如果你是 Windows 開(kāi)發(fā)者，現(xiàn)在就可以用了
最有想象力的：ChatGPT for Excel + 金融數(shù)據(jù)集成，這是 AI 深入垂直行業(yè)的信號(hào)
最被低估的：GPT-5.3 Instant 的"反cringe"更新，日常使用體驗(yàn)提升明顯

OpenAI 能不能靠這波追回來(lái)？還是說(shuō) Claude 的勢(shì)頭已經(jīng)不可逆？我覺(jué)得短期看產(chǎn)品力，長(zhǎng)期看生態(tài)。這場(chǎng)仗，遠(yuǎn)沒(méi)打完。

制作不易，如果這篇文章覺(jué)得對(duì)你有用，可否點(diǎn)個(gè)關(guān)注。給我個(gè)三連擊：點(diǎn)贊、轉(zhuǎn)發(fā)和在看。若可以再給我加個(gè)，謝謝你看我的文章，我們下篇再見(jiàn)！

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.