337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

剛剛,奧特曼砸場發(fā)布 GPT-5.4!網友:一句 Hi 燒掉 80 美元

0
分享至

每次打開 AI 工具,你大概都要先想一秒鐘:這個任務,該用哪個模型?寫代碼是一個,查資料是另一個,讓 AI 幫你操作電腦,還得再開一個窗口。

今天過后, 這種分裂感終于有了一個答案。

就在剛剛,OpenAI 正式發(fā)布 GPT-5.4,把編程、推理、計算機操控、網頁搜索和百萬 Token 上下文全部整合進同一個模型,且沒有為了整合而犧牲任何一項的能力。


OpenAI CEO 山姆·奧特曼也在 X 平臺發(fā)了一條簡短推文,點出了五個方向:知識工作更強、網頁搜索更出色、原生計算機操控、支持百萬 Token 上下文、響應過程中隨時可介入。


寥寥數語,對應的恰好是過去兩年 AI 應用落地中最集中的五個痛點。


知識工作:十次有八次,AI 贏了專業(yè)人士

理解 GPT-5.4 在知識工作上的進步,需要先了解 GDPval 這個基準的設計邏輯。

它橫跨美國 GDP 貢獻最大的 9 個行業(yè)、44 種職業(yè)。任務是那些職場里每天真實發(fā)生的工作:給投資銀行寫財務模型、給醫(yī)院排急診班次、給銷售團隊做演示文稿。

任務完成后,把輸出結果交給行業(yè)內的真實從業(yè)者盲測打分,看 AI 的產出能贏過多少比例的人類同行。


GPT-5.4 的答案是 83.0%,意味著十次對比中有八次以上,行業(yè)專業(yè)人士認為 AI 的產出達到或超過了人類同行水準。上代 GPT-5.2 是 70.9%,差距將近 13 個百分點。

進步在電子表格建模上表現得最為具體。GPT-5.4 模擬初級投行分析師完成建模任務,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距將近 20 個百分點。


法律平臺 Harvey 的 BigLaw Bench 測試結果同樣亮眼,GPT-5.4 得分 91%,專業(yè)服務評測平臺 Mercor 的 APEX-Agents 基準中也拿下了第一。

準確性方面同樣值得關注。 幻覺問題一直是 AI 進入專業(yè)場景最大的攔路虎,每降低一個百分點,都意味著更多場景可以放心用它。

數據顯示,與 GPT-5.2 相比,GPT-5.4 單條陳述出錯的概率低了 33%,完整回復含有錯誤的概率低了 18%。

編程:一個模型,寫代碼測代碼全包了

GPT-5.4 把 GPT-5.3-Codex 的編程能力整合進主線,對開發(fā)者來說,這意味著你不再需要為了寫代碼單獨開一個模型,而且編程能力本身也沒有因此打任何折扣。

SWE-Bench Pro 專門測試真實軟件工程任務,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之后,編程分數不降反升,同時還順帶獲得了計算機操控等一整套通用能力,幾乎找不到明顯的弱點。


知名 AI 評測博主 Dan Shipper 試用后寫道:「這是我們最近一段時間里見過 OpenAI 最出色的規(guī)劃能力,代碼審查也很強,而且成本大約只有 Opus 的一半。」


他點出了兩個具體維度。其一,規(guī)劃能力是長任務成敗的關鍵,GPT-5.4 在任務拆解和持續(xù)推進上明顯更有條理。其二,與 Claude Opus 相比約一半的成本,對需要大規(guī)模 API 調用的開發(fā)者來說,這個差距在賬單上會非常直觀。

開啟 Codex 中的 /fast 模式后,可使 GPT?5.4 的 token 生成速度提升最高 1.5 倍,使得用戶可以在編碼、迭代和調試過程中保持流暢的工作狀態(tài)。


與此同時,新推出的實驗性功能 Playwright Interactive 把 GPT-5.4 的編程體驗又推進了一步。

GPT-5.4 在構建 Web 或 Electron 應用時,能夠通過可視化瀏覽器進行實時調試,模型可以邊寫代碼、邊測試自己正在構建的應用,同時承擔開發(fā)者和測試員兩個角色。


OpenAI 展示了一個典型案例:僅憑一條輕量提示詞,GPT-5.4 生成了一個完整的等距視角主題公園模擬游戲,涵蓋基于瓦片的路徑鋪設與景點建設系統、游客 AI 尋路與排隊行為,以及資金、游客數、滿意度、清潔度四項指標全部實時動態(tài)更新的綜合評分。

Playwright Interactive 在整個過程中承擔了多輪自動化測試,驗證路徑鋪設、攝像機導航、游客響應及 UI 指標的正確性。從寫代碼到測試驗收,模型全程自己完成。

博主 Angel 同樣用 GPT-5.4 寫了一個 Minecraft 克隆版,模型花了約 24 分鐘,運行流暢,過程中沒有卡住。他在推文里寫道「Minecraft 基本上被攻克了,我現在得找個新測試了」。


沃頓商學院教授 Ethan Mollick 同樣獲得了早期訪問權限。他用同一條提示詞,讓 GPT-5.4 Pro 生成了一個受《皮拉內西》啟發(fā)的三維空間場景,全程沒有報錯,只額外追加了一句「把它做得更好」的指令。他隨后把結果和兩年前 GPT-4 生成的版本并排放在一起,差距一眼可見。


操控電腦這件事,它現在比你做得好

這是 GPT-5.4 這次發(fā)布里最值得單獨說一說的變化。此前 OpenAI 的計算機操控能力是一個獨立模塊,跟模型的語言理解、代碼生成之間有一道明顯的分隔。

兩套系統各管各的,信息要來回傳遞,效率自然打折。現在這道分隔沒了,GPT-5.4 操控電腦時,用的就是模型本身的推理能力,不需要再繞一圈。

這也是 OpenAI 第一款將計算機使用(computer use)能力原生內置進通用模型的產品,以后談 AI Agent,相信這會是一個新的起點。

基準測試結果顯示,OSWorld-Verified 基準測試桌面導航能力,用截圖加鼠標鍵盤交互完成真實操作系統任務。GPT-5.4 達到 75.0% 的成功率,人類基線是 72.4%,GPT-5.2 是 47.3%。


簡言之,它不僅追上了人類,還超過了人類。

在只用截圖模式測試瀏覽器操控的 Online-Mind2Web 基準中,GPT-5.4 達到 92.8%,對比對象 ChatGPT Atlas 的 Agent Mode 是 70.9%,

真實部署案例更能說明問題。Mainstay 將 GPT-5.4 用于約三萬個物業(yè)稅務門戶網站的自動表單填寫,首次成功率達 95%,三次以內成功率 100%,而此前同類模型僅在 73% 至 79% 之間。會話完成速度提升約三倍,Token 消耗降低約 70%。

這背后繞不開視覺感知能力的改進。操控電腦說到底是一件需要「看清楚」的事——看清楚界面上有什么、按鈕在哪里、點擊是否準確。

GPT-5.4 在這一層做了專項加強,引入了原始圖像(original)輸入模式,支持最高 1024 萬像素或 6000 像素最大邊長的高保真圖像輸入;原有的高清(high)模式上限也從此前的標準提升至 256 萬像素或 2048 像素最大邊長。

工具調用與網頁搜索:持續(xù)性是核心競爭力

一個復雜的 AI Agent 系統,背后可能掛著幾十個 MCP 工具。過去的做法是每次對話開始前,把所有工具的說明一股腦塞進去,不管這次用不用得上,Token 先花了再說。

GPT-5.4 換了個思路:先給模型一份簡單的工具清單(即引入工具搜索機制),真正需要用哪個,再去把那個工具的詳細說明取過來,用過一次的還能直接緩存,下次不用重新拿。

在 250 項任務的測試中,啟用 36 個 MCP 服務器的完整配置下,工具搜索模式在保持準確率完全不變的前提下,將總 Token 消耗降低了 47%。將近一半的成本節(jié)省,精度一點沒少。


網頁搜索方面,GPT-5.4 在 BrowseComp 基準上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 個百分點,Pro 版更達到 89.3%,創(chuàng)下業(yè)界最高分。Zapier CEO 評價說,GPT-5.4 會在其他模型放棄的地方繼續(xù)搜索下去,是他們測試過持續(xù)性最強的模型。


百萬 Token 上下文:長長長長長長

GPT-5.4 在 API 中支持最高 100 萬 Token 的上下文窗口,相當于可以把一個完整項目的所有相關文檔一次性塞進同一次對話。

但從測試結果來看,128K 至 272K 是表現最穩(wěn)定的區(qū)間,適合日常使用。

256K 以上準確率開始下滑,需要針對具體任務驗證后再用。512K 至 1M 區(qū)間的得分降至 36.6%,目前更接近實驗性質,不適合直接用于對精度要求高的生產任務。


還有一個實際的成本問題需要注意:超過 272K 的請求會按兩倍用量計入配額。也就是說,發(fā)一次超長上下文的請求,額度消耗等于兩次普通請求,用之前值得想清楚是否真的需要這么長。

至于在視覺抽象推理基準 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 僅為 54.2%。


再比如 FrontierMath Tier 4 是目前公認最難的數學基準之一,包含 50 道研究級別的數學題,人類數學家可能需要數周才能解出。GPT-5.4 Pro 在這個基準上得分 38.0%,上代為 31.3%。


這個數字的參照系是:一年前,最好的成績是 o3 的 2%,目前最好的開源模型是 4.2%。

博主 Deedy 在推文中寫道,從 2% 到 38%,「簡直令人震驚」。Humanity's Last Exam 有工具輔助時,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 個百分點。

執(zhí)行中調整,不是完成后返工

用過 AI 處理長任務的人大概都有過這種體驗:等模型跑完一大段,發(fā)現方向不對,只能從頭再來,時間全浪費了。

GPT-5.4 Thinking 在 ChatGPT 中新增了一項「中途打斷」功能:在處理復雜任務之前,模型會先呈現工作計劃概要,再開始執(zhí)行。用戶可以在執(zhí)行過程中隨時介入調整方向,不必等到結果出來再從頭重來。

這個功能把糾偏這件事從「完成后」提前到了「執(zhí)行中」,對需要多輪協作的任務來說,體驗差別會比較明顯。功能目前已在 chatgpt.com 和 Android 應用上線,iOS 版本即將跟進。

即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 用戶開放,替代 GPT-5.2 Thinking 成為默認思考模型。

GPT-5.2 Thinking 將保留至今年 6 月 5 日后正式退役。Enterprise 和 Edu 用戶可由管理員在后臺開啟早期訪問,GPT-5.4 Pro 僅對 Pro 和 Enterprise 計劃開放。


API 標準版定價為輸入 2.50 美元/百萬 Token,緩存輸入 0.25 美元/百萬 Token,輸出 15 美元/百萬 Token。Pro 版為輸入 30 美元/百萬 Token,輸出 180 美元/百萬 Token。Batch 和 Flex 處理享標準價格五折,Priority Processing 為兩倍標準價格。

當然,強大的推理能力也有它的另一面。Hyperbolic 聯合創(chuàng)始人金宇晨在 X 平臺吐槽,GPT-5.4 Pro 是他用過最愛「過度思考」的模型——僅僅發(fā)了一句簡單的「Hi」,模型就開始認真推理,直接燒掉了 80 美元。


這并非個例。推理模型的特性決定了它在處理任何輸入時都傾向于深度思考,哪怕問題本身根本不需要。對于日常輕量任務,標準版或許是更合適的選擇;Pro 版的推理火力,還是留給真正值得的場合更劃算。

過去兩年,AI 能力的討論主要集中在基準測試成績上的「聰明」,但 GPT-5.4 的聰明指向的是能夠在真實工作流中,足夠可靠地承擔責任。

過去 AI 只能輸出文字,人還需要親自操作才能讓事情發(fā)生。現在模型可以自己打開瀏覽器、填寫表單、點擊按鈕、記錄結果,獨立完成一個有頭有尾的任務閉環(huán)。

AI 正在從一個擅長回答問題的系統,變成一個擅長完成任務的系統。而這個轉變的速度,顯然比大多數人預期的更快。



附上參考地址:

https://openai.com/index/introducing-gpt-5-4/

我們正在招募伙伴

簡歷投遞郵箱hr@ifanr.com

?? 郵件標題「姓名+崗位名稱」(請隨簡歷附上項目/作品或相關鏈接)


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
廣東被絕殺僅一天!杜鋒回應下課,離隊參加重要活動,陳老板表態(tài)

廣東被絕殺僅一天!杜鋒回應下課,離隊參加重要活動,陳老板表態(tài)

多特體育說
2026-03-21 23:51:16
大叫“斬死你”!突然傳來槍聲!凌晨,香港警員開5槍制服一男子

大叫“斬死你”!突然傳來槍聲!凌晨,香港警員開5槍制服一男子

南方都市報
2026-03-21 20:39:05
真相來了 | 網傳11個美國城市將遭伊朗打擊?子虛烏有!

真相來了 | 網傳11個美國城市將遭伊朗打擊?子虛烏有!

國際在線
2026-03-21 15:09:12
戰(zhàn)爭第20天,終于打出了讓全世界屏住呼吸的一幕!

戰(zhàn)爭第20天,終于打出了讓全世界屏住呼吸的一幕!

浪子的煙火人間
2026-03-21 17:15:59
北京一輛非法改裝只能報廢的奔馳大G被拍賣,拍出15.7萬高價

北京一輛非法改裝只能報廢的奔馳大G被拍賣,拍出15.7萬高價

天天話事
2026-03-20 22:38:43
35 天,從 M2.5 到 M2.7,模型訓了下一個自己

35 天,從 M2.5 到 M2.7,模型訓了下一個自己

硅星人
2026-03-20 14:22:52
東莞一鞋材廠起火,大火吞沒廠房燃起沖天黑煙,當地應急:已經撲滅,未造成人員傷亡

東莞一鞋材廠起火,大火吞沒廠房燃起沖天黑煙,當地應急:已經撲滅,未造成人員傷亡

瀟湘晨報
2026-03-21 17:49:38
一男子失業(yè)拿了50萬賠償回村里,逢人說欠了30萬外債,誰料第二天叔伯兄弟,都上門來“送溫暖”了

一男子失業(yè)拿了50萬賠償回村里,逢人說欠了30萬外債,誰料第二天叔伯兄弟,都上門來“送溫暖”了

不二大叔
2026-03-19 21:29:20
恐怖!伊朗安全部隊的指揮官陸續(xù)接到了摩薩德特工的專門電話....

恐怖!伊朗安全部隊的指揮官陸續(xù)接到了摩薩德特工的專門電話....

深度報
2026-03-19 22:33:30
三一集團與CCC集團達成戰(zhàn)略合作

三一集團與CCC集團達成戰(zhàn)略合作

每日經濟新聞
2026-03-21 12:26:05
70年代生產隊夜晚的真實生活,只許看不許哭,經歷過的都五十了吧

70年代生產隊夜晚的真實生活,只許看不許哭,經歷過的都五十了吧

史之銘
2026-03-19 17:59:09
2005年,劉嘉玲、朱茵、張柏芝的合影,三人的脖子上均掛一個手機

2005年,劉嘉玲、朱茵、張柏芝的合影,三人的脖子上均掛一個手機

喜文多見01
2026-03-20 16:30:50
暴漲568000%,比亞迪真“殺瘋了”,新政策讓迪子露出獠牙了!

暴漲568000%,比亞迪真“殺瘋了”,新政策讓迪子露出獠牙了!

阿芒娛樂說
2026-03-20 19:32:55
美國媒體終究還是說出了震驚世界的大實話!

美國媒體終究還是說出了震驚世界的大實話!

果媽聊娛樂
2026-03-21 13:01:20
斯諾克戰(zhàn)報:塔猜亞6-4擊敗世界第一,肖國棟門票告急

斯諾克戰(zhàn)報:塔猜亞6-4擊敗世界第一,肖國棟門票告急

吳朑愛游泳
2026-03-22 02:32:03
7歲撿破爛,744分考上清華:如今成了撕開西方封鎖的國之棟梁

7歲撿破爛,744分考上清華:如今成了撕開西方封鎖的國之棟梁

跳跳歷史
2026-03-19 23:06:29
解雇羅塞尼爾!8 大接班名單曝光 兩大傳奇壓陣 榜首出人意料

解雇羅塞尼爾!8 大接班名單曝光 兩大傳奇壓陣 榜首出人意料

瀾歸序
2026-03-22 06:39:16
伊朗稱摧毀中東地區(qū)兩處空軍基地及美以機群機庫

伊朗稱摧毀中東地區(qū)兩處空軍基地及美以機群機庫

財聯社
2026-03-22 00:58:15
難以置信!深圳1100套安居房,價格1.7萬左右,居然只有1人選房了

難以置信!深圳1100套安居房,價格1.7萬左右,居然只有1人選房了

火山詩話
2026-03-21 17:00:09
為了給前NBA狀元霍華德生孩子,籃球寶貝壯壯究竟付出了多大代價

為了給前NBA狀元霍華德生孩子,籃球寶貝壯壯究竟付出了多大代價

羅氏八卦
2026-03-10 18:00:03
2026-03-22 08:04:49
AppSo incentive-icons
AppSo
讓智能手機更好用的秘密
6208文章數 26797關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

男子沉迷"打鳥":改裝車輛買觀鳥裝備 一年花掉上百萬

頭條要聞

男子沉迷"打鳥":改裝車輛買觀鳥裝備 一年花掉上百萬

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態(tài)度原創(chuàng)

教育
手機
游戲
親子
旅游

教育要聞

多切圖第2講,一個視頻學會!

手機要聞

內存大漲價倒逼手機SD卡復活 網友:今夕是何年

魔獸世界:時光服P3階段將至,新手該練什么職業(yè),這個很重要!

親子要聞

帶娃寶媽用什么素顏霜,快速提氣色不用卸妝?

旅游要聞

【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

無障礙瀏覽 進入關懷版