337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

GPT-5.2深夜炸場,評測碾壓谷歌Gemini 3 Pro,真正的打工人利器

0
分享至

  作者|沐風

  來源|AI先鋒官

  上周,OpenAI CEO奧特曼剛宣布完公司進入“紅色警戒”(Code Red)狀態,要求團隊將工作重心轉移到提高ChatGPT的性能和用戶體驗上后。

  就在今天,OpenAI發布了最新的頂級模型 GPT-5.2系列。

  GPT-5.2 將向 ChatGPT 付費用戶開放,并通過 API 提供給開發者,一共分為三個系列:

  GPT?5.2 Instant(即時版)

  GPT?5.2 Thinking(思考版)

  GPT?5.2 Pro(專業版)

  在OpenAI官方公布的基準測試中,它幾乎對Gemini 3 Pro、Claude Opus 4.5實現了全方位碾壓。

  

  值得注意的是,GPT?5.2 Thinking在AIME 2025(數學)的分數達到了滿分,Gemini 3 Pro 的分數是 95%。

  OpenAI應用CEO Fidji Simo曾說過,GPT-5.2 的設計目標就是為人們創造更多經濟價值。

  那么如何創造呢?

  那就不得不提到GPT-5.2的拿手好戲:制作電子表格、構建演示文稿、編寫代碼、理解圖像、處理超長上下文、使用工具,以及執行復雜的多步驟項目等等。

  空口無憑,讓我們先來看看數據。

  在OpenAI新出的基準測試GDPval(覆蓋 44 個職業、針對明確知識工作任務的評估體系)中,GPT-5.2 Thinking 在70.9%的任務上勝過或打平行業專家,GPT-5.2 Pro更高,為74.1%。

  

  主要測試內容為制作演示文稿、電子表格以及其他專業產出物。

  官方還放出了對比圖,GPT-5.2 做的表格比GPT-5.1確實精細很多。

  

  一個評審員對此的評價是:“看起來像是一個有員工的專業公司做的,布局和建議都很專業,雖然還有一些小錯誤需要修正。”

  另外,GPT-5.2 Thinking生成輸出的速度也超過人類專家11 倍以上,成本不到人類專家的1%。

  OpenAI 聲稱這是AI模型首次達到了“人類專家水平”。

  在ARC-AGI放出的測試中,此前o3 (High) 在ARC-AGI-1測試得分為88%,平均每項任務成本為4500美元。

  而GPT-5.2 Pro (X-High) 最新SOTA得分為90.5%,是第一個突破90%的模型,它的平均任務成本僅為11.64美元,在一年內效率提高了約390倍。

  

  ARC-AGI-2(抽象推理)的分數是 52.9%,相較此前翻了三倍,對比Gemini 3 Pro是 31.1 %。

  

  GPT-5.2 Thinking的代碼能力也同樣刷新了紀錄:

  在SWE-bench Verified上,得分達到80%。

  在SWE-Bench Pro上,得分達到55.6%。

  

  SWE-Bench Pro是新的代碼基準測試,比SWE-bench Verified更難,涵蓋四種編程語言,不只是Python,更接近真實軟件工程。

  早期測試者特別提到,GPT-5.2在前端的能力也明顯提升了,尤其是3D和復雜UI。

  官方也放出了由單prompt生成的demo:

  

  同時,GPT-5.2 Thinking在長文檔處理方面的表現也很亮眼。

  在OpenAI自制的MRCRv2(長文檔中多個信息點的整合能力)評測中,GPT-5.2 Thinking成為首個在256k 上下文長的4-needle上達到接近100%準確率的模型。

  

  不過,更難的8 needle版還是有明顯下降。

  

  GPT-5.2 Thinking的視覺能力也明顯提升,錯誤率基本減半。

  在CharXiv Reasoning測試中,GPT-5.2 Thinking得分達到88.7%,GPT-5.1是80.3%。

  

  在ScreenSpot-Pro測試中,GPT-5.2 Thinking得分達到86.3%。GPT-5.1 是 64.2%。

  

  在官方放出的示例中,OpenAI 要求模型識別輸入圖像中的組件,并返回帶有大致邊界框的標簽。

  

  即使在低質量圖像上,GPT-5.2 也能識別出主要區域,并放置有時能與每個組件真實位置相匹配的框;而 GPT-5.1 僅標記了少數幾個部分,且對其空間排列的理解要弱得多。

  而且,GPT-5.2 Thinking 的幻覺比GPT-5.1 Thinking更少了。

  在一組去標識化的ChatGPT查詢中,前者包含錯誤的回答相對減少了30%

  

  最后,我們來聊聊價格,GPT-5.2的價格一如既往的貴到離譜。

  GPT-5.2的定價為1.75美元/百萬輸入Token,14美元/百萬輸出Token,緩存輸入有90%的折扣,比GPT-5.1貴40%。

  ChatGPT訂閱價格不變。

  

  但是!

  在多個智能體評估中,盡管GPT-5.2的每Token成本更高,但GPT-5.2由于更高的Token效率,性價比反而更高。

  ChatGPT 將于今日開始逐步推出 GPT-5.2(包括 Instant、Thinking 和 Pro 版本),首先面向付費用戶(Plus、Pro、Go、Business 和 Enterprise 版本)提供。

  為確保 ChatGPT 的流暢性和穩定性,GPT-5.2 將分階段部署,在 ChatGPT 中,付費用戶仍可在三個月內繼續使用 GPT-5.1(舊版模式),之后 GPT-5.1 將逐步下線。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
知名女模特曝華子再陷私生子漩渦!曾轉賬10萬美元要求打掉被拒絕

知名女模特曝華子再陷私生子漩渦!曾轉賬10萬美元要求打掉被拒絕

Emily說個球
2026-03-29 21:30:20
1983年鐵道兵集體轉業,兩位開國上將司令員和政委,一個成了鐵道部部長,另一個去了哪里

1983年鐵道兵集體轉業,兩位開國上將司令員和政委,一個成了鐵道部部長,另一個去了哪里

文史明鑒
2026-03-22 23:29:09
高市鐵心賣國!日本決定出兵中東,中方不再忍,對日再出重拳反制

高市鐵心賣國!日本決定出兵中東,中方不再忍,對日再出重拳反制

消費俠
2026-03-28 09:03:58
杜月笙在河邊釣魚,遇到地痞要保護費,杜月笙:找你們老板過來

杜月笙在河邊釣魚,遇到地痞要保護費,杜月笙:找你們老板過來

千秋文化
2026-03-25 21:29:50
特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

小小科普員
2026-03-26 00:27:10
三節10助攻!火箭隊杜蘭特轉型?得分王變組織前鋒,盤活全隊進攻

三節10助攻!火箭隊杜蘭特轉型?得分王變組織前鋒,盤活全隊進攻

熊哥愛籃球
2026-03-29 20:35:26
張雪峰生前最后一瓶水有問題!?

張雪峰生前最后一瓶水有問題!?

八卦瘋叔
2026-03-27 11:25:06
特斯拉車主:Model 3 + HW4.0 買完 FSD 秒推送!

特斯拉車主:Model 3 + HW4.0 買完 FSD 秒推送!

新浪財經
2026-03-29 13:56:50
農村家長曬5個兒子,被網友群嘲:送外賣都費勁,還為國效力呢?

農村家長曬5個兒子,被網友群嘲:送外賣都費勁,還為國效力呢?

今朝牛馬
2026-03-27 18:23:13
斯諾克賽程:今晚2場冠軍PK,小特2劣勢或被爆冷,吳宜澤凌晨首秀

斯諾克賽程:今晚2場冠軍PK,小特2劣勢或被爆冷,吳宜澤凌晨首秀

劉姚堯的文字城堡
2026-03-30 08:27:05
痞幼因網紅身份,在別墅區被鄰居集體“抵制”

痞幼因網紅身份,在別墅區被鄰居集體“抵制”

笑飲孤鴻非
2026-03-29 06:41:39
一女子打賞男主播后覺得下頭要退錢,聊天記錄曝光:尺度真大

一女子打賞男主播后覺得下頭要退錢,聊天記錄曝光:尺度真大

談史論天地
2026-03-30 08:59:23
女子家門未關嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應事件進展

女子家門未關嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應事件進展

大風新聞
2026-03-29 13:28:09
德隆曬全家福,二婚娶性感嬌妻,3個孩子高顏值,轉型成功不缺錢

德隆曬全家福,二婚娶性感嬌妻,3個孩子高顏值,轉型成功不缺錢

大西體育
2026-03-29 21:29:44
3:1!朱婷決賽對手確定,艾格努35分,完勝安娃,主力接應難撼動

3:1!朱婷決賽對手確定,艾格努35分,完勝安娃,主力接應難撼動

跑者排球視角
2026-03-30 07:09:13
百度抓蝦吧禁止人類發帖引爭議,客服回應:后續將跟進處理

百度抓蝦吧禁止人類發帖引爭議,客服回應:后續將跟進處理

DoNews
2026-03-30 08:46:05
今年說什么也要換電車了,因為國家發話了,從4月1日開始

今年說什么也要換電車了,因為國家發話了,從4月1日開始

周哥一影視
2026-03-29 23:34:49
郭麒麟白嫖網紅外賣媛!

郭麒麟白嫖網紅外賣媛!

八卦瘋叔
2026-03-28 09:58:03
猝死的人越來越多?醫生再次強調:寧可打打牌,也別做這6事

猝死的人越來越多?醫生再次強調:寧可打打牌,也別做這6事

岐黃傳人孫大夫
2026-03-28 22:55:03
隊史首次進季后賽!楊瀚森場均17分9板3助1帽!開拓者主帥攤牌了

隊史首次進季后賽!楊瀚森場均17分9板3助1帽!開拓者主帥攤牌了

世界體育圈
2026-03-29 12:54:56
2026-03-30 09:48:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
467文章數 69關注度
往期回顧 全部

科技要聞

DeepSeek“崩了”一夜,仍無法正常使用

頭條要聞

牛彈琴:開戰30天后 一場更猛烈的風暴即將到來

頭條要聞

牛彈琴:開戰30天后 一場更猛烈的風暴即將到來

體育要聞

絕殺衛冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

汪峰定律再現!李榮浩喊話單依純侵權

財經要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

手機
旅游
教育
房產
藝術

手機要聞

彭博社記者稱蘋果折疊屏iPhone將是重大改款機型!

旅游要聞

香江四季繁花盛,灣區共促“賞花經濟”正當時

教育要聞

被焦慮壓垮的童年:中小學心理問題的系統性反思

房產要聞

首日430組來訪,單日120組認籌!海口首個真四代,徹底爆了!

藝術要聞

毛主席的草案遭吐槽!退休前能否再創輝煌?

無障礙瀏覽 進入關懷版