337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

GPT-5.2發布,真正的牛馬打工人專屬AI來了。

0
分享至

在各種小道消息,各種預測之后。

終于,在OpenAI十周年的這一天。



也就是今天的凌晨2點,GPT-5.2終于跟大家見面了。



這是Gemini 3 Pro爆火,第一次讓OpenAI沒有領先優勢,奧特曼在內部官宣紅色警戒狀態之后,他們掏出的第一款模型。

也是OpenAI的十周年獻禮。

而這款模型的特點也非常有意思。

OpenAI的原話是:

We are introducing GPT?5.2, the most capable model series yet for professional knowledge work.(我們正式發布 GPT-5.2,這是迄今為止在專業知識工作方面能力最強的一代模型系列。)

專業知識工作,記住這個關鍵詞,后面要考。

我們先從各種跑分上看,其實能看到,一些跑分其實沒有質的飛躍,有一種數碼廠開始擠牙膏的感覺。。。



對比了GPT-5.2、GPT-5.1、Claude Opus 4.5和Gemini 3 Pro。

在軟件工程(SWE-Bench Pro)、科學問題(GPQA Diamond)、數學競賽(AIME 2025)這些傳統評測集上。

GPT-5.2確實又強了一些,也回到了第一的位置,全面領先。

在前端審美還有3D元素上,表現的更牛逼了。



在視覺理解能力上也更強了。

比如要求模型識別圖像輸入中的組件,并返回帶有近似邊界框的標簽。

即使在低質量的圖像上,GPT-5.2也能識別主要區域并放置與每個組件真實位置大致匹配的框,而GPT-5.1只標注了幾個部分,對它們的空間排列理解不是很好。



但是這些東西,說實話,確實也就那樣,大家很難體感上還覺得有多牛逼。

就像芯片廠子告訴你,我的手機芯片性能又提升了25%,你聽了以后,哦確實強,但是完全不影響你繼續刷抖音和小紅書對吧。

不過有兩個評測集,是我覺得這次GPT-5.2最大的亮點,且一定要單拎出來,跟大家單獨聊一下的。

一個是ARC-AGI-2,一個是GDPval。

這兩個,非常有意思。



先說ARC-AGI-2。

過去的AI評測,比如MMLU,考的主要是是知識。

比如它會問你“美國第一任總統是誰?”、“光合作用的化學方程式是什么?”。

這種評測呢,坦率的講,對于一個讀了半個互聯網的AI來說,有點像開卷考試,它有很大概率不是真的推理出來的,而是背出來的。

這就導致一個問題,在實際的評測中,我們分不清AI是真的聰明,還是只是記性好。

于是,Fran?ois Chollet,就是那位Keras(一個著名的機器學習框架)之父,2019年第一次在論文《On the Measure of Intelligence》里,提出了ARC這個變態測試。

而這個測試,跟知識儲備一毛錢關系都沒有。

全名叫,Abstraction and Reasoning Corpus,抽象與推理語料庫。

設計目標就是測模型的通用智能的能力。

大概就是,不看你在某一道題上有多熟練,而是是看你在沒見過的新題上,能不能自己推理出規則、舉一反三。

目前正式版發展到了第二代,也就是ARC-AGI-2,我給大家放一下,ARC-AGI-2里面的一些典型的題目,大家就懂了。







這種能力,現在稱為流體智力

(Fluid Intelligence),意思就是指不依賴于已有的知識,在全新情境下進行邏輯推理、識別模式和解決問題的能力。

悟性開竅的能力。

說白了,就是你的

這玩意兒對AI來說,難于登天。

因為它在互聯網上找不到任何現成的答案,它必須當場理解、當場推理

在很長一段時間里,頂級AI的得分都低得可憐。

在ARC-AGI-2上,之前GPT-5.1的得分是17.6%,而GPT-5.2,直接飆到了52.9%。

直接翻了三倍。

這是一個很恐怖的數據。

GPT-5.2的模型,直接在排行榜上屠榜了。



而且,效率還很高。



基本都在同成本區間,能力做到了最高。

在真正的智力水平上,GPT-5.2確實達到了目前的最優。

這就比較有意思了。

然后是第二個,也是我自己現在最關心、也是我認為最重要的一個:

GDPval。

可能很多人沒聽說過這個評測集。

他是OpenAI自己在2個半月前新出的。



其實你看這個名字也能看出來一點端倪。

val,就是生產總值的那個GDP。

GDP

他們要用一個全新的標準,來衡量AI在上的表現。

真實世界中、具有經濟價值的任務

過去,我們說一個模型牛逼,是因為它代碼寫得好,或者知識答得準,或者考試分數高。

這當然很重要,但就像我常說的,這個世界不只有程序員和科學家。

還有律師、設計師、市場經理、護士、建筑師、銷售……

無數專業知識工作者。

他們工作的價值,其實很難用一張考卷來衡量。

于是,OpenAI他們在美國貢獻GDP最高的9個行業里,選取了44個核心職業,然后,他們找到了在這些行業里平均有14年工作經驗的資深專家,讓他們出了1320道專業知識任務,并且每一項,都基于真實工作成果。



比如,給律師的任務,可能就是一份真實的合同草案和客戶需求,讓他去審閱和修改。

給市場經理的任務,可能就是一堆產品資料和市場數據,讓他寫一份營銷方案PPT。

給制造工程師的任務,可能就是一張產品設計圖,讓他優化生產流程。

這些任務,不僅有文字,還可能包含PDF、Excel表格、圖片、PPT,是高度復雜的、多模態的、沒有標準答案的真實工作。

整套任務的平均用時,是人類專家要花 7 個小時才能做完,有些甚至是一兩周的活。

然后,模型和人類的成果,會被同領域的另一批專家進行盲評。

他們也不知道誰是AI,誰是人類。

評委只需要回答一個問題:你更愿意把哪份交給客戶?是這份,還是這份?

結果,GPT-5.2 Thinking在這套 GDPval 上,贏或打平行業專家的比例,達到了70.9%,而GPT-5.2Pro 模型是74.1%。

注意,這里的參照系不是普通實習生,而是行業專家。

也就是說,在一個有著十幾年經驗的采購經理、或者審計師面前,GPT-5.2干出來的活兒,有七成的時候,比專家干得好,或者至少一樣好。

而 GPT-5,只有 38.8%。



這個進步的速度,還有有一點快的。

看一下官方放的case的對比,還是比較直觀的。





我們過去的模型,都花過于著重的筆墨在編程開發上了,我并不是說編程開發不重要,它很重要,很牛逼。

但,其他的領域的工作,我也覺得應該被重視。

而GDPval,就是我認為最重要的一個指標。

而且這次GPT-5.2,在上下文上,也有大幅的加強。

用我們以前的大海撈針測試,在一個256K的巨型文檔里面埋四根針,讓AI來根據文檔內容回答。



GPT-5.2干到了離譜的100%,這也是我印象中,唯一一個能干到100%的。

8根針的正確度會下降,但是這個衰減,已經比GPT-5.1牛逼太多了。



而且,還有最新的知識庫截止日期:



牛逼的知識工作處理+最新的知識庫截止日期+更棒的智力+準確性超高的上下文。

這簡直,就是真正的天選牛馬搭子,對打工人的加持,實在是太強了。

這是真正,奔著大眾、奔著實用去的。

目前今天會開放給ChatGPT付費會員,明天會開放給免費會員,會直接替代GPT-5.1,但是如果你是付費會員的話,還會在老模型中存續3個月。

就是這。



可惜截止到我發文的凌晨6點這一刻,作為尊貴的200刀的ChatGPT Pro會員,我還是沒有拿到GPT-5.2的體驗資格。



一些所謂的ChatGPT上的為GPT-5.2專用的文件精修,也只能等拿到實測以后,再出一篇GPT-5.2的打工合集了。

然后開發者的話,已經可以通過API調用。



價格上,會比5.1貴一些。



整體上,GPT-5.2的所有消息差不多就這樣了。

而我自己一直期待的,成人模式。

還是沒有到來。

奧特曼自己這個龜兒子說的是12月上線。



也不知道能不能等到。

反正他說,下周還會再送一些小的圣誕禮物。



盲猜一手OpenAI家的生圖模型,或者成人模式。

對于一個創作者來說,這兩玩意,真的很需要。。。

最后總結,GPT-5.2在我心中,是一個合格的迭代,并沒有跟很多模型一樣,專注于純粹的傳統刷分,而是聚焦在了廣大白領打工人身上,幫大家解決實際工作中的問題。

這個點,我覺得就很酷,非常的剛需。

但是從路線上來說,感覺GPT-5.2還是被原生多模態的Gemini 3 Pro壓了一頭,12月大概率還是要發個生圖模型出來的,不知道對標Banana,會不會有新的驚喜。

總之,還是保持期待。

反正每一個新模型的發布,只要是我覺得有意思的。

也一定會熬夜給大家帶來第一時間的解讀。

我們以后。

還是,不見不散~

晚安。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蚊子不是隨機咬人!?Science子刊最新研究,破解蚊子為何總能精準找到你

蚊子不是隨機咬人!?Science子刊最新研究,破解蚊子為何總能精準找到你

生命科學前沿
2026-04-01 10:35:05
兩套房子全給兒子,我投奔女兒,吃完第一頓飯她一句話讓我心涼

兩套房子全給兒子,我投奔女兒,吃完第一頓飯她一句話讓我心涼

奶茶麥子
2026-04-01 15:35:11
國內商品期貨大面積收跌 集運歐線、原油跌超12%

國內商品期貨大面積收跌 集運歐線、原油跌超12%

每日經濟新聞
2026-04-01 15:11:05
萬科爆出更大雷!負債和現金相隔千億鴻溝

萬科爆出更大雷!負債和現金相隔千億鴻溝

財通社
2026-04-01 19:53:33
遼寧外援哈維與NBL老鷹隊續約兩年,此前已獲得澳大利亞國籍

遼寧外援哈維與NBL老鷹隊續約兩年,此前已獲得澳大利亞國籍

懂球帝
2026-04-01 15:25:18
CBA|里勒壓哨絕殺助北控男籃贏得卡位戰

CBA|里勒壓哨絕殺助北控男籃贏得卡位戰

北青網-北京青年報
2026-04-01 23:14:03
理想汽車推出理想MEGA 5年0息方案

理想汽車推出理想MEGA 5年0息方案

每日經濟新聞
2026-04-01 13:06:33
優思益回應“海外地址竟是汽修廠”:辦公地址正處于變更階段

優思益回應“海外地址竟是汽修廠”:辦公地址正處于變更階段

界面新聞
2026-04-01 20:04:01
有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

有沒有人敢爆自己的瓜?網友:確定玩這么大嗎?

夜深愛雜談
2026-02-18 20:55:58
定了!廣東一高速,將停止收費!

定了!廣東一高速,將停止收費!

珠海發布
2026-04-01 17:08:16
龐崢麟,為何向杜鋒鞠了一躬?愿這樣的鏡頭,在CBA多一點!

龐崢麟,為何向杜鋒鞠了一躬?愿這樣的鏡頭,在CBA多一點!

野球帝
2026-04-01 11:44:44
杜月笙的手段有多毒辣?得知小妾對他不忠,他的處理方式讓人害怕

杜月笙的手段有多毒辣?得知小妾對他不忠,他的處理方式讓人害怕

千秋文化
2026-03-27 20:20:26
楊振寧離世5個月,翁帆遠赴英國真相曝光,藏21年的秘密瞞不住了

楊振寧離世5個月,翁帆遠赴英國真相曝光,藏21年的秘密瞞不住了

離離言幾許
2026-03-13 22:38:05
被淘汰快10年突然翻紅,銷量暴漲20%!明星紛紛佩戴出鏡,網友:我支持,便宜又好用

被淘汰快10年突然翻紅,銷量暴漲20%!明星紛紛佩戴出鏡,網友:我支持,便宜又好用

都市快報橙柿互動
2026-04-01 22:21:20
開拓者新老板:我們現在的位置,并未達到球隊可以企及的高度

開拓者新老板:我們現在的位置,并未達到球隊可以企及的高度

懂球帝
2026-04-01 22:31:22
CBA一夜變天!積分榜更新:山東男籃大勝,廣東再下跌,北京升第3

CBA一夜變天!積分榜更新:山東男籃大勝,廣東再下跌,北京升第3

溫讀史
2026-04-01 11:15:34
新勢力3月成績單出爐:零跑穩居頭名,理想再破4萬輛,小鵬、小米激戰“2萬+俱樂部”

新勢力3月成績單出爐:零跑穩居頭名,理想再破4萬輛,小鵬、小米激戰“2萬+俱樂部”

每日經濟新聞
2026-04-01 20:20:03
伊朗總統:伊方愿在訴求滿足前提下結束戰爭

伊朗總統:伊方愿在訴求滿足前提下結束戰爭

每日經濟新聞
2026-04-01 07:17:38
張玉寧賽前喊話:在亞洲碰不到這樣強大的對手,要珍惜機會

張玉寧賽前喊話:在亞洲碰不到這樣強大的對手,要珍惜機會

懂球帝
2026-04-01 17:32:10
油價一夜大反轉!92號汽油每升跌1.72元后大改?26年油價狂飆!下次調價4月7日:國際油價跌...

油價一夜大反轉!92號汽油每升跌1.72元后大改?26年油價狂飆!下次調價4月7日:國際油價跌...

新浪財經
2026-04-01 11:07:47
2026-04-01 23:39:00
數字生命卡茲克 incentive-icons
數字生命卡茲克
反復橫跳于不同的AI領域,努力分享一些很酷的AI干貨
488文章數 612關注度
往期回顧 全部

科技要聞

甲骨文血洗3萬人,47人團隊僅留3人

頭條要聞

小伙掃共享單車上的碼虧一套房首付 一夜白頭自扇巴掌

頭條要聞

小伙掃共享單車上的碼虧一套房首付 一夜白頭自扇巴掌

體育要聞

NBA擴軍,和籃球無關?

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財經要聞

電商售械三水光針 機構倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態度原創

游戲
教育
房產
藝術
公開課

SIE第一方游戲《Saros》送廠壓盤 4月30日發售

教育要聞

高考為什么要回收“草稿紙”?長知識了

房產要聞

產業、教育、地產…重大信號發出! 官方定調海口未來5年!

藝術要聞

Alexandra Manukyan油畫選刊(二)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版