337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.6和GPT 5.3 Codex同時更新,這波貪了,應(yīng)該留到春晚再看的

0
分享至

AI圈迎來了新年的第一個雙響炮啊,

Anthropic剛發(fā)了Claude Opus 4.6,OpenAI也發(fā)了GPT?5.3-Codex,在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評分,它們強(qiáng)化了那些點,以及除了模型本身,還帶來了什么更新。

先看跑分。

Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試?yán)?,比Sonnet 4.5高了57個點,我第一反應(yīng)就是我一定要在clawdbot體驗一把Opus 4.6。

除了記憶好,Opus 4.6在GDPval-AA(44個不同崗位的知識工作任務(wù))上也超了GPT5.2 200多分,感覺Cowork又可以升級一波了。


隔壁的GPT?5.3-Codex定位是個編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識,速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個點,

夯爆了。


我仔細(xì)對比了一下兩張官方表,發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個,Terminal-Bench 2.0,是在終端命令行里進(jìn)行編程的測試。光看這個評分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個點。

其他展示出來的數(shù)據(jù)不能直接拿來硬比,

SWE-Bench(Agent編程)數(shù)據(jù)集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評的SWE-Bench Verified只測試Python。

OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評出來的分?jǐn)?shù)會更加可信,因為Verified修復(fù)了300多個數(shù)據(jù)問題。

還是來看看它們單個都更新了啥,

Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個點,在多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態(tài)下,比GPT5.2Pro多了3個點。



GPT-5.3-Codex有個指標(biāo)高到離譜,

OSWorld-Verified(視覺桌面操作),

用人話說就是讓AI看截圖換成各種電腦任務(wù),人類基準(zhǔn)是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

融合這個兩個模型的優(yōu)勢的GPT-5.3-Codex直接干到64.7%,跟這個比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰(zhàn))的5,6個點的提升都是常規(guī)操作了。


再來看看應(yīng)用案例。

Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產(chǎn)品線更新了,

Claude Code新功能agent teams(智能體團(tuán)隊),可以讓多個Agent并行工作,適合用在像大規(guī)模代碼檢查之類可以被拆成很多個獨立子任務(wù)的場景。

Claude in Excel也更新了,更新了規(guī)劃模式,還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù),自動做一個合適的表格結(jié)構(gòu)。

還給PPT新出了 research preview,Claude能識別公司品牌的ppt模版,保證布局,字體,顏色都不會變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調(diào)。


OpenAI把更多時間放在showcase上,

他們放了兩個用GPT-5.3-Codex構(gòu)建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

兩個游戲我都完整打了一把,這個賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

潛水我也玩了,本來是想當(dāng)個超人,一口氣潛到最底的,但是潛到一半就體驗到為什么神秘園會說,那些專業(yè)人士潛進(jìn)去就出不來了。。。

他們還放出來一個我覺得很蠢的網(wǎng)頁case,理由是GPT-5.3-Codex做這個價格頁面的時候,會把年費(fèi)展示成打個折的月費(fèi),而不是總金額。。。

奧特曼沒活了可以去咬個打火機(jī)

關(guān)于API和定價,Anthropic這次給API加了Adaptive thinking(自適應(yīng)思考),由Claude 來判斷什么時候打開thinking模式。

還有四檔Effort(努力程度)可選,默認(rèn)是high(高),還有l(wèi)ow(低),medium(中)和max(最大)。

還有一個beta功能,當(dāng)長期對話或者Agent任務(wù)快到打到上下文上限的時候,會自動把上下文壓縮成摘要,用摘要替換上下文。價格我做成表格了,


GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網(wǎng)頁版都能用了,上線就全量,這很不openai。

說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時代的眼淚了。


最后說說安全。

這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


Anthropic上來先亮了個圖,說這次升級沒有影響我們模型的安全性,這段時間我們做了兩件事。

第一件事,努力搞清楚模型腦子里到底在想什么。

他們在做一種可解釋性的新方法,目標(biāo)是讓研究人員能看見模型為什么會在某些情況下給出某種回答。這樣做的好處是,很多問題在標(biāo)準(zhǔn)測評里不一定暴露,但當(dāng)你能追到原因,就更容易提前發(fā)現(xiàn)風(fēng)險,比如模型在某些邊緣場景會突然變得很會誤導(dǎo)人。

第二件事,在模型擅長的領(lǐng)域加了更嚴(yán)的防護(hù)。

他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強(qiáng),能修bug,也能拿去攻擊。所以他們做了六個新的網(wǎng)絡(luò)安全探針,用來檢測模型有沒有在輸出可能被濫用的內(nèi)容。

隔壁OpenAI在安全上也下了苦功夫,

他們現(xiàn)在給開源項目免費(fèi)做體驗,把一些熟悉的壞套路整理成話術(shù)識別規(guī)則,當(dāng)我們給gpt發(fā)的問題跟某個套路很像的時候,模型就會自動降低問答的詳細(xì)程度。

這次模型更新后,

明顯感覺我的預(yù)期值變高了,以前更新模型我通常還會去測一下文本,代碼,3D的表現(xiàn),

但現(xiàn)在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

太簡單的測起來沒意思,

我們現(xiàn)在用Claude Code加一些模型,

也能夠做到這樣的上限。

太復(fù)雜的,我想以Agent的形式,

放到我們已有的工作流里長時間來評估它的差異。

說不定后面模型的更新會成為一種日常的迭代,

發(fā)布會也不開了,

開始卷Agent形態(tài)了,

我就一個愿望,

別光跟整理桌面較勁了,

我桌面都快沒文件了。

@ 作者 / 卡爾

最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉(zhuǎn)發(fā)|評論

如果想要第一時間收到推送,不妨給我個星標(biāo)

如果你有更有趣的玩法,歡迎在評論區(qū)和我聊聊

更多的內(nèi)容正在不斷填坑中……


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
晚上睡前刷牙、刷牙后漱口,原來都錯了?醫(yī)生:很多人都在“無效刷牙”

晚上睡前刷牙、刷牙后漱口,原來都錯了?醫(yī)生:很多人都在“無效刷牙”

人民日報健康客戶端
2026-03-19 20:23:09
5分鐘開通國家免費(fèi)電視!不用機(jī)頂盒、不連網(wǎng),永久免費(fèi)

5分鐘開通國家免費(fèi)電視!不用機(jī)頂盒、不連網(wǎng),永久免費(fèi)

叮當(dāng)當(dāng)科技
2026-03-20 03:29:51
伊朗突然對沙特宣戰(zhàn):巴鐵如果幫助盟國沙特,中國武器會登場嗎?

伊朗突然對沙特宣戰(zhàn):巴鐵如果幫助盟國沙特,中國武器會登場嗎?

影像溫度
2026-03-19 09:52:35
劉德華家吃飯被拍,空墻素桌惹爭議,有人覺得低調(diào)有人覺得太寒酸

劉德華家吃飯被拍,空墻素桌惹爭議,有人覺得低調(diào)有人覺得太寒酸

TVB的四小花
2026-03-23 05:33:25
鄭麗文八個字敲打盧秀燕,送機(jī)和接機(jī),盧秀燕訪美前后判若兩人

鄭麗文八個字敲打盧秀燕,送機(jī)和接機(jī),盧秀燕訪美前后判若兩人

娛樂圈的筆娛君
2026-03-23 11:46:09
她,40歲俄羅斯女人嫁東北大叔:我圖他有錢,但更圖他是個好人

她,40歲俄羅斯女人嫁東北大叔:我圖他有錢,但更圖他是個好人

主宰穩(wěn)場
2026-03-22 22:39:42
抗美援朝時,5名中國女戰(zhàn)士被美軍包圍后主動投降,此后下落不明

抗美援朝時,5名中國女戰(zhàn)士被美軍包圍后主動投降,此后下落不明

南權(quán)先生
2026-03-14 15:21:15
伊朗慫了幾十年,為何這次突然行了呢?你可能想不到

伊朗慫了幾十年,為何這次突然行了呢?你可能想不到

農(nóng)夫史記
2026-03-15 20:45:22
伊朗導(dǎo)彈飛越4000公里打擊英美基地,英國:我跟美以不是一伙!

伊朗導(dǎo)彈飛越4000公里打擊英美基地,英國:我跟美以不是一伙!

阿龍聊軍事
2026-03-23 11:34:12
美國告急!日本告急!中國一招卡了全球車企的脖子

美國告急!日本告急!中國一招卡了全球車企的脖子

近史博覽
2026-03-23 01:30:34
里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

里子面子都丟了,森林北自曝身體出了問題,汪峰的體面被撕碎

素衣讀史
2025-11-19 16:09:14
全文!2026年安徽省委一號文件公布

全文!2026年安徽省委一號文件公布

安徽發(fā)布
2026-03-23 16:55:06
實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規(guī)的事

實探杭州“假裝上班公司”:包月有“全勤獎”,老板稱不愿客戶變成真上班,拒絕做違法違規(guī)的事

極目新聞
2026-03-22 22:55:43
3月30日起執(zhí)行!不用再買墓地,國家正式放開殯葬新選擇

3月30日起執(zhí)行!不用再買墓地,國家正式放開殯葬新選擇

福建平子
2026-03-22 08:11:56
男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

男人的生理需求能有多難忍?網(wǎng)友:我對我老公只有動物本能

帶你感受人間冷暖
2026-02-07 03:58:56
不是打贏,而是不讓你贏,中國這套操作,讓美國根本無法招架

不是打贏,而是不讓你贏,中國這套操作,讓美國根本無法招架

傲傲講歷史
2026-03-22 21:55:06
張本宇夫婦年輕時顏值在線卻事業(yè)受挫,無奈赴日發(fā)展終圓夢,子女爭氣成世界前十選手

張本宇夫婦年輕時顏值在線卻事業(yè)受挫,無奈赴日發(fā)展終圓夢,子女爭氣成世界前十選手

可樂談情感
2026-03-23 18:19:28
中國政府中東問題特使:中東已經(jīng)夠亂了,有關(guān)當(dāng)事方應(yīng)立即停止軍事行動;堅決抵制單邊主義

中國政府中東問題特使:中東已經(jīng)夠亂了,有關(guān)當(dāng)事方應(yīng)立即停止軍事行動;堅決抵制單邊主義

每日經(jīng)濟(jì)新聞
2026-03-23 18:08:37
日本的頭號幫手已到位,飛機(jī)沖向中國領(lǐng)空!高市早苗:日本很冷靜

日本的頭號幫手已到位,飛機(jī)沖向中國領(lǐng)空!高市早苗:日本很冷靜

泠泠說史
2026-03-23 18:10:47
神劇再起,傳奇回歸,9.3分王炸又爆了

神劇再起,傳奇回歸,9.3分王炸又爆了

天天美劇吧
2026-03-22 18:51:08
2026-03-23 19:55:00
卡爾的AI沃茨 incentive-icons
卡爾的AI沃茨
前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
233文章數(shù) 118關(guān)注度
往期回顧 全部

科技要聞

裁掉2萬多名員工后,扎克伯格對自己下手了

頭條要聞

特朗普:美伊在過去兩天進(jìn)行了非常"富有成效"的對話

頭條要聞

特朗普:美伊在過去兩天進(jìn)行了非常"富有成效"的對話

體育要聞

不敢放手一搏,你拿什么去爭冠?

娛樂要聞

劉燁47歲生日,安娜曬全家福為其慶生

財經(jīng)要聞

市場見底了嗎?誰在拋售?機(jī)構(gòu)火線解讀

汽車要聞

"拒絕"豪車稅 新款Panamera盡享版99.8萬元起精準(zhǔn)入局

態(tài)度原創(chuàng)

手機(jī)
家居
旅游
房產(chǎn)
軍事航空

手機(jī)要聞

華為首款風(fēng)冷散熱手機(jī)!Mate 80 Pro Max風(fēng)馳版與Mate 80 Pro Max參數(shù)對比來了

家居要聞

智慧生活 奢享家居

旅游要聞

倒計時!北京朝陽這條“櫻花河”即將“全線變粉”

房產(chǎn)要聞

440億!海南又一城城更計劃曝光!TOP10房企巨頭突然殺入!

軍事要聞

伊朗回應(yīng)美方威脅:將在戰(zhàn)場上堅決對抗

無障礙瀏覽 進(jìn)入關(guān)懷版