337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

一夜兩炸!Opus 4.6 編程能力竟然倒退, OpenAI 炸出首個(gè)自我創(chuàng)造的模型

0
分享至

★ 設(shè)為星標(biāo) | 只講人話,帶你玩轉(zhuǎn)AIGC。

這周一直在蹲 Claude 新版發(fā)布,結(jié)果沒想到幾個(gè)小時(shí)前,AI 圈上演了史上最抓馬(Drama)的一幕。

OpenAI 和 Anthropic 這兩家死對(duì)頭,直接開干了。

本來是 Claude 要發(fā)新版,沒想到 OpenAI 也來攪局了。 對(duì)于這種不講武德,Anthropic 只能提前 15 分鐘偷跑了!

其實(shí)這兩家的火藥味,在前幾天就已經(jīng)藏不住了。

Anthropic 直接在超級(jí)碗廣告里面公開諷刺 OpenAI 在 ChatGPT 里植入廣告,那個(gè)陰陽怪氣的勁兒,簡(jiǎn)直是把桌子都掀了。

既然兩家已經(jīng)撕破臉打起了“明牌”,那我們這些打工人也別客氣了。

今天這篇,就來聊聊這兩個(gè)“神仙”到底誰更能打,以及我們?cè)摪颜l招進(jìn)團(tuán)隊(duì)?

01| Claude Opus 4.6:深思熟慮的“老領(lǐng)導(dǎo)”

Opus 4.6 這次主打一個(gè)百萬 token 上下文,以及 Agent team,不過在深入之前,按照慣例我們還是先看看跑分。


圖:Opus 4.6 參數(shù)表

1. “辦公室的神”實(shí)錘了 (Office Tasks & Search)

這是 Claude 最引以為傲的地方。

在辦公任務(wù)(Office Tasks)上,Opus 4.6 拿到了 1606 分,直接碾壓了 GPT-5.2 的 1462 分。

這說明在處理復(fù)雜的文檔、表格、寫報(bào)告這種“白領(lǐng)工作”上,Claude 的優(yōu)勢(shì)巨大。


之前 Claude 已經(jīng)發(fā)過一個(gè) Excel 插件,這次不僅進(jìn)行了大幅升級(jí)。還新出了一個(gè) PPT 插件,看樣子它是準(zhǔn)備把手伸進(jìn) Office 全家桶。

在 Excel里處理完數(shù)據(jù),能直接在 PowerPoint 里給你生成 PPT,連你公司的品牌字體、配色模板都能自動(dòng)對(duì)齊 。


產(chǎn)品經(jīng)理和咨詢顧問們,顫抖了嗎?

在搜索能力(BrowseComp)上也是遙遙領(lǐng)先,說明 Claude 更擅長(zhǎng)在網(wǎng)頁的海洋里撈出你真正需要的信息,而不是給你扔一堆無關(guān)鏈接。

這對(duì)于一個(gè) Agent 來說是極其重要的。

2. 奇怪的“倒退”:寫代碼居然變差了? (Agentic Coding)

不知道大家發(fā)現(xiàn)沒有,這里有個(gè)非常有意思的細(xì)節(jié),甚至可以說是“翻車”現(xiàn)場(chǎng)。

Agentic coding (SWE-bench Verified) Opus 4.6 的得分是 80.8%,而上一代 Opus 4.5 的得分是 80.9%。

這就詭異了,Opus 一直主打一個(gè)編程能力強(qiáng),新模型居然比老模型低了 0.1%?

雖然這屬于誤差范圍,但在這種級(jí)別的宣傳物料里出現(xiàn)“負(fù)增長(zhǎng)”是非常罕見的。

這可能印證了文中提到的“過度思考”問題,因?yàn)橄氲锰啵炊押?jiǎn)單的代碼寫復(fù)雜了,導(dǎo)致通過率下降。

程序員朋友們注意了,寫代碼這事兒,新版 Claude 沒準(zhǔn)還不如舊版利索,它可能有點(diǎn)“想太多”。

3.智能體實(shí)測(cè):長(zhǎng)了雙手,但腦子有點(diǎn)亂?

最近的模型看點(diǎn),其實(shí)已經(jīng)從 AI 的“動(dòng)嘴”能力轉(zhuǎn)移到“動(dòng)手”了,也就是所謂的 Agent 能力。

在電腦操作(Computer Use)上,Claude Opus 4.6 拿到了 72.7% 的高分。

這意味著它不再只是給你寫代碼,而是真的能接管鼠標(biāo)鍵盤,像個(gè)活人一樣幫你點(diǎn)開軟件、配置環(huán)境。

但別高興太早,這里藏著一個(gè)巨大的雷。

在大規(guī)模工具調(diào)度(Scaled Tool Use)上,新模型居然翻車了!

Opus 4.6 的得分只有 59.5%,不僅輸給了死對(duì)頭 GPT-5.2(60.6%),甚至還不如它自己的上一代 Opus 4.5(62.3%)。

這是什么概念?如果你讓它干一件具體的事(比如在終端編程),它很強(qiáng)(Terminal Coding 65.4%)。

但如果你一口氣甩給它幾十個(gè)工具讓它自己調(diào)度,這位“深思熟慮”的老領(lǐng)導(dǎo)可能反而會(huì)因?yàn)橄胩喽炎约豪@暈。

想用它搞復(fù)雜自動(dòng)化流程的開發(fā)者,心里恐怕得打個(gè)鼓了。

除了這個(gè)跑分以外,Opus 4.6 這次還帶了了 2 個(gè)真正重磅的更新。

1. 記憶力怪獸:一口氣吞下 100 萬 Token

Opus 系列第一次支持 100 萬 token 的上下文窗口,比上一代直接翻了 5 被。

100 萬 token 是什么概念?

你把整套《哈利波特》加上你們公司那堆陳年代碼山一起扔進(jìn)去,它不僅吞得下,還能精準(zhǔn)地告訴你第 300 頁代碼里那個(gè)變量名拼錯(cuò)了 。

用它來寫代碼或者寫書、翻譯的人都很清楚,這個(gè)東西是有多重要了。

而且,它終于治好了 AI 的“金魚腦”。

以前我們最怕聊著聊著 AI 就忘了前面的設(shè)定,但 Opus 4.6 搞了個(gè)“記憶壓縮技術(shù)”,在腦容量快爆的時(shí)候自動(dòng)把舊信息打包壓縮 。

這就使得它在很長(zhǎng)的上下文檢索或者長(zhǎng)語境情況下進(jìn)行推理,變得非常強(qiáng)。


這就好比一個(gè)永遠(yuǎn)隨身帶錄音筆和會(huì)議紀(jì)要的秘書,想糊弄它?沒門。

2. 給我配一個(gè)“智能體團(tuán)隊(duì)”

這是我覺得最炸裂的功能。

在 Claude Code 里,你不再是一對(duì)一單挑,而是可以組建一個(gè)團(tuán)隊(duì)(Agent Teams)。

你可以指揮好幾個(gè) AI“分身”同時(shí)開工:一個(gè)負(fù)責(zé)寫代碼,一個(gè)負(fù)責(zé)查 Bug,一個(gè)負(fù)責(zé)寫文檔 。

它們作為一個(gè)團(tuán)隊(duì)協(xié)同工作,共享任務(wù),互相之間可以進(jìn)行消息傳遞和集中管理。

你呢?你只需要像老板一樣,看著它們干活,哪里不對(duì)點(diǎn)哪里,或者直接接管其中一個(gè)“分身”的操作 。

這哪是寫代碼,這簡(jiǎn)直是在玩《模擬人生》??!

現(xiàn)在,Claude 網(wǎng)頁版和 Claude Code上,Claude Opus 4.6 都已經(jīng)上線了。


不過,有一說一,Opus 4.6 雖然說自己厲害,但對(duì)標(biāo)的都是 GPT 的前一代 5.2,但跟同時(shí)炸出的 5.3 Codex 相比怎么樣呢?

02 GPT-5.3-Codex:手速驚人的“全能工程師”

如果說 Claude 是坐辦公室的管理者,那 OpenAI 的 GPT-5.3-Codex 就是那個(gè)這輩子不知道什么叫累的超級(jí)工程師

1. 唯快不破,且“自我進(jìn)化”

OpenAI 這次就兩個(gè)字:快,強(qiáng)。新模型比上一代 GPT-5.2 快了 25% 。

但最讓我背脊發(fā)涼的是這一點(diǎn):它是自己把自己造出來的。

OpenAI 的工程師承認(rèn),他們大量使用了早期版本的 Codex 來找 Bug、調(diào)試訓(xùn)練過程 。

AI 開始自我進(jìn)化了,朋友們,終結(jié)者的劇本是不是翻得太快了點(diǎn)?

2. 編碼及 Agent 能力

OpenAI 這次不裝了,直接給了 AI 一雙手。

它在 OSWorld(電腦操作測(cè)試)上的得分直接起飛,達(dá)到了 64.7%(人類大概是 72%),比上一代基本翻倍了。

看得出來,OpenAI 在猛干 Codex 的 Agent 能力,不過這個(gè)值似乎低于前面的 Opus 4.6(72.7%,已經(jīng)超越了人類?)


但細(xì)心的你會(huì)發(fā)現(xiàn)這里面有貓膩。Opus 的是 OSWorld ,而 OpenAI 這里加了個(gè)個(gè) Verified。

簡(jiǎn)單來說,Verified 是個(gè)升級(jí)版,它的難度系數(shù)更大,所以這里誰強(qiáng)誰弱還真說不準(zhǔn)。(有可能 Codex 更強(qiáng)一點(diǎn))

這意味著它不僅能寫代碼,還能像你一樣控制鼠標(biāo)鍵盤,在電腦上點(diǎn)來點(diǎn)去。

在測(cè)試?yán)?,OpenAI 甚至讓它從零開始寫了兩個(gè)游戲(賽車和潛水游戲),它就這么自己在電腦上改 Bug、測(cè)試、迭代,幾天就搞定了 。

說到編程能力,這里又和 OSWorld 一樣,兩家的指標(biāo)不一樣。

再次的,OpenAI 采用了更嚴(yán)格的SWE-Bench Pro,而 Opus 用的是SWE-Bench Verified。

SWE-Bench Verified 僅測(cè)試 Python 編碼能力,而SWE-Bench Pro 涵蓋了 4 種語言,它的挑戰(zhàn)性會(huì)高很多。


兩家唯一共同的指標(biāo),也是爭(zhēng)吵最多的指標(biāo):Terminal-Bench。

兩家公司前后腳發(fā)布,自然少不了互相拉踩。但這次的數(shù)據(jù)對(duì)比,簡(jiǎn)直是一場(chǎng)“羅生門”。

爭(zhēng)議焦點(diǎn)就是這個(gè) Terminal-Bench 2.0(終端技能)

Anthropic 宣稱: 我們是 No.1!Opus 4.6 拿到了該測(cè)試的最高分。(65.4%)

但僅僅 15 分鐘后,OpenAI 的報(bào)告里赫然寫著:GPT-5.3-Codex 拿了 77.3%。


3. 它是懂“交互”的

以前用 AI 寫代碼,最煩它寫一堆你就干等著。

現(xiàn)在的 GPT-5.3-Codex 會(huì)像個(gè)坐在你旁邊的同事,一邊寫一邊跟你匯報(bào):“老板,我準(zhǔn)備這么改,你覺得行嗎?”

你可以隨時(shí)打斷它,糾正它 。

這種“結(jié)對(duì)編程”的感覺,真的太像真人了。

寫在最后:變天了

本來這幾天,大家其實(shí)都在等咱們自家的“AI 春晚”(畢竟 DeepSeek R2 還沒動(dòng)靜)。沒想到,大洋彼岸的“科技春晚”先演了一出大戲,還是一場(chǎng)直接掀桌子的硬仗。

拋開剛才的拉踩不談,透過這兩家打得頭破血流的數(shù)據(jù),我們也該看清一個(gè)事實(shí):風(fēng)向徹底變了。

現(xiàn)在無論是 Claude 想做“全能文員”,還是 GPT-5.3 開始“自我創(chuàng)造”,大家都在死磕同一個(gè)方向:Agent(智能體)。

也就是,少?gòu)U話,去干活。

未來的 AI 戰(zhàn)場(chǎng),不再是比拼誰更像個(gè)百科全書,而是比拼誰能真正接管你的鼠標(biāo)和鍵盤。

從寫代碼、修 Bug,到操作 Excel、調(diào)度工具,模型的能力正在從“紙上談兵”轉(zhuǎn)向“真刀真槍”的交付。

這是一個(gè)分水嶺。

未來的 AI 不再是那個(gè)陪你聊天的虛擬網(wǎng)友,而是那個(gè)能坐在你工位上,用你的電腦,把你工作干完的——超級(jí)同事。

美國(guó)的卷完了,接下來,壓力給到國(guó)產(chǎn)模型這邊了。

(看完覺得有啟發(fā)的,點(diǎn)個(gè)“贊”、點(diǎn)個(gè)??,咱們?cè)u(píng)論區(qū)見!)

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
張雪機(jī)車“爆單”!301008,大幅高開

張雪機(jī)車“爆單”!301008,大幅高開

證券時(shí)報(bào)e公司
2026-04-01 10:09:32
石墨炸彈全球首用,炸黑德黑蘭!伊朗暴怒:蘋果特斯拉全要挨狠揍

石墨炸彈全球首用,炸黑德黑蘭!伊朗暴怒:蘋果特斯拉全要挨狠揍

李健政觀察
2026-04-01 16:21:42
兜兜轉(zhuǎn)轉(zhuǎn)30年,昔日金童玉女內(nèi)田有紀(jì)與柏原崇秘密結(jié)婚!

兜兜轉(zhuǎn)轉(zhuǎn)30年,昔日金童玉女內(nèi)田有紀(jì)與柏原崇秘密結(jié)婚!

顫抖的熊貓
2026-04-01 23:08:51
油價(jià)一夜大反轉(zhuǎn)!92號(hào)汽油每升跌1.72元后大改?26年油價(jià)狂飆!下次調(diào)價(jià)4月7日:國(guó)際油價(jià)跌...

油價(jià)一夜大反轉(zhuǎn)!92號(hào)汽油每升跌1.72元后大改?26年油價(jià)狂飆!下次調(diào)價(jià)4月7日:國(guó)際油價(jià)跌...

新浪財(cái)經(jīng)
2026-04-01 11:07:47
剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

剛從日本回來,說點(diǎn)不中聽的:日本的真實(shí)面目,可能讓你很意外

復(fù)轉(zhuǎn)這些年
2026-04-01 09:17:19
CBA狂歡夜!北控3分絕殺,遼寧+山東贏球:最新積分:北京跌至第5

CBA狂歡夜!北控3分絕殺,遼寧+山東贏球:最新積分:北京跌至第5

小火箭愛體育
2026-04-01 21:54:55
無情送走哈登,卻換來一個(gè)年輕的數(shù)據(jù)混子!這筆交易確實(shí)虧大了

無情送走哈登,卻換來一個(gè)年輕的數(shù)據(jù)混子!這筆交易確實(shí)虧大了

老梁體育漫談
2026-04-02 00:04:39
美國(guó)要變天了!一個(gè)比特朗普更難纏的80后,已經(jīng)掌握了共和黨

美國(guó)要變天了!一個(gè)比特朗普更難纏的80后,已經(jīng)掌握了共和黨

趙探長(zhǎng)TALK
2026-04-01 09:30:50
哈佛大學(xué)研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風(fēng)險(xiǎn)

哈佛大學(xué)研究顯示:每月性行為頻次≥21次,可以大幅降低患癌風(fēng)險(xiǎn)

黯泉
2026-03-29 12:00:55
美股三大指數(shù)漲幅繼續(xù)擴(kuò)大 標(biāo)普500指數(shù)觸及6600點(diǎn)

美股三大指數(shù)漲幅繼續(xù)擴(kuò)大 標(biāo)普500指數(shù)觸及6600點(diǎn)

每日經(jīng)濟(jì)新聞
2026-04-02 00:07:40
高考大局已定:若不出意外,2026年高考錄取將迎5大變化!了解下

高考大局已定:若不出意外,2026年高考錄取將迎5大變化!了解下

小談食刻美食
2026-04-01 08:09:17
晉級(jí)世界杯!亞洲第7舉國(guó)沸騰 上萬球迷涌上街頭慶祝 全國(guó)放假2天

晉級(jí)世界杯!亞洲第7舉國(guó)沸騰 上萬球迷涌上街頭慶祝 全國(guó)放假2天

侃球熊弟
2026-04-02 00:55:03
迪馬: 由于意大利隊(duì)再次無緣世界杯,意足協(xié)已召集各方明日開會(huì)

迪馬: 由于意大利隊(duì)再次無緣世界杯,意足協(xié)已召集各方明日開會(huì)

懂球帝
2026-04-01 20:43:14
4月財(cái)富好運(yùn)榜TOP3生肖!一起看看都有誰?

4月財(cái)富好運(yùn)榜TOP3生肖!一起看看都有誰?

毅談生肖
2026-04-01 11:15:22
鄭麗文訪陸確定,蕭旭岑、連勝武陪同,各方銳評(píng),蔣萬安表態(tài)亮了

鄭麗文訪陸確定,蕭旭岑、連勝武陪同,各方銳評(píng),蔣萬安表態(tài)亮了

報(bào)君知史
2026-03-31 19:59:21
烏克蘭3月收復(fù)領(lǐng)土480平方公里,俄梁贊州向企業(yè)下達(dá)征兵令

烏克蘭3月收復(fù)領(lǐng)土480平方公里,俄梁贊州向企業(yè)下達(dá)征兵令

史政先鋒
2026-04-01 20:01:36
杭州企業(yè)家劉建國(guó)剛跑完馬拉松離世!別再為了朋友圈,拿命硬撐

杭州企業(yè)家劉建國(guó)剛跑完馬拉松離世!別再為了朋友圈,拿命硬撐

魔都姐姐雜談
2026-04-01 12:30:26
王傳君夫妻疑街頭爭(zhēng)吵!齊溪全程皺眉咄咄逼人,膀大腰圓像是保鏢

王傳君夫妻疑街頭爭(zhēng)吵!齊溪全程皺眉咄咄逼人,膀大腰圓像是保鏢

洲洲影視娛評(píng)
2026-04-01 19:20:27
全紅嬋哽咽談體重減不下來:餓到不行,希望大家不要再罵我了!

全紅嬋哽咽談體重減不下來:餓到不行,希望大家不要再罵我了!

新民周刊
2026-03-30 15:38:07
特朗普稱伊朗“請(qǐng)求美國(guó)?;稹?>
    </a>
        <h3>
      <a href=特朗普稱伊朗“請(qǐng)求美國(guó)?;稹?/a> 新京報(bào)
2026-04-01 20:58:22
2026-04-02 03:43:00
AI范兒 incentive-icons
AI范兒
AI范兒是一個(gè)專注于人工智能領(lǐng)域的資訊和學(xué)習(xí)平臺(tái),提供最新的人工智能資訊
702文章數(shù) 656關(guān)注度
往期回顧 全部

科技要聞

甲骨文血洗3萬人,47人團(tuán)隊(duì)僅留3人

頭條要聞

伊朗總統(tǒng)公開信:美國(guó)政策深受以色列操縱 已成其代理人

頭條要聞

伊朗總統(tǒng)公開信:美國(guó)政策深受以色列操縱 已成其代理人

體育要聞

NBA擴(kuò)軍,和籃球無關(guān)?

娛樂要聞

張婉婷已決定離婚 找律師討論婚變事宜

財(cái)經(jīng)要聞

電商售械三水光針 機(jī)構(gòu)倒貨or假貨猖獗?

汽車要聞

三電可靠 用料下本 百萬公里的蔚來ES6 拆開看

態(tài)度原創(chuàng)

房產(chǎn)
旅游
藝術(shù)
教育
公開課

房產(chǎn)要聞

產(chǎn)業(yè)、教育、地產(chǎn)…重大信號(hào)發(fā)出! 官方定調(diào)??谖磥?年!

旅游要聞

瞰中國(guó)|河北徐水:春色滿園 踏青賞花

藝術(shù)要聞

太壕了!為了一場(chǎng)演唱會(huì),BIG給拉丁天后夏奇拉建5萬人臨時(shí)場(chǎng)館

教育要聞

省政府:對(duì)就業(yè)質(zhì)量不好的專業(yè),落實(shí)紅黃牌提示制度

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版