337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Claude Opus 4.6 發(fā)布,全線碾壓 GPT-5.2,一文詳解

0
分享至

剛剛,Anthropic 發(fā)布 Claude Opus 4.6


BenchMark

在知識(shí)工作評(píng)測(cè) GDPval-AA 上,Opus 4.6 贏 GPT-5.2 約 144 Elo,贏自家前代 Opus 4.5 約 190 Elo
翻譯成人話,就是十局贏七局

同時(shí)拿下 Terminal-Bench 2.0(Agent 編碼)、Humanity's Last Exam(多學(xué)科推理)、BrowseComp(Agent 搜索)的最高分

這是 Opus 級(jí)模型第一次支持 1M token 上下文窗口(beta),輸出上限拉到 128K token

模型之外,Anthropic 這次把產(chǎn)品線也一起更新了。Claude Code 加了 agent teams,Excel 升級(jí),PowerPoint 新出了 research preview,API 加了 adaptive thinking 和 context compaction

官方介紹視頻 跑分

先看總表


Benchmark 總表,Opus 4.6 vs 各家模型

分項(xiàng)來(lái)看

知識(shí)工作(GDPval-AA)

這個(gè)評(píng)測(cè)由 Artificial Analysis 獨(dú)立運(yùn)營(yíng),測(cè)的是金融、法律等專業(yè)領(lǐng)域的實(shí)際工作能力。Opus 4.6 在各個(gè)子領(lǐng)域都排在前面


GDPval-AA 各領(lǐng)域得分

Agent 搜索(DeepSearchQA / BrowseComp)

BrowseComp 測(cè)的是模型在網(wǎng)上找難找的信息的能力。Opus 4.6 單 Agent 跑分就已經(jīng)領(lǐng)先,加上多 Agent 框架之后分?jǐn)?shù)到了 86.8%


DeepSearchQA 跑分對(duì)比

Agent 編碼(Terminal-Bench 2.0 / SWE-bench Verified)

Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 輪,調(diào)整 prompt 后最高到了 81.42%


Terminal-Bench 2.0 跑分

多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)

Humanity's Last Exam 跑的時(shí)候帶了 web search、code execution、context compaction(50K token 觸發(fā),最大 3M token),用了 max effort + adaptive thinking

ARC AGI 2 用了 max effort 和 120K thinking budget


多學(xué)科推理跑分 長(zhǎng)上下文

1M 上下文不新鮮,但 Opus 級(jí)模型一直沒(méi)給

之前的問(wèn)題是 context rot,上下文一長(zhǎng),模型表現(xiàn)就往下掉。Opus 4.6 在 MRCR v2 八針 1M 測(cè)試?yán)锬昧?76%,同一個(gè)測(cè)試 Sonnet 4.5 只有 18.5%

這特么...足足四倍

Anthropic 說(shuō) Opus 4.6 在大量文檔中檢索信息的能力也有明顯提升,能在幾十萬(wàn) token 的上下文里追蹤信息,抓住 Opus 4.5 會(huì)漏掉的細(xì)節(jié)


長(zhǎng)上下文檢索,提升很明顯 長(zhǎng)上下文推理能力對(duì)比 其他領(lǐng)域的 benchmark

除了上面幾個(gè)主要方向,Opus 4.6 還跑了軟件工程、多語(yǔ)言編碼、長(zhǎng)期連貫性、網(wǎng)絡(luò)安全、生命科學(xué)幾個(gè)方向

根因分析(OpenRCA)

測(cè)的是模型診斷復(fù)雜軟件故障的能力。每個(gè) case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分,否則 0 分


OpenRCA,診斷復(fù)雜軟件故障

多語(yǔ)言編碼


多語(yǔ)言編碼跑分

長(zhǎng)期連貫性(MCP Atlas)

Opus 4.6 用 max effort 跑出最高分。用 high effort 的時(shí)候也到了 62.7%,同樣領(lǐng)先


MCP Atlas,長(zhǎng)期連貫性

網(wǎng)絡(luò)安全(CyberGym)

跑的時(shí)候沒(méi)開(kāi) thinking,用默認(rèn) effort、temperature 和 top_p,給了一個(gè) think tool 做多輪評(píng)測(cè)的交叉思考


CyberGym,網(wǎng)絡(luò)安全能力

生命科學(xué)


生命科學(xué)跑分 Anthropic 內(nèi)部怎么用的

Anthropic 自己用 Claude 造 Claude。工程師每天用 Claude Code 寫(xiě)代碼,每個(gè)新模型都先在內(nèi)部跑

他們對(duì) Opus 4.6 的觀察:模型會(huì)自動(dòng)把精力集中在任務(wù)最難的部分,簡(jiǎn)單的地方快速通過(guò),處理模糊問(wèn)題時(shí)判斷更好,長(zhǎng)時(shí)間工作保持穩(wěn)定

但也有個(gè)問(wèn)題,Opus 4.6 有時(shí)候會(huì)「想太多」。簡(jiǎn)單任務(wù)上會(huì)增加成本和延遲,Anthropic 建議這種場(chǎng)景把 effort 從默認(rèn)的 high 調(diào)到 medium

Early Access 合作伙伴的反饋集中在三點(diǎn):能自主工作不需要手把手帶,之前模型搞不定的任務(wù)能搞定了,改變了團(tuán)隊(duì)協(xié)作的方式

產(chǎn)品更新

Claude Code:agent teams

可以同時(shí)起多個(gè) Agent,讓它們并行工作、自主協(xié)調(diào)。適合能拆成獨(dú)立子任務(wù)的場(chǎng)景,比如大規(guī)模 code review

你可以用 Shift+Up/Down 或者 tmux 隨時(shí)接管任意一個(gè)子 Agent。目前是 research preview

Claude in Excel

能處理更長(zhǎng)、更復(fù)雜的任務(wù)了。可以先規(guī)劃再執(zhí)行,能自動(dòng)識(shí)別非結(jié)構(gòu)化數(shù)據(jù)并推斷出合理的表結(jié)構(gòu),支持條件格式和數(shù)據(jù)驗(yàn)證,多步操作一次完成

Claude in Excel 演示視頻(1 分 27 秒)

Claude in PowerPoint

這個(gè)東西目前,research preview 階段,Max、Team、Enterprise 可用

Claude 會(huì)讀你的版式、字體、母版,保持品牌一致性。可以從模板出發(fā),也可以從一段描述直接生成整套 deck

一個(gè)實(shí)用的組合:先用 Claude in Excel 處理和結(jié)構(gòu)化數(shù)據(jù),再用 Claude in PowerPoint 做可視化呈現(xiàn)

Cowork

在 Cowork 里,Opus 4.6 可以自主執(zhí)行多任務(wù)。跑分析、做研究、處理文檔、表格、演示文稿,都可以自動(dòng)跑

API 更新

Adaptive thinking
以前 extended thinking 只有開(kāi)和關(guān)兩個(gè)選項(xiàng)。現(xiàn)在 Claude 可以自己判斷什么時(shí)候需要深度推理,什么時(shí)候快速過(guò)。默認(rèn) effort 是 high,這個(gè)檔位下模型會(huì)在需要的時(shí)候自動(dòng)啟用深度推理

Effort 控制
四檔可選:low、medium、high(默認(rèn))、max。開(kāi)發(fā)者可以根據(jù)任務(wù)調(diào)

Context compaction(beta)
長(zhǎng)對(duì)話或 Agent 任務(wù)快撞到上下文窗口的時(shí)候,自動(dòng)把舊的上下文壓縮成摘要替換掉,觸發(fā)閾值可配置

1M 上下文(beta)
超過(guò) 200K token 的輸入,價(jià)格從 漲 到 10/百萬(wàn) token,輸出從 漲 到 37.50。200K 以內(nèi)價(jià)格不變

128K 輸出
大輸出任務(wù)不用拆成多次請(qǐng)求了

US-only inference
需要數(shù)據(jù)留在美國(guó)境內(nèi)的,可以選 US-only inference,價(jià)格 1.1 倍

安全

Anthropic 說(shuō)這是他們做過(guò)最全面的安全評(píng)估,很多測(cè)試是第一次用

自動(dòng)行為審計(jì)里,Opus 4.6 的對(duì)齊偏差率(欺騙、諂媚、配合濫用等)和 Opus 4.5 持平。over-refusal 率(該回答卻拒絕)是近期 Claude 模型里最低的


安全評(píng)估,各代 Claude 對(duì)齊偏差率對(duì)比

新增了用戶福祉評(píng)測(cè)、更復(fù)雜的拒絕危險(xiǎn)請(qǐng)求測(cè)試、模型是否會(huì)偷偷執(zhí)行有害操作的升級(jí)版測(cè)試

因?yàn)?Opus 4.6 的網(wǎng)絡(luò)安全能力提升明顯,Anthropic 額外開(kāi)發(fā)了 6 個(gè)新的網(wǎng)絡(luò)安全探針來(lái)追蹤潛在濫用。同時(shí)也在用這個(gè)模型幫開(kāi)源軟件找漏洞和打補(bǔ)丁

一個(gè)細(xì)節(jié):system card 里提到他們首次用可解釋性(interpretability)技術(shù)去理解模型行為的底層原因,試圖抓住標(biāo)準(zhǔn)測(cè)試可能漏掉的問(wèn)題

詳細(xì)的能力和安全評(píng)估在 system card 里:https://www.anthropic.com/claude-opus-4-6-system-card


定價(jià)

今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

模型 API 標(biāo)識(shí):claude-opus-4-6

定價(jià): 25 每百萬(wàn) token(200K 以內(nèi)), 37.50 每百萬(wàn) token(200K 以上)


完整定價(jià):https://claude.com/pricing

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
名字定了!不姓馬,馬筱梅的2條愿望都沒(méi)達(dá)成,跟蘭姐斗還很嫩

名字定了!不姓馬,馬筱梅的2條愿望都沒(méi)達(dá)成,跟蘭姐斗還很嫩

魔都姐姐雜談
2026-03-21 14:54:45
壽命長(zhǎng)不長(zhǎng),頭發(fā)先知?60歲后,白發(fā)少的人活得更久?醫(yī)生說(shuō)實(shí)話

壽命長(zhǎng)不長(zhǎng),頭發(fā)先知?60歲后,白發(fā)少的人活得更久?醫(yī)生說(shuō)實(shí)話

普陀動(dòng)物世界
2026-03-21 15:00:56
最新:烏克蘭收復(fù)扎波羅熱東北關(guān)鍵四地!俄軍被迫敗退

最新:烏克蘭收復(fù)扎波羅熱東北關(guān)鍵四地!俄軍被迫敗退

項(xiàng)鵬飛
2026-03-18 22:01:56
全球約一半肝癌在中國(guó)!再三提醒:家里的5種食物,盡快撤下餐桌

全球約一半肝癌在中國(guó)!再三提醒:家里的5種食物,盡快撤下餐桌

DrX說(shuō)
2026-03-18 14:39:50
28名航天員轉(zhuǎn)入地下,美國(guó)NASA慌了?中方交底:月球驛站已鎖死

28名航天員轉(zhuǎn)入地下,美國(guó)NASA慌了?中方交底:月球驛站已鎖死

安珈使者啊
2026-03-21 09:41:35
明日升溫!下周陰雨串場(chǎng)……

明日升溫!下周陰雨串場(chǎng)……

上海預(yù)警發(fā)布
2026-03-21 17:06:02
你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

你永遠(yuǎn)想不到醫(yī)院的八卦能有多炸裂?一件提神醒腦,兩件直接撂倒

另子維愛(ài)讀史
2026-01-22 18:21:09
馬奎爾被判紅點(diǎn)套餐,英超官方:此次犯規(guī)全程未嘗試拼搶皮球

馬奎爾被判紅點(diǎn)套餐,英超官方:此次犯規(guī)全程未嘗試拼搶皮球

懂球帝
2026-03-21 06:03:16
老年人存款最好的一個(gè)方法,連銀行都點(diǎn)贊,轉(zhuǎn)給有需要的人

老年人存款最好的一個(gè)方法,連銀行都點(diǎn)贊,轉(zhuǎn)給有需要的人

王二哥老搞笑
2026-03-21 13:07:06
長(zhǎng)江以南最大的軍工制造城市,竟然是湖南這個(gè)小城!

長(zhǎng)江以南最大的軍工制造城市,竟然是湖南這個(gè)小城!

混沌錄
2026-03-21 15:52:11
終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

終于有了結(jié)果,曾醫(yī)生能保住醫(yī)院的工作,最應(yīng)該感謝的三位貴人!

凌風(fēng)的世界觀
2025-11-14 08:38:31
風(fēng)水輪流轉(zhuǎn)!曾被焦裕祿用來(lái)?yè)躏L(fēng)沙的樹(shù),今成日本樂(lè)師眼中的寶貝

風(fēng)水輪流轉(zhuǎn)!曾被焦裕祿用來(lái)?yè)躏L(fēng)沙的樹(shù),今成日本樂(lè)師眼中的寶貝

魚(yú)語(yǔ)昱雨軒
2026-03-21 05:28:16
越跌越安全!有色金屬千載難逢的布局點(diǎn)

越跌越安全!有色金屬千載難逢的布局點(diǎn)

生活新鮮市
2026-03-20 19:18:46
三選一,湖人季后賽首輪對(duì)手基本確定,最想碰火箭,最怕碰掘金

三選一,湖人季后賽首輪對(duì)手基本確定,最想碰火箭,最怕碰掘金

寶哥精彩賽事
2026-03-21 14:42:41
“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

“性蕭條”才是這個(gè)時(shí)代真正的危機(jī)

深藍(lán)夜讀
2025-09-24 16:00:09
朱棣在榆木川離世,榆木川位于現(xiàn)在的哪里?說(shuō)出來(lái)你可能不信

朱棣在榆木川離世,榆木川位于現(xiàn)在的哪里?說(shuō)出來(lái)你可能不信

歷史點(diǎn)行
2026-03-21 02:11:54
轟15分11助10板!在場(chǎng)贏32分,球迷:郭士強(qiáng)慧眼識(shí)珠

轟15分11助10板!在場(chǎng)贏32分,球迷:郭士強(qiáng)慧眼識(shí)珠

體育哲人
2026-03-21 13:30:21
“梅姨”落網(wǎng),律師:很可能被判死刑!多名受害者發(fā)聲:等這一天等了十多年

“梅姨”落網(wǎng),律師:很可能被判死刑!多名受害者發(fā)聲:等這一天等了十多年

上觀新聞
2026-03-21 15:16:04
張玉寧3輪連入3球!隊(duì)史第1人,京滬大戰(zhàn)第6球,追平張稀哲

張玉寧3輪連入3球!隊(duì)史第1人,京滬大戰(zhàn)第6球,追平張稀哲

奧拜爾
2026-03-21 15:58:21
擊落3架美軍F-15E的科威特飛行員,因多項(xiàng)罪名已被逮捕

擊落3架美軍F-15E的科威特飛行員,因多項(xiàng)罪名已被逮捕

碳基生物關(guān)懷組織
2026-03-17 22:35:07
2026-03-21 17:47:00
賽博禪心
賽博禪心
拜AI古佛,修賽博禪心
337文章數(shù) 49關(guān)注度
往期回顧 全部

科技要聞

宇樹(shù)招股書(shū)拆解,人形機(jī)器人出貨量第一!

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

頭條要聞

伊朗發(fā)射3800公里射程的導(dǎo)彈 最令美軍戰(zhàn)栗的細(xì)節(jié)披露

體育要聞

誰(shuí)在決定字母哥未來(lái)?

娛樂(lè)要聞

CMG盛典獲獎(jiǎng)名單:章子怡高葉同獲影后

財(cái)經(jīng)要聞

通脹警報(bào)拉響,加息潮要來(lái)了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年?duì)I收767億

態(tài)度原創(chuàng)

本地
家居
教育
健康
公開(kāi)課

本地新聞

春色滿城關(guān)不住|紹興春日頂流,這片櫻花海藏不住了

家居要聞

時(shí)空交織 空間綺夢(mèng)

教育要聞

市委書(shū)記,任大學(xué)黨委副書(shū)記

轉(zhuǎn)頭就暈的耳石癥,能開(kāi)車上班嗎?

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版