網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

Claude Opus 4.6 發(fā)布，全線碾壓 GPT-5.2，一文詳解

2026-02-06 02:21:23　來(lái)源: 賽博禪心

北京舉報(bào)

分享至

剛剛，Anthropic 發(fā)布 Claude Opus 4.6

BenchMark

在知識(shí)工作評(píng)測(cè) GDPval-AA 上，Opus 4.6 贏 GPT-5.2 約 144 Elo，贏自家前代 Opus 4.5 約 190 Elo
翻譯成人話，就是十局贏七局

同時(shí)拿下 Terminal-Bench 2.0（Agent 編碼）、Humanity's Last Exam（多學(xué)科推理）、BrowseComp（Agent 搜索）的最高分

這是 Opus 級(jí)模型第一次支持 1M token 上下文窗口（beta），輸出上限拉到 128K token

模型之外，Anthropic 這次把產(chǎn)品線也一起更新了。Claude Code 加了 agent teams，Excel 升級(jí)，PowerPoint 新出了 research preview，API 加了 adaptive thinking 和 context compaction

官方介紹視頻跑分

先看總表

Benchmark 總表，Opus 4.6 vs 各家模型

分項(xiàng)來(lái)看

知識(shí)工作（GDPval-AA）

這個(gè)評(píng)測(cè)由 Artificial Analysis 獨(dú)立運(yùn)營(yíng)，測(cè)的是金融、法律等專業(yè)領(lǐng)域的實(shí)際工作能力。Opus 4.6 在各個(gè)子領(lǐng)域都排在前面

GDPval-AA 各領(lǐng)域得分

Agent 搜索（DeepSearchQA / BrowseComp）

BrowseComp 測(cè)的是模型在網(wǎng)上找難找的信息的能力。Opus 4.6 單 Agent 跑分就已經(jīng)領(lǐng)先，加上多 Agent 框架之后分?jǐn)?shù)到了 86.8%

DeepSearchQA 跑分對(duì)比

Agent 編碼（Terminal-Bench 2.0 / SWE-bench Verified）

Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 輪，調(diào)整 prompt 后最高到了 81.42%

Terminal-Bench 2.0 跑分

多學(xué)科推理（Humanity's Last Exam / ARC AGI 2）

Humanity's Last Exam 跑的時(shí)候帶了 web search、code execution、context compaction（50K token 觸發(fā)，最大 3M token），用了 max effort + adaptive thinking

ARC AGI 2 用了 max effort 和 120K thinking budget

多學(xué)科推理跑分長(zhǎng)上下文

1M 上下文不新鮮，但 Opus 級(jí)模型一直沒(méi)給

之前的問(wèn)題是 context rot，上下文一長(zhǎng)，模型表現(xiàn)就往下掉。Opus 4.6 在 MRCR v2 八針 1M 測(cè)試?yán)锬昧?76%，同一個(gè)測(cè)試 Sonnet 4.5 只有 18.5%

這特么...足足四倍

Anthropic 說(shuō) Opus 4.6 在大量文檔中檢索信息的能力也有明顯提升，能在幾十萬(wàn) token 的上下文里追蹤信息，抓住 Opus 4.5 會(huì)漏掉的細(xì)節(jié)

長(zhǎng)上下文檢索，提升很明顯長(zhǎng)上下文推理能力對(duì)比其他領(lǐng)域的 benchmark

除了上面幾個(gè)主要方向，Opus 4.6 還跑了軟件工程、多語(yǔ)言編碼、長(zhǎng)期連貫性、網(wǎng)絡(luò)安全、生命科學(xué)幾個(gè)方向

根因分析（OpenRCA）

測(cè)的是模型診斷復(fù)雜軟件故障的能力。每個(gè) case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分，否則 0 分

OpenRCA，診斷復(fù)雜軟件故障

多語(yǔ)言編碼

多語(yǔ)言編碼跑分

長(zhǎng)期連貫性（MCP Atlas）

Opus 4.6 用 max effort 跑出最高分。用 high effort 的時(shí)候也到了 62.7%，同樣領(lǐng)先

MCP Atlas，長(zhǎng)期連貫性

網(wǎng)絡(luò)安全（CyberGym）

跑的時(shí)候沒(méi)開(kāi) thinking，用默認(rèn) effort、temperature 和 top_p，給了一個(gè) think tool 做多輪評(píng)測(cè)的交叉思考

CyberGym，網(wǎng)絡(luò)安全能力

生命科學(xué)

生命科學(xué)跑分 Anthropic 內(nèi)部怎么用的

Anthropic 自己用 Claude 造 Claude。工程師每天用 Claude Code 寫(xiě)代碼，每個(gè)新模型都先在內(nèi)部跑

他們對(duì) Opus 4.6 的觀察：模型會(huì)自動(dòng)把精力集中在任務(wù)最難的部分，簡(jiǎn)單的地方快速通過(guò)，處理模糊問(wèn)題時(shí)判斷更好，長(zhǎng)時(shí)間工作保持穩(wěn)定

但也有個(gè)問(wèn)題，Opus 4.6 有時(shí)候會(huì)「想太多」。簡(jiǎn)單任務(wù)上會(huì)增加成本和延遲，Anthropic 建議這種場(chǎng)景把 effort 從默認(rèn)的 high 調(diào)到 medium

Early Access 合作伙伴的反饋集中在三點(diǎn)：能自主工作不需要手把手帶，之前模型搞不定的任務(wù)能搞定了，改變了團(tuán)隊(duì)協(xié)作的方式

產(chǎn)品更新

Claude Code：agent teams

可以同時(shí)起多個(gè) Agent，讓它們并行工作、自主協(xié)調(diào)。適合能拆成獨(dú)立子任務(wù)的場(chǎng)景，比如大規(guī)模 code review

你可以用 Shift+Up/Down 或者 tmux 隨時(shí)接管任意一個(gè)子 Agent。目前是 research preview

Claude in Excel

能處理更長(zhǎng)、更復(fù)雜的任務(wù)了。可以先規(guī)劃再執(zhí)行，能自動(dòng)識(shí)別非結(jié)構(gòu)化數(shù)據(jù)并推斷出合理的表結(jié)構(gòu)，支持條件格式和數(shù)據(jù)驗(yàn)證，多步操作一次完成

Claude in Excel 演示視頻（1 分 27 秒）

Claude in PowerPoint

這個(gè)東西目前，research preview 階段，Max、Team、Enterprise 可用

Claude 會(huì)讀你的版式、字體、母版，保持品牌一致性。可以從模板出發(fā)，也可以從一段描述直接生成整套 deck

一個(gè)實(shí)用的組合：先用 Claude in Excel 處理和結(jié)構(gòu)化數(shù)據(jù)，再用 Claude in PowerPoint 做可視化呈現(xiàn)

Cowork

在 Cowork 里，Opus 4.6 可以自主執(zhí)行多任務(wù)。跑分析、做研究、處理文檔、表格、演示文稿，都可以自動(dòng)跑

API 更新

Adaptive thinking
以前 extended thinking 只有開(kāi)和關(guān)兩個(gè)選項(xiàng)。現(xiàn)在 Claude 可以自己判斷什么時(shí)候需要深度推理，什么時(shí)候快速過(guò)。默認(rèn) effort 是 high，這個(gè)檔位下模型會(huì)在需要的時(shí)候自動(dòng)啟用深度推理

Effort 控制
四檔可選：low、medium、high（默認(rèn)）、max。開(kāi)發(fā)者可以根據(jù)任務(wù)調(diào)

Context compaction（beta）
長(zhǎng)對(duì)話或 Agent 任務(wù)快撞到上下文窗口的時(shí)候，自動(dòng)把舊的上下文壓縮成摘要替換掉，觸發(fā)閾值可配置

1M 上下文（beta）
超過(guò) 200K token 的輸入，價(jià)格從漲到 10/百萬(wàn) token，輸出從漲到 37.50。200K 以內(nèi)價(jià)格不變

128K 輸出
大輸出任務(wù)不用拆成多次請(qǐng)求了

US-only inference
需要數(shù)據(jù)留在美國(guó)境內(nèi)的，可以選 US-only inference，價(jià)格 1.1 倍

安全

Anthropic 說(shuō)這是他們做過(guò)最全面的安全評(píng)估，很多測(cè)試是第一次用

自動(dòng)行為審計(jì)里，Opus 4.6 的對(duì)齊偏差率（欺騙、諂媚、配合濫用等）和 Opus 4.5 持平。over-refusal 率（該回答卻拒絕）是近期 Claude 模型里最低的

安全評(píng)估，各代 Claude 對(duì)齊偏差率對(duì)比

新增了用戶福祉評(píng)測(cè)、更復(fù)雜的拒絕危險(xiǎn)請(qǐng)求測(cè)試、模型是否會(huì)偷偷執(zhí)行有害操作的升級(jí)版測(cè)試

因?yàn)?Opus 4.6 的網(wǎng)絡(luò)安全能力提升明顯，Anthropic 額外開(kāi)發(fā)了 6 個(gè)新的網(wǎng)絡(luò)安全探針來(lái)追蹤潛在濫用。同時(shí)也在用這個(gè)模型幫開(kāi)源軟件找漏洞和打補(bǔ)丁

一個(gè)細(xì)節(jié)：system card 里提到他們首次用可解釋性（interpretability）技術(shù)去理解模型行為的底層原因，試圖抓住標(biāo)準(zhǔn)測(cè)試可能漏掉的問(wèn)題

詳細(xì)的能力和安全評(píng)估在 system card 里：https://www.anthropic.com/claude-opus-4-6-system-card

定價(jià)

今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用

模型 API 標(biāo)識(shí)：claude-opus-4-6

定價(jià)： 25 每百萬(wàn) token（200K 以內(nèi)）， 37.50 每百萬(wàn) token（200K 以上）

完整定價(jià)：https://claude.com/pricing

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.