剛剛,Anthropic 發(fā)布 Claude Opus 4.6
![]()
BenchMark
在知識(shí)工作評(píng)測(cè) GDPval-AA 上,Opus 4.6 贏 GPT-5.2 約 144 Elo,贏自家前代 Opus 4.5 約 190 Elo
翻譯成人話,就是十局贏七局
同時(shí)拿下 Terminal-Bench 2.0(Agent 編碼)、Humanity's Last Exam(多學(xué)科推理)、BrowseComp(Agent 搜索)的最高分
這是 Opus 級(jí)模型第一次支持 1M token 上下文窗口(beta),輸出上限拉到 128K token
模型之外,Anthropic 這次把產(chǎn)品線也一起更新了。Claude Code 加了 agent teams,Excel 升級(jí),PowerPoint 新出了 research preview,API 加了 adaptive thinking 和 context compaction
官方介紹視頻 跑分
先看總表
![]()
Benchmark 總表,Opus 4.6 vs 各家模型
分項(xiàng)來(lái)看
知識(shí)工作(GDPval-AA)
這個(gè)評(píng)測(cè)由 Artificial Analysis 獨(dú)立運(yùn)營(yíng),測(cè)的是金融、法律等專業(yè)領(lǐng)域的實(shí)際工作能力。Opus 4.6 在各個(gè)子領(lǐng)域都排在前面
![]()
GDPval-AA 各領(lǐng)域得分
Agent 搜索(DeepSearchQA / BrowseComp)
BrowseComp 測(cè)的是模型在網(wǎng)上找難找的信息的能力。Opus 4.6 單 Agent 跑分就已經(jīng)領(lǐng)先,加上多 Agent 框架之后分?jǐn)?shù)到了 86.8%
![]()
DeepSearchQA 跑分對(duì)比
Agent 編碼(Terminal-Bench 2.0 / SWE-bench Verified)
Terminal-Bench 2.0 拿了最高分。SWE-bench Verified 平均跑了 25 輪,調(diào)整 prompt 后最高到了 81.42%
![]()
Terminal-Bench 2.0 跑分
多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)
Humanity's Last Exam 跑的時(shí)候帶了 web search、code execution、context compaction(50K token 觸發(fā),最大 3M token),用了 max effort + adaptive thinking
ARC AGI 2 用了 max effort 和 120K thinking budget
![]()
多學(xué)科推理跑分 長(zhǎng)上下文
1M 上下文不新鮮,但 Opus 級(jí)模型一直沒(méi)給
之前的問(wèn)題是 context rot,上下文一長(zhǎng),模型表現(xiàn)就往下掉。Opus 4.6 在 MRCR v2 八針 1M 測(cè)試?yán)锬昧?76%,同一個(gè)測(cè)試 Sonnet 4.5 只有 18.5%
這特么...足足四倍
Anthropic 說(shuō) Opus 4.6 在大量文檔中檢索信息的能力也有明顯提升,能在幾十萬(wàn) token 的上下文里追蹤信息,抓住 Opus 4.5 會(huì)漏掉的細(xì)節(jié)
![]()
長(zhǎng)上下文檢索,提升很明顯
長(zhǎng)上下文推理能力對(duì)比 其他領(lǐng)域的 benchmark
除了上面幾個(gè)主要方向,Opus 4.6 還跑了軟件工程、多語(yǔ)言編碼、長(zhǎng)期連貫性、網(wǎng)絡(luò)安全、生命科學(xué)幾個(gè)方向
根因分析(OpenRCA)
測(cè)的是模型診斷復(fù)雜軟件故障的能力。每個(gè) case 如果所有生成的根因要素都和 ground truth 匹配就得 1 分,否則 0 分
![]()
OpenRCA,診斷復(fù)雜軟件故障
多語(yǔ)言編碼
![]()
多語(yǔ)言編碼跑分
長(zhǎng)期連貫性(MCP Atlas)
Opus 4.6 用 max effort 跑出最高分。用 high effort 的時(shí)候也到了 62.7%,同樣領(lǐng)先
![]()
MCP Atlas,長(zhǎng)期連貫性
網(wǎng)絡(luò)安全(CyberGym)
跑的時(shí)候沒(méi)開(kāi) thinking,用默認(rèn) effort、temperature 和 top_p,給了一個(gè) think tool 做多輪評(píng)測(cè)的交叉思考
![]()
CyberGym,網(wǎng)絡(luò)安全能力
生命科學(xué)
![]()
生命科學(xué)跑分 Anthropic 內(nèi)部怎么用的
Anthropic 自己用 Claude 造 Claude。工程師每天用 Claude Code 寫(xiě)代碼,每個(gè)新模型都先在內(nèi)部跑
他們對(duì) Opus 4.6 的觀察:模型會(huì)自動(dòng)把精力集中在任務(wù)最難的部分,簡(jiǎn)單的地方快速通過(guò),處理模糊問(wèn)題時(shí)判斷更好,長(zhǎng)時(shí)間工作保持穩(wěn)定
但也有個(gè)問(wèn)題,Opus 4.6 有時(shí)候會(huì)「想太多」。簡(jiǎn)單任務(wù)上會(huì)增加成本和延遲,Anthropic 建議這種場(chǎng)景把 effort 從默認(rèn)的 high 調(diào)到 medium
Early Access 合作伙伴的反饋集中在三點(diǎn):能自主工作不需要手把手帶,之前模型搞不定的任務(wù)能搞定了,改變了團(tuán)隊(duì)協(xié)作的方式
產(chǎn)品更新
Claude Code:agent teams
可以同時(shí)起多個(gè) Agent,讓它們并行工作、自主協(xié)調(diào)。適合能拆成獨(dú)立子任務(wù)的場(chǎng)景,比如大規(guī)模 code review
你可以用 Shift+Up/Down 或者 tmux 隨時(shí)接管任意一個(gè)子 Agent。目前是 research preview
Claude in Excel
能處理更長(zhǎng)、更復(fù)雜的任務(wù)了。可以先規(guī)劃再執(zhí)行,能自動(dòng)識(shí)別非結(jié)構(gòu)化數(shù)據(jù)并推斷出合理的表結(jié)構(gòu),支持條件格式和數(shù)據(jù)驗(yàn)證,多步操作一次完成
Claude in Excel 演示視頻(1 分 27 秒)
Claude in PowerPoint
這個(gè)東西目前,research preview 階段,Max、Team、Enterprise 可用
Claude 會(huì)讀你的版式、字體、母版,保持品牌一致性。可以從模板出發(fā),也可以從一段描述直接生成整套 deck
一個(gè)實(shí)用的組合:先用 Claude in Excel 處理和結(jié)構(gòu)化數(shù)據(jù),再用 Claude in PowerPoint 做可視化呈現(xiàn)
Cowork
在 Cowork 里,Opus 4.6 可以自主執(zhí)行多任務(wù)。跑分析、做研究、處理文檔、表格、演示文稿,都可以自動(dòng)跑
API 更新
Adaptive thinking
以前 extended thinking 只有開(kāi)和關(guān)兩個(gè)選項(xiàng)。現(xiàn)在 Claude 可以自己判斷什么時(shí)候需要深度推理,什么時(shí)候快速過(guò)。默認(rèn) effort 是 high,這個(gè)檔位下模型會(huì)在需要的時(shí)候自動(dòng)啟用深度推理
Effort 控制
四檔可選:low、medium、high(默認(rèn))、max。開(kāi)發(fā)者可以根據(jù)任務(wù)調(diào)
Context compaction(beta)
長(zhǎng)對(duì)話或 Agent 任務(wù)快撞到上下文窗口的時(shí)候,自動(dòng)把舊的上下文壓縮成摘要替換掉,觸發(fā)閾值可配置
1M 上下文(beta)
超過(guò) 200K token 的輸入,價(jià)格從 漲 到 10/百萬(wàn) token,輸出從 漲 到 37.50。200K 以內(nèi)價(jià)格不變
128K 輸出
大輸出任務(wù)不用拆成多次請(qǐng)求了
US-only inference
需要數(shù)據(jù)留在美國(guó)境內(nèi)的,可以選 US-only inference,價(jià)格 1.1 倍
安全
Anthropic 說(shuō)這是他們做過(guò)最全面的安全評(píng)估,很多測(cè)試是第一次用
自動(dòng)行為審計(jì)里,Opus 4.6 的對(duì)齊偏差率(欺騙、諂媚、配合濫用等)和 Opus 4.5 持平。over-refusal 率(該回答卻拒絕)是近期 Claude 模型里最低的
![]()
安全評(píng)估,各代 Claude 對(duì)齊偏差率對(duì)比
新增了用戶福祉評(píng)測(cè)、更復(fù)雜的拒絕危險(xiǎn)請(qǐng)求測(cè)試、模型是否會(huì)偷偷執(zhí)行有害操作的升級(jí)版測(cè)試
因?yàn)?Opus 4.6 的網(wǎng)絡(luò)安全能力提升明顯,Anthropic 額外開(kāi)發(fā)了 6 個(gè)新的網(wǎng)絡(luò)安全探針來(lái)追蹤潛在濫用。同時(shí)也在用這個(gè)模型幫開(kāi)源軟件找漏洞和打補(bǔ)丁
一個(gè)細(xì)節(jié):system card 里提到他們首次用可解釋性(interpretability)技術(shù)去理解模型行為的底層原因,試圖抓住標(biāo)準(zhǔn)測(cè)試可能漏掉的問(wèn)題
詳細(xì)的能力和安全評(píng)估在 system card 里:https://www.anthropic.com/claude-opus-4-6-system-card
![]()
定價(jià)
今天起在 claude.ai、Claude API、AWS、GCP、Azure 可用
模型 API 標(biāo)識(shí):claude-opus-4-6
定價(jià): 25 每百萬(wàn) token(200K 以內(nèi)), 37.50 每百萬(wàn) token(200K 以上)
![]()
完整定價(jià):https://claude.com/pricing
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.