網易首頁 > 網易科技 > IT業界 > 正文

Opus 4.7來了！官方罕見承認并非最強，用戶直呼：真能干，但也太難聊了

2026-04-17 07:36:20　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 小小

編輯 | 王鳳枝

4月17日凌晨，Anthropic正式發布Claude Opus 4.7。

這是該公司目前最強的公開模型，主打編程和智能體任務，圖像分辨率提升至此前三倍，上下文窗口維持100萬token，API定價保持不變，輸入每百萬token 5美元，輸出25美元。

但真正反常的是，Anthropic這次發布的新模型自己也承認并非最強。該公司坦言，盡管Opus 4.7在多項指標上有所提升，但在部分關鍵能力上，仍不及近期亮相的Claude Mythos Preview。

圍繞這次升級，不少討論卻不是“它更強了”，而是“它更難聊了”。一些早期體驗者和測試者發現，Opus 4.7在編程、終端操作和多步驟智能體任務上進步明顯，但在分析、寫作、研究這類非代碼任務上，反而更容易顯得生硬、字面，也更少主動調用工具和網絡搜索。

Anthropic官方明確提醒用戶，和Opus 4.7打交道得換一套方法，別再指望它像舊模型那樣替你“揣摩意思”，而要更直接地下指令。換句話說，這不是一個更會聊天的新旗艦，而是一個更適合干活的公開版本。

01編碼和工具能力是真漲了，但網絡搜索反而退步了

看基準測試數據，Opus 4.7最強的改進在編碼上。

首先是SWE-bench Verified基準測試，模型要解決真實的GitHub issue，即程序員平時在開源項目里遇到的那種實際bug或者功能需求。模型得自己看懂代碼、找到問題、寫補丁，然后驗證修復是否有效。這是目前行業里公認最接近真實開發場景的測試之一。

Opus 4.7在這個測試里拿下了87.6%，比上一代Opus 4.6的80.8%高了將近7個百分點，也超過了Gemini 3.1 Pro的80.6%。

還有更難的SWE-bench Pro測試。模型需要跨四種編程語言，不光是修一個文件里的bug，可能要同時改多個文件并理解整個項目的結構。Opus 4.7的得分從53.4%跳到了64.3%，漲幅超過10%。這意味著上一代模型在這上面十次任務要失敗差不多一半，現在十次里能成六次多。GPT-5.4的得分是57.7%，Gemini 3.1 Pro是54.2%，Opus 4.7已經把差距拉開了。

實際用起來怎么樣？

Shopify高級工程師本·拉弗蒂（Ben Lafferty）說，Opus 4.7感覺智力上真提升了且代碼質量明顯更好。模型會自己刪掉那些沒意義的包裝函數和多余的支架，邊干活邊修正自己的代碼，這是從Claude 4系列以來見過最利落的一次升級。

Factory公司的技術員列奧·楚拉科夫（Leo Tchourakov）也觀察到類似的效果。Opus 4.7能把任務從頭做到尾而不是半路停下來，任務成功率比Opus 4.6提高了10%到15%，工具錯誤更少且驗證步驟的執行也更可靠。

在終端操作方面，Terminal-Bench 2.0用于測試命令行環境里的熟練度。模型需要導航文件系統、執行DevOps任務并在終端里調試程序。Opus 4.7得分69.4%，比Opus 4.6的65.4%高了4個點，也稍微超過了Gemini 3.1 Pro的68.5%。早期合作伙伴Warp證實，Opus 4.7通過了以前Claude模型都沒能通過的終端任務，包括一個Opus 4.6完全搞不定的并發bug。

工具調用能力上，MCP-Atlas基準測試衡量的是復雜多輪工具調用。想象一下你讓智能體去查數據庫和調API，然后根據結果再決定下一步操作，中間可能要來回用好幾個工具。Opus 4.7在該測試中得分77.3%，領先GPT-5.4的68.1%和Gemini 3.1 Pro的73.9%。如果你在構建需要路由到多個工具的業務編排智能體，這個數字最為關鍵。

Augmentcode聯合創始人伊戈爾·奧斯特羅夫斯基（Igor Ostrovsky）提到，Opus 4.7不光原始能力強，處理現實世界的異步工作流、自動化、CI/CD和長期任務都表現出色。而且模型思考更深且會帶來更有主見的觀點，而不是光順著用戶的意思走。

在計算機操作測試OSWorld-Verified中，模型要跟真實桌面軟件交互，包括點擊按鈕、填表單以及在GUI環境里完成任務。Opus 4.7拿了78.0%，比Opus 4.6的72.7%高了5個多點，也比GPT-5.4的75.0%強。再結合圖像分辨率的三倍提升，那些需要讀取密集UI界面或者看懂截圖的自動化腳本能力會有明顯改善。

財務分析方面，Finance Agent v1.1測試多步財務任務，包含做財務模型、生成專業演示文稿、規劃投資策略。Opus 4.7得分64.4%，領先GPT-5.4 Pro的61.5%和Gemini 3.1 Pro的59.7%。Anthropic還提到Opus 4.7在GDPval-AA這個跨金融、法律和專業領域的知識工作評估上也是領先的。

但有一個地方確確實實翻車了。

在智能體搜索測試BrowseComp中，模型要做多步網絡研究，瀏覽多個頁面、綜合信息并跨頁面推理。Opus 4.7得分79.3%，反而比Opus 4.6的83.7%低了4.4個百分點。GPT-5.4 Pro在這個測試上拿了89.3%，Gemini 3.1 Pro也有85.9%。如果你的項目需要大量網絡調研和多頁面信息整合，這個退步得心里有數。Anthropic自己公布的表格里這也是唯一一個明顯倒退的指標。

推理能力上，GPQA Diamond測試物理、化學、生物學領域的博士級別推理。這個測試現在快飽和了，所有前沿模型都擠在91%到95%之間。Opus 4.7得分94.2%，和GPT-5.4 Pro的94.4%、Gemini 3.1 Pro的94.3%基本持平，比Opus 4.6的91.3%有提升。大家其實已經拉不開差距了。

Humanity's Last Exam是目前最難的多模態推理測試，考的是人類知識前沿的問題。Opus 4.7在不使用工具的情況下得分46.9%，使用工具得分增至54.7%。而Opus 4.6使用工具時得分53.3%，所以有進步但不大。Mythos Preview使用工具后得分64.7%，差距還挺明顯的。GPT-5.4 Pro得分58.7%，也比Opus 4.7高一點。

視覺推理CharXiv測試科學圖表解讀，這是Opus 4.7進步最大的地方。不使用工具時從69.1%跳到82.1%，使用工具時從84.7%漲到91.0%。這直接來自分辨率的三倍提升。有早期合作伙伴測試自主滲透測試的計算機視覺，視覺敏銳度從54.5%直接飆到98.5%。對于那些需要讀密密麻麻的截圖、技術圖紙、數據圖表的應用來說，這個提升是實實在在的。

多語言問答MMMLU上，Opus 4.7得分91.5%，比Opus 4.6的91.1%稍高，但Gemini 3.1 Pro的92.6%依然領先。如果你主要做非英語的問答任務，Gemini可能更合適。

安全和對齊方面，Opus 4.7是第一個搭載生產級網絡安全保障措施的Opus模型。Anthropic的自動化行為審計顯示，整體不對齊行為比Opus 4.6有適度改進，誠實性和抵抗提示詞注入攻擊的能力提高了，但在給管制物質提供過度詳細的減害建議方面有一點點退步。

彭博社報道稱，Opus 4.7實際上是一個被刻意削弱了網絡安全能力的版本并自帶“安全枷鎖”。Anthropic在訓練過程中專門實驗了如何“差異化降低”模型的網絡安全能力，并加入了自動檢測和攔截高風險網絡安全請求的機制。

Anthropic也表示：“我們從這些保障措施的現實部署中學到的東西，將幫助我們最終實現廣泛發布Mythos級別模型的目標。”

Anthropic自己的評估是大體上對齊良好且值得信賴，雖然行為還沒完全理想。Mythos Preview仍然是Anthropic訓練過的對齊最好的模型，Opus 4.7就是個橋梁，先在這上面測試安全機制以后再推廣到Mythos級別。

02 API規則收緊了，老用戶得做遷移

這次升級不是換個模型名字就能直接用的。Anthropic收緊了好幾處API行為，現有團隊得做遷移工作。

首先擴展思考預算被移除了。以前你可以給模型設定一個固定的思考token預算現在不行了。如果你還在請求里發budget_tokens參數，API會返回400錯誤。采樣行為也更嚴格了，非默認的temperature、top_p、top_k值都會被拒絕，同樣返回400錯誤。這意味著你不能簡單地把模型名字從opus-4-6改成opus-4-7就完事，請求模板、內部預設、測試預期都得重新過一遍。

其次推理內容的可見性變了。思考內容默認是被省略的，除非調用者主動要求看摘要版。這對于那些已經習慣在調試時直接看模型推理過程的團隊來說是個不小的改動，你用來監控模型行為的那套工具可能需要調整。

第三Opus 4.7用了新的tokenizer，同樣一段輸入內容，現在消耗的token數量比以前多出0%到35%不等，具體取決于內容類型。這可不是小事情。更長的提示詞、反復跑的智能體循環、帶了很多圖片的輸入，可能比預期更快觸及成本上限或者截斷閾值。Anthropic自己建議在遷移生產工作負載之前，先在實際流量上測一下token影響。

好消息是任務預算功能在公開測試版里上線了。你可以給智能體設置一個token支出的硬性上限，最低2萬個token起。這樣長時間運行的調試會話就不會突然給你一張嚇人的賬單。

還有一點，Opus 4.7支持100萬token的上下文窗口，用的是標準API定價且不用額外付長上下文溢價。這點對需要處理大代碼庫或者長文檔的團隊很友好。

03用新模型得換套路：別跟它閑聊并直接下指令

Claude Code負責人鮑里斯·切爾尼（Boris Cherny）親自寫了一篇最佳實踐指南。核心意思是用Opus 4.7你得換一套打法。

首先Opus 4.7不再支持固定預算的擴展思考，改用自適應思考。也就是說模型自己判斷什么時候需要多想以及什么時候可以快速回應。好處是簡單問題響應快，壞處是它可能低估某些任務的難度。

沃頓商學院教授伊森·莫利克（Ethan Mollick）就遇到了這個問題。他說模型經常覺得非數學非代碼的內容是低努力任務，然后就產出更差的結果。在分析、寫作或研究任務上，模型基本上很少啟動深度思考，這意味著工具和網絡搜索也不怎么用。

莫利克還抱怨說雖然還沒測完所有東西，但經常發現對于這類用例，答案質量比Opus 4.6的擴展思考模式還低。更讓他不滿的是在Claude Code里能設置思考級別但在Claude Cowork里不能。他最后懟了一句，AI公司好像總覺得編碼和技術工作是唯一重要的智力工作，但實際上根本不是這樣。

切爾尼在指南里給了一個解決辦法。如果你想要模型多思考，就在提示詞里明確說這個問題比看起來難且仔細一步步想。如果你想要它快點回應少想點，就說優先快速回應且有疑問時直接答。這樣能省token但難的步驟上可能會丟失一點準確度。

其次Claude Code里默認努力級別改成了xhigh。這是新加的一個檔位，介于high和max之間。官方推薦大多數編碼任務用xhigh就夠了，因為max雖然分數更高但收益遞減還容易過度思考。低和中等努力級別留給對成本或延遲敏感的任務。如果你已經是Claude Code用戶但沒手動改過設置會自動升級到xhigh。切爾尼建議大家試試不同檔位，不要直接把舊設置搬過來。

第三也是最重要的，跟Opus 4.7說話要直接。它不再像舊模型那樣會揣摩你的意思而是嚴格執行你給出的指令。以前那種比較隨意且靠模型自己腦補的提示詞現在可能會翻車。官方建議第一次輪次就把任務說清楚，包括意圖、限制條件、驗收標準、相關文件位置必須全給齊。而且要減少來回對話，每多一輪用戶交互就多一輪推理開銷。

能用自動模式的就用。Claude Code Max用戶按Shift加Tab就能開自動模式，模型不用每步都問你我可以這樣做嗎。對于你已經把上下文都給全了的長期任務這個模式特別合適。切爾尼還教了一招，讓Claude完成任務時自己放個聲音通知你，它能自己創建基于hook的通知。

第四模型默認行為有變化。響應長度會跟任務復雜度匹配，簡單查個東西不會像以前那樣啰嗦一堆。切爾尼說如果你對長度或風格有特定要求，在提示詞里明確寫出來，而且給正面例子比給“不要這樣做”的負面指令效果更好。

模型調用工具的頻率降低了且更傾向于自己先推理。這在很多情況下效果更好。但如果你確實希望模型更積極用工具，比如在智能體工作中更主動搜索或讀文件，那就得在提示詞里明確說清楚什么時候以及為什么該用工具。

默認生成的子智能體也更少。Opus 4.7在決定是否把工作分給子智能體時更謹慎。如果你確實需要并行處理多個文件或任務得明確告訴它。切爾尼給了一個示例提示詞，明確要求不要為你自己能在單次回復里直接完成的工作生成子智能體，但在跨項目扇出或者讀多個文件的時候需要在同一輪里生成多個子智能體。

切爾尼最后總結說，Opus 4.7在長時間運行的任務上比之前的模型表現好很多，特別適合那些以前人工監督是瓶頸的任務，比如復雜的多文件改動、說不清楚的調試問題、跨服務的代碼審查、多步驟的智能體任務。他建議把努力級別保持xhigh并先看看第一輪能跑多遠。

Replit總裁米歇爾·卡塔斯塔（Michele Catasta）也印證了這一點。他說在日志分析和找bug這類任務上，Opus 4.7用更低的成本實現了更高的質量且感覺像個更好的同事。Notion的AI負責人莎拉·薩克斯（Sarah Sachs）給出了具體數據，多步驟工作流改進了14%，工具調用錯誤少了66%，智能體現在像個真正的隊友了。

但也有不同的聲音。

爆料大神草莓哥@iruletheworldmo直接潑了冷水。他說Opus 4.7的改進不算太大，遠遠比不上OpenAI即將推出的東西。他拿產品線做對比指出，如果看實驗室發布的產品和功能數量，Anthropic可能因為發得多顯得領先，但要比質量的話Codex遠遠領先于新的Claude Code桌面產品，而新的超級應用比這個好十倍。他斷言OpenAI將會拉開差距。

04企業要不要升級：看你是干活還是查資料

對于企業來說，Opus 4.7標志著AI從創意助手轉向可靠操作員。但這不是所有場景的通吃。

數據標注公司Cognition的CEO Scott Wu說，Opus 4.7能連貫工作好幾個小時，以前讓模型卡住的難題它能硬啃下來。AI法律平臺Harvey的應用研究負責人尼科·格魯彭（Niko Grupen）提到，模型在BigLaw Bench上得了90.9%，處理模糊的文檔編輯任務明顯更聰明了。