網易首頁 > 網易號 > 正文申請入駐

Claude Opus 4.7深夜炸場！勝任更長任務、自主檢查，視覺能力拉滿

2026-04-17 12:08:22　來源: 智東西

北京舉報

分享至

智東西
編譯楊京麗
編輯李水青

智東西4月17日報道，昨天夜間，Anthropic發布新一代旗艦大模型Claude Opus 4.7。

▲Anthropic發布新模型Claude Opus 4.7（圖源：X）

該模型在高級軟件工程方面相比Opus 4.6有顯著提升，尤其在處理最復雜的任務時提升明顯；高分辨率圖像處理能力大幅提升，是此前Claude模型的3倍以上；此外，Claude Code還同步新增了/ultrareview代碼審查命令，輸入后會啟動審查會話，逐行檢查代碼變更。

用戶反饋稱，他們可以放心地將最難的編碼工作交給Opus 4.7處理。Opus 4.7能夠嚴謹一致地處理復雜的長時間運行任務，精確遵循指令，并在匯報結果之前自行驗證輸出。

Opus 4.7今日起在所有Claude產品和API、Amazon Bedrock、谷歌云Vertex AI以及Microsoft Foundry上線。定價與Opus 4.6一致：輸入每百萬token 5美元（約合人民幣34元），輸出每百萬token 25美元（約合人民幣170.5元）。開發者可通過Claude API使用claude-opus-4-7。

不得不說，Claude最近更新實在是快，大家都跟不上了，網友在Claude的評論區下面刷起了表情包，“兩眼一睜，Claude又更新了”。

▲網友評論Claude推文（圖源：X）

一、更嚴格執行指令，多模態支持增強

測試中，Claude Opus 4.7在以下幾個方面表現突出，顯著超越Opus 4.6：

1、指令遵循。Opus 4.7在遵循指令方面有顯著提升。以前的模型會寬松地解讀指令或完全跳過部分內容，而Opus 4.7會按字面意思執行指令。用戶應相應地重新調優提示詞和應用框架。

2、多模態支持增強。Opus 4.7對高分辨率圖像的視覺能力更強：它可以接受長邊最高2576像素（約375萬像素）的圖像，是此前Claude模型的3倍以上。這為依賴精細視覺細節的多模態應用開辟了廣闊的空間：比如用Agent操作電腦時識別密集的屏幕截圖、從復雜圖表中提取數據、以及需要像素級精度的設計工作等。

3、實際工作。除了在金融Agent評測中取得最優成績外，Anthropic內部測試顯示Opus 4.7是比Opus 4.6更有效的金融分析師，能產出更嚴謹的分析和模型、更專業的演示文稿，能做到更緊密地進行跨任務整合。Opus 4.7在金融、法律等領域的第三方經濟價值知識工作評測GDPval-AA上也達到了最優水平。

4、記憶能力。Opus 4.7在使用基于文件系統的記憶方面更強。它能在長時間、多會話的工作中記住重要筆記，并利用這些記憶來推進新任務，從而減少對前置上下文的需求。

▲Opus 4.7模型基準測試表現（圖源：Anthropic）

Opus 4.7獲得了部分早期測試者的積極反饋。財務軟件公司Intuit技術副總裁Clarence Huang稱，該模型能在規劃階段自行發現邏輯錯誤，執行速度也遠超前代。AI編程工具公司Augment Code的CTO Igor Ostrovsky則認為，Opus 4.7的優勢在于它能處理好實際工作中的自動化流程、CI/CD（持續集成與部署）和長任務流程，且會主動給出自己的判斷，而非一味附和用戶。

二、多項測評領先，生物推理、文檔推理提升顯著

Anthropic在預發布測試中，針對不同領域對Opus 4.7進行了測評，并對比了Opus 4.6、GPT-5.4和Gemini 3.1 Pro。

生物推理進步最為明顯，Opus 4.7得分74.0%，Opus 4.6僅30.9%，提升了1.4倍。

文檔推理方面，Opus 4.7得分80.6%，遠超Opus 4.6的57.1%，也大幅領先GPT-5.4（51.1%）和Gemini 3.1 Pro（42.9%），是橫評中差距最明顯的項目之一。

另外，知識工作方面，Opus 4.7以1753的Elo分數排名第一，領先明顯，超過GPT-5.4（1674）、Opus 4.6（1619）、Gemini 3.1 Pro（1314）。

長上下文推理方面，在處理較簡單的父節點查找任務（Parents 1M）時，Opus 4.7得分75.1%，Opus 4.6為71.1%，差距不大；但處理更難的廣度優先搜索任務（BFS 1M）時，Opus 4.7得分58.6%，Opus4.6僅41.2%，拉開了17個百分點。越難的任務，模型提升效果越明顯。

在安全與對齊方面，Anthropic還公布了各模型的錯位行為評分。Opus 4.7的錯位行為得分約為2.47（滿分10分，越低越好），略優于Opus 4.6的2.75，但與Mythos Preview的1.78仍有明顯差距。

總體而言，Opus 4.7 的安全性能與 Opus 4.6 相似，其出現欺騙、奉承和與濫用者合作等行為比例較低。Anthropic對此評價：“Opus 4.7總體對齊良好且值得信賴，但行為并非完全理想。”目前，對齊表現最好的Mythos Preview尚未全面開放。

三、其他更新：新增xhigh等級、審查命令，任務預算進入公測

除Opus 4.7本身外，Anthropic還同步推出了幾項功能更新。

推理等級方面，新增xhigh（extra high）等級，介于現有的high和max之間，讓用戶在推理深度和響應速度之間有更細的調節空間。Claude Code的默認推理等級已提升至xhigh。

API方面，任務預算功能進入公測，開發者可以引導Claude在長任務中如何分配token消耗。

Claude Code方面，新增/ultrareview命令，輸入后會啟動一個專門的審查會話，逐行檢查代碼變更，并標記Bug和設計問題，Pro和Max用戶各贈3次免費體驗。此外，Auto模式擴展至Max用戶，該模式下Claude可自主做出操作決策，減少人工確認中斷。

四、當心Opus 4.7更費token，但生成質量更優

Opus 4.7是Opus 4.6的直接升級版，但有兩個影響token用量的變化值得注意。

一是文本處理方式有更新，Opus 4.7相同輸入消耗的token最多增加約35%；二是模型在較高推理等級下會進行更多思考，尤其在Agent場景的后續輪次中，Opus 4.7輸出token也會相應增多。用戶可以通過調整推理等級、設置任務預算，或在提示詞中要求更簡潔來控制用量。

從Agent編程評測圖表來看，Opus 4.7在每個推理等級上都以更少的token達到了更高的得分。例如Opus 4.7在xhigh等級下消耗約10萬token，得分超過70%；而Opus 4.6在max等級下消耗約13萬token，得分才剛過60%。不過，該評測中模型是根據單一提示自主工作，結果不一定能代表交互式編程中的實際token消耗。

結語：更準確更全能，競爭對手將至

從Anthropic公布的數據來看，Opus 4.7在編程、文檔推理、生物推理等多個基準上的提升是實打實的，token效率也有所提升。但測評終歸是測評，實際表現還需要在真實場景中進一步驗證。

隨著Opus 4.7的發布，OpenAI后續又會做出哪些新動作，大家期待已久的DeepSeek月底會不會發布新模型，大模型廠商的競爭可謂是越來越有意思了。

來源：Anthropic

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.