337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易科技 > IT業界 > 正文

Opus 4.7來了!官方罕見承認并非最強,用戶直呼:真能干,但也太難聊了

0
分享至

出品 | 網易智能

作者 | 小小

編輯 | 王鳳枝

4月17日凌晨,Anthropic正式發布Claude Opus 4.7。


這是該公司目前最強的公開模型,主打編程和智能體任務,圖像分辨率提升至此前三倍,上下文窗口維持100萬token,API定價保持不變,輸入每百萬token 5美元,輸出25美元。

但真正反常的是,Anthropic這次發布的新模型自己也承認并非最強。該公司坦言,盡管Opus 4.7在多項指標上有所提升,但在部分關鍵能力上,仍不及近期亮相的Claude Mythos Preview。

圍繞這次升級,不少討論卻不是“它更強了”,而是“它更難聊了”。一些早期體驗者和測試者發現,Opus 4.7在編程、終端操作和多步驟智能體任務上進步明顯,但在分析、寫作、研究這類非代碼任務上,反而更容易顯得生硬、字面,也更少主動調用工具和網絡搜索。

Anthropic官方明確提醒用戶,和Opus 4.7打交道得換一套方法,別再指望它像舊模型那樣替你“揣摩意思”,而要更直接地下指令。換句話說,這不是一個更會聊天的新旗艦,而是一個更適合干活的公開版本。

01編碼和工具能力是真漲了,但網絡搜索反而退步了

看基準測試數據,Opus 4.7最強的改進在編碼上。

首先是SWE-bench Verified基準測試,模型要解決真實的GitHub issue,即程序員平時在開源項目里遇到的那種實際bug或者功能需求。模型得自己看懂代碼、找到問題、寫補丁,然后驗證修復是否有效。這是目前行業里公認最接近真實開發場景的測試之一。


Opus 4.7在這個測試里拿下了87.6%,比上一代Opus 4.6的80.8%高了將近7個百分點,也超過了Gemini 3.1 Pro的80.6%。

還有更難的SWE-bench Pro測試。模型需要跨四種編程語言,不光是修一個文件里的bug,可能要同時改多個文件并理解整個項目的結構。Opus 4.7的得分從53.4%跳到了64.3%,漲幅超過10%。這意味著上一代模型在這上面十次任務要失敗差不多一半,現在十次里能成六次多。GPT-5.4的得分是57.7%,Gemini 3.1 Pro是54.2%,Opus 4.7已經把差距拉開了。

實際用起來怎么樣?

Shopify高級工程師本·拉弗蒂(Ben Lafferty)說,Opus 4.7感覺智力上真提升了且代碼質量明顯更好。模型會自己刪掉那些沒意義的包裝函數和多余的支架,邊干活邊修正自己的代碼,這是從Claude 4系列以來見過最利落的一次升級。

Factory公司的技術員列奧·楚拉科夫(Leo Tchourakov)也觀察到類似的效果。Opus 4.7能把任務從頭做到尾而不是半路停下來,任務成功率比Opus 4.6提高了10%到15%,工具錯誤更少且驗證步驟的執行也更可靠。

在終端操作方面,Terminal-Bench 2.0用于測試命令行環境里的熟練度。模型需要導航文件系統、執行DevOps任務并在終端里調試程序。Opus 4.7得分69.4%,比Opus 4.6的65.4%高了4個點,也稍微超過了Gemini 3.1 Pro的68.5%。早期合作伙伴Warp證實,Opus 4.7通過了以前Claude模型都沒能通過的終端任務,包括一個Opus 4.6完全搞不定的并發bug。


工具調用能力上,MCP-Atlas基準測試衡量的是復雜多輪工具調用。想象一下你讓智能體去查數據庫和調API,然后根據結果再決定下一步操作,中間可能要來回用好幾個工具。Opus 4.7在該測試中得分77.3%,領先GPT-5.4的68.1%和Gemini 3.1 Pro的73.9%。如果你在構建需要路由到多個工具的業務編排智能體,這個數字最為關鍵。

Augmentcode聯合創始人伊戈爾·奧斯特羅夫斯基(Igor Ostrovsky)提到,Opus 4.7不光原始能力強,處理現實世界的異步工作流、自動化、CI/CD和長期任務都表現出色。而且模型思考更深且會帶來更有主見的觀點,而不是光順著用戶的意思走。

在計算機操作測試OSWorld-Verified中,模型要跟真實桌面軟件交互,包括點擊按鈕、填表單以及在GUI環境里完成任務。Opus 4.7拿了78.0%,比Opus 4.6的72.7%高了5個多點,也比GPT-5.4的75.0%強。再結合圖像分辨率的三倍提升,那些需要讀取密集UI界面或者看懂截圖的自動化腳本能力會有明顯改善。

財務分析方面,Finance Agent v1.1測試多步財務任務,包含做財務模型、生成專業演示文稿、規劃投資策略。Opus 4.7得分64.4%,領先GPT-5.4 Pro的61.5%和Gemini 3.1 Pro的59.7%。Anthropic還提到Opus 4.7在GDPval-AA這個跨金融、法律和專業領域的知識工作評估上也是領先的。

但有一個地方確確實實翻車了。

在智能體搜索測試BrowseComp中,模型要做多步網絡研究,瀏覽多個頁面、綜合信息并跨頁面推理。Opus 4.7得分79.3%,反而比Opus 4.6的83.7%低了4.4個百分點。GPT-5.4 Pro在這個測試上拿了89.3%,Gemini 3.1 Pro也有85.9%。如果你的項目需要大量網絡調研和多頁面信息整合,這個退步得心里有數。Anthropic自己公布的表格里這也是唯一一個明顯倒退的指標。


推理能力上,GPQA Diamond測試物理、化學、生物學領域的博士級別推理。這個測試現在快飽和了,所有前沿模型都擠在91%到95%之間。Opus 4.7得分94.2%,和GPT-5.4 Pro的94.4%、Gemini 3.1 Pro的94.3%基本持平,比Opus 4.6的91.3%有提升。大家其實已經拉不開差距了。

Humanity's Last Exam是目前最難的多模態推理測試,考的是人類知識前沿的問題。Opus 4.7在不使用工具的情況下得分46.9%,使用工具得分增至54.7%。而Opus 4.6使用工具時得分53.3%,所以有進步但不大。Mythos Preview使用工具后得分64.7%,差距還挺明顯的。GPT-5.4 Pro得分58.7%,也比Opus 4.7高一點。

視覺推理CharXiv測試科學圖表解讀,這是Opus 4.7進步最大的地方。不使用工具時從69.1%跳到82.1%,使用工具時從84.7%漲到91.0%。這直接來自分辨率的三倍提升。有早期合作伙伴測試自主滲透測試的計算機視覺,視覺敏銳度從54.5%直接飆到98.5%。對于那些需要讀密密麻麻的截圖、技術圖紙、數據圖表的應用來說,這個提升是實實在在的。

多語言問答MMMLU上,Opus 4.7得分91.5%,比Opus 4.6的91.1%稍高,但Gemini 3.1 Pro的92.6%依然領先。如果你主要做非英語的問答任務,Gemini可能更合適。

安全和對齊方面,Opus 4.7是第一個搭載生產級網絡安全保障措施的Opus模型。Anthropic的自動化行為審計顯示,整體不對齊行為比Opus 4.6有適度改進,誠實性和抵抗提示詞注入攻擊的能力提高了,但在給管制物質提供過度詳細的減害建議方面有一點點退步。

彭博社報道稱,Opus 4.7實際上是一個被刻意削弱了網絡安全能力的版本并自帶“安全枷鎖”。Anthropic在訓練過程中專門實驗了如何“差異化降低”模型的網絡安全能力,并加入了自動檢測和攔截高風險網絡安全請求的機制。

Anthropic也表示:“我們從這些保障措施的現實部署中學到的東西,將幫助我們最終實現廣泛發布Mythos級別模型的目標。”

Anthropic自己的評估是大體上對齊良好且值得信賴,雖然行為還沒完全理想。Mythos Preview仍然是Anthropic訓練過的對齊最好的模型,Opus 4.7就是個橋梁,先在這上面測試安全機制以后再推廣到Mythos級別。

02 API規則收緊了,老用戶得做遷移

這次升級不是換個模型名字就能直接用的。Anthropic收緊了好幾處API行為,現有團隊得做遷移工作。

首先擴展思考預算被移除了。以前你可以給模型設定一個固定的思考token預算現在不行了。如果你還在請求里發budget_tokens參數,API會返回400錯誤。采樣行為也更嚴格了,非默認的temperature、top_p、top_k值都會被拒絕,同樣返回400錯誤。這意味著你不能簡單地把模型名字從opus-4-6改成opus-4-7就完事,請求模板、內部預設、測試預期都得重新過一遍。

其次推理內容的可見性變了。思考內容默認是被省略的,除非調用者主動要求看摘要版。這對于那些已經習慣在調試時直接看模型推理過程的團隊來說是個不小的改動,你用來監控模型行為的那套工具可能需要調整。

第三Opus 4.7用了新的tokenizer,同樣一段輸入內容,現在消耗的token數量比以前多出0%到35%不等,具體取決于內容類型。這可不是小事情。更長的提示詞、反復跑的智能體循環、帶了很多圖片的輸入,可能比預期更快觸及成本上限或者截斷閾值。Anthropic自己建議在遷移生產工作負載之前,先在實際流量上測一下token影響。

好消息是任務預算功能在公開測試版里上線了。你可以給智能體設置一個token支出的硬性上限,最低2萬個token起。這樣長時間運行的調試會話就不會突然給你一張嚇人的賬單。

還有一點,Opus 4.7支持100萬token的上下文窗口,用的是標準API定價且不用額外付長上下文溢價。這點對需要處理大代碼庫或者長文檔的團隊很友好。

03用新模型得換套路:別跟它閑聊并直接下指令

Claude Code負責人鮑里斯·切爾尼(Boris Cherny)親自寫了一篇最佳實踐指南。核心意思是用Opus 4.7你得換一套打法。


首先Opus 4.7不再支持固定預算的擴展思考,改用自適應思考。也就是說模型自己判斷什么時候需要多想以及什么時候可以快速回應。好處是簡單問題響應快,壞處是它可能低估某些任務的難度。

沃頓商學院教授伊森·莫利克(Ethan Mollick)就遇到了這個問題。他說模型經常覺得非數學非代碼的內容是低努力任務,然后就產出更差的結果。在分析、寫作或研究任務上,模型基本上很少啟動深度思考,這意味著工具和網絡搜索也不怎么用。

莫利克還抱怨說雖然還沒測完所有東西,但經常發現對于這類用例,答案質量比Opus 4.6的擴展思考模式還低。更讓他不滿的是在Claude Code里能設置思考級別但在Claude Cowork里不能。他最后懟了一句,AI公司好像總覺得編碼和技術工作是唯一重要的智力工作,但實際上根本不是這樣。

切爾尼在指南里給了一個解決辦法。如果你想要模型多思考,就在提示詞里明確說這個問題比看起來難且仔細一步步想。如果你想要它快點回應少想點,就說優先快速回應且有疑問時直接答。這樣能省token但難的步驟上可能會丟失一點準確度。

其次Claude Code里默認努力級別改成了xhigh。這是新加的一個檔位,介于high和max之間。官方推薦大多數編碼任務用xhigh就夠了,因為max雖然分數更高但收益遞減還容易過度思考。低和中等努力級別留給對成本或延遲敏感的任務。如果你已經是Claude Code用戶但沒手動改過設置會自動升級到xhigh。切爾尼建議大家試試不同檔位,不要直接把舊設置搬過來。

第三也是最重要的,跟Opus 4.7說話要直接。它不再像舊模型那樣會揣摩你的意思而是嚴格執行你給出的指令。以前那種比較隨意且靠模型自己腦補的提示詞現在可能會翻車。官方建議第一次輪次就把任務說清楚,包括意圖、限制條件、驗收標準、相關文件位置必須全給齊。而且要減少來回對話,每多一輪用戶交互就多一輪推理開銷。

能用自動模式的就用。Claude Code Max用戶按Shift加Tab就能開自動模式,模型不用每步都問你我可以這樣做嗎。對于你已經把上下文都給全了的長期任務這個模式特別合適。切爾尼還教了一招,讓Claude完成任務時自己放個聲音通知你,它能自己創建基于hook的通知。

第四模型默認行為有變化。響應長度會跟任務復雜度匹配,簡單查個東西不會像以前那樣啰嗦一堆。切爾尼說如果你對長度或風格有特定要求,在提示詞里明確寫出來,而且給正面例子比給“不要這樣做”的負面指令效果更好。

模型調用工具的頻率降低了且更傾向于自己先推理。這在很多情況下效果更好。但如果你確實希望模型更積極用工具,比如在智能體工作中更主動搜索或讀文件,那就得在提示詞里明確說清楚什么時候以及為什么該用工具。

默認生成的子智能體也更少。Opus 4.7在決定是否把工作分給子智能體時更謹慎。如果你確實需要并行處理多個文件或任務得明確告訴它。切爾尼給了一個示例提示詞,明確要求不要為你自己能在單次回復里直接完成的工作生成子智能體,但在跨項目扇出或者讀多個文件的時候需要在同一輪里生成多個子智能體。

切爾尼最后總結說,Opus 4.7在長時間運行的任務上比之前的模型表現好很多,特別適合那些以前人工監督是瓶頸的任務,比如復雜的多文件改動、說不清楚的調試問題、跨服務的代碼審查、多步驟的智能體任務。他建議把努力級別保持xhigh并先看看第一輪能跑多遠。

Replit總裁米歇爾·卡塔斯塔(Michele Catasta)也印證了這一點。他說在日志分析和找bug這類任務上,Opus 4.7用更低的成本實現了更高的質量且感覺像個更好的同事。Notion的AI負責人莎拉·薩克斯(Sarah Sachs)給出了具體數據,多步驟工作流改進了14%,工具調用錯誤少了66%,智能體現在像個真正的隊友了。

但也有不同的聲音。

爆料大神草莓哥@iruletheworldmo直接潑了冷水。他說Opus 4.7的改進不算太大,遠遠比不上OpenAI即將推出的東西。他拿產品線做對比指出,如果看實驗室發布的產品和功能數量,Anthropic可能因為發得多顯得領先,但要比質量的話Codex遠遠領先于新的Claude Code桌面產品,而新的超級應用比這個好十倍。他斷言OpenAI將會拉開差距。

04企業要不要升級:看你是干活還是查資料

對于企業來說,Opus 4.7標志著AI從創意助手轉向可靠操作員。但這不是所有場景的通吃。

數據標注公司Cognition的CEO Scott Wu說,Opus 4.7能連貫工作好幾個小時,以前讓模型卡住的難題它能硬啃下來。AI法律平臺Harvey的應用研究負責人尼科·格魯彭(Niko Grupen)提到,模型在BigLaw Bench上得了90.9%,處理模糊的文檔編輯任務明顯更聰明了。

但如果你的團隊在構建智能體或者復雜軟件系統,這次升級很值得。核心價值是模型的新能力,它不再只是生成一個答案而是在回答之前自己先驗證一下這個答案對不對。這種可靠性對于長期工程任務很關鍵,因為人力監督的成本在那里擺著。

但如果你現在的工作流里Opus 4.6跑得好好的,有幾類情況可以先不著急換。

一是你的智能體嚴重依賴深度網絡研究和多頁面信息整合。BrowseComp那4.4個點的退步是真實的,GPT-5.4 Pro或者Gemini 3.1 Pro在這類任務上更合適。

二是你已經為Opus 4.6的行為精細調過提示詞。Anthropic特別提醒,Opus 4.7改進的指令遵循意味著它會比你預期得更字面地理解指令。依賴舊模型寬松解釋或者習慣性跳過某些指令的提示詞可能會出奇怪的結果。官方建議在切生產流量之前先在代表性樣本上重新測試。

三是你的token預算卡得比較緊。Opus 4.7的新tokenizer會讓同樣輸入消耗更多token,而且它在更高努力級別下會思考更多。建議在實際流量上先測一下影響再決定。

從Opus 4.6整體遷移過來得謹慎。分階段推出加重新調優是比較穩妥的做法。特別是那些提示詞比較脆弱且利潤空間又薄的遺留應用更得小心。

另外還有一個背景信息。Anthropic目前正跟美國國防部打官司。后者把Anthropic列為“供應鏈風險”,因為Anthropic拒絕讓模型用于大規模監控或完全自主的致命武器。雖然舊金山法官最初阻止了這個認定,但聯邦上訴小組最近駁回了Anthropic的中止請求。

與此同時,之前一些忠實用戶抱怨Opus 4.6和Claude Code產品被悄悄降智,說最近的版本更容易陷入探索循環、記不住東西并忽略指令。有人直接說Claude Code桌面應用十分粗糙,配不上一個快萬億美元估值的公司。Opus 4.7某種程度上也是Anthropic對這些批評的回應。

財務上Anthropic的發展倒是很猛。最新估值3800億美元,而且有報道說投資機構正在給出約8000億美元的新一輪融資報價。公司年化營收已經沖到300億美元,主要靠企業客戶和Claude Code帶動。

結語

最后總結一下。

Opus 4.7是一個有紀律性的模型,它不追求在所有任務上都得第一,而是在編碼、工具使用、視覺理解這些實際干活的能力上做深。Anthropic通過允許用戶控制努力程度、設定預算并驗證輸出,正朝著自主數字勞動力的目標靠近。

但這不是一個無腦升級的版本。它的API變了且老代碼得改。它的提示詞邏輯變了且以前能用的模板可能要重調。它在網絡搜索上退步了,如果你主要做研究類任務反而體驗會下降。而且真正的頂尖模型Mythos還在后面藏著,Opus 4.7只是那個能公開賣的版本。

對于Replit、Notion、Shopify這些公司的工程團隊來說,從看著AI干活到管理AI結果的轉變已經開始了。Opus 4.7能不能接住這個期待,得看它在你自己的真實任務上跑得怎么樣。

相關推薦
熱點推薦
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

桑啟紅原
2026-04-20 20:19:05
美專家:美國在伊朗正面臨四個大問題

美專家:美國在伊朗正面臨四個大問題

環球時報國際
2026-04-21 00:16:12
國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

安安說
2026-04-20 11:09:20
哈登16+2!騎士54-48猛龍,看數據:他才是頭號功臣!

哈登16+2!騎士54-48猛龍,看數據:他才是頭號功臣!

運籌帷幄的籃球
2026-04-21 08:12:30
日本將地震震級調整至7.5級

日本將地震震級調整至7.5級

界面新聞
2026-04-20 16:30:33
罰15億!拼多多一員工故意關門,對抗調查,導致執法人員手指骨折

罰15億!拼多多一員工故意關門,對抗調查,導致執法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報4起整治形式主義為基層減負典型問題

中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報4起整治形式主義為基層減負典型問題

新華社
2026-04-20 17:44:02
“巴掌遮陽帽”在TikTok刷屏、義烏緊急跟進,利潤翻了近10倍

“巴掌遮陽帽”在TikTok刷屏、義烏緊急跟進,利潤翻了近10倍

去山野間追風
2026-04-21 03:16:20
撤下主力放棄比賽,替補卻反敗為勝!哈登都看傻了

撤下主力放棄比賽,替補卻反敗為勝!哈登都看傻了

林子說事
2026-04-21 02:26:26
“找到一個媳婦算你牛”,農村家長曬7兒1女,被群嘲后看清現實

“找到一個媳婦算你牛”,農村家長曬7兒1女,被群嘲后看清現實

妍妍教育日記
2026-04-20 19:42:54
歐爾班下臺,這個歐洲國家卻可能再次擁抱一位親俄領導人

歐爾班下臺,這個歐洲國家卻可能再次擁抱一位親俄領導人

上觀新聞
2026-04-20 15:58:42
睡一覺5萬沒了!全國多地爆發新型盜刷,睡前必查手機這4處

睡一覺5萬沒了!全國多地爆發新型盜刷,睡前必查手機這4處

洞見小能手
2026-04-20 16:03:26
冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

芹姐說生活
2026-04-20 16:10:12
中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

六子吃涼粉
2026-04-20 19:10:49
高市早苗向靖國神社獻祭品

高市早苗向靖國神社獻祭品

新華社
2026-04-21 05:59:03
拼多多暴力抗法震驚全網,市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網,市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

裝修秀
2026-04-20 10:50:03
震驚!網傳深圳中專打工女偽造百億富三代人設,收割尊界S800車主

震驚!網傳深圳中專打工女偽造百億富三代人設,收割尊界S800車主

火山詩話
2026-04-20 13:37:00
欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

火山詩話
2026-04-21 06:36:18
丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

大魚簡科
2026-04-20 19:38:39
2026-04-21 08:23:00

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

特朗普兩天三次反轉 伊朗學習特朗普玩起"極限施壓"

頭條要聞

特朗普兩天三次反轉 伊朗學習特朗普玩起"極限施壓"

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

本地
時尚
健康
手機
公開課

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

春天衣服不用準備太多!這幾大單品提前備好,百搭實用又不過時

干細胞抗衰4大誤區,90%的人都中招

手機要聞

蘋果被曝下調 iPhone 18 規格以壓縮成本

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版