337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Claude Opus 4.7深夜上線,評分碾壓

0
分享至



機(jī)器之心編輯部

想不到,風(fēng)口浪尖上的 Claude 又大更新了。

周四晚間,Anthropic 宣布旗下最新款基礎(chǔ)模型 Claude Opus 4.7 全面上市。

Opus 4.7 在高級軟件工程方面相比 Opus 4.6 有了顯著提升,尤其是在處理最復(fù)雜的任務(wù)方面。用戶反饋表示,他們現(xiàn)在可以放心地將以前需要密切監(jiān)督的最棘手的編碼工作交給 Opus 4.7 處理。Opus 4.7 能夠嚴(yán)謹(jǐn)且一致地處理復(fù)雜、耗時的任務(wù),精準(zhǔn)地執(zhí)行指令,并在返回結(jié)果之前設(shè)計出驗證自身輸出的方法。

該模型還擁有明顯更佳的視覺效果:它能夠識別更高分辨率的圖像,完成專業(yè)任務(wù)時,更具品味和創(chuàng)造力,能夠制作出更高質(zhì)量的界面、幻燈片和文檔。而且,盡管它的功能不如剛公布的最強(qiáng)模型 Claude Mythos Preview 全面,但在多項基準(zhǔn)測試中,它的表現(xiàn)都優(yōu)于 Opus 4.6:



可見 SWE-bench Pro 的分?jǐn)?shù)達(dá)到了 64.3%,遠(yuǎn)高于 GPT-5.4 的 57.7%。

Opus 4.7 已在所有 Claude 產(chǎn)品和 API、Amazon Bedrock、Google Cloud 的 Vertex AI 以及 Microsoft Foundry 平臺上推出。定價與 Opus 4.6 相同:每百萬個輸入 token 5 美元,每百萬個輸出 token 25 美元。開發(fā)者可通過 Claude API 使用。

根據(jù)目前大家的使用反饋,新模型更加嚴(yán)謹(jǐn),復(fù)雜任務(wù)的一致性也更強(qiáng)了,在最困難的編程任務(wù)上進(jìn)步明顯。當(dāng)然這也不是沒有代價的:



以下是 Opus 4.7 早期測試的一些亮點:

  • 指令執(zhí)行能力,Opus 4.7 的表現(xiàn)有了顯著提升。有趣的是,這意味著之前版本編寫的提示信息現(xiàn)在有時可能會產(chǎn)生意想不到的結(jié)果:之前的版本對指令的解釋較為寬泛,甚至完全跳過某些部分,而 Opus 4.7 則會嚴(yán)格按照指令執(zhí)行。用戶應(yīng)據(jù)此調(diào)整提示信息和相關(guān)設(shè)置。
  • 改進(jìn)的多模態(tài)支持。Opus 4.7 對高分辨率圖像的處理能力更強(qiáng):它可以處理長邊高達(dá) 2576 像素(約 375 萬像素)的圖像,是之前 Claude 型號的三倍以上。這為依賴精細(xì)視覺細(xì)節(jié)的多模態(tài)應(yīng)用開辟了廣闊的空間:智能體可以讀取密集屏幕截圖、從復(fù)雜圖表中提取數(shù)據(jù)以及需要像素級精確參考的工作。
  • 實際應(yīng)用能力提升。除了在財務(wù)代理評估中獲得領(lǐng)先水平(見上表)外,Anthropic 的內(nèi)部測試表明,Opus 4.7 比 Opus 4.6 更高效地進(jìn)行財務(wù)分析,能夠生成嚴(yán)謹(jǐn)?shù)姆治龊湍P?,呈現(xiàn)更專業(yè)的演示文稿,并在各項任務(wù)之間實現(xiàn)更緊密的整合。Opus 4.7 在 GDPval-AA 評估中也處于領(lǐng)先水平。
  • 內(nèi)存占用方面,Opus 4.7 更擅長利用文件系統(tǒng)內(nèi)存。它能記住長時間、多會話工作中的重要筆記,并利用這些筆記繼續(xù)執(zhí)行新的任務(wù),因此這些新任務(wù)對預(yù)先獲取的上下文信息要求更低。















Claude Code 負(fù)責(zé)人 Boris Cherny 介紹了 Claude Opus 4.7 的一些最新特性。

1、自動模式

Opus 4.7 喜歡執(zhí)行復(fù)雜、長時間運(yùn)行的任務(wù),比如深度研究、重構(gòu)代碼、構(gòu)建復(fù)雜功能、迭代直到達(dá)到性能基準(zhǔn)。過去,你要么得在模型執(zhí)行這類長時間任務(wù)時全程監(jiān)督,要么使用 --dangerously-skip-permissions。

自動模式作為一種更安全的替代方案,在這種模式下,權(quán)限提示會被路由到一個基于模型的分類器,來決定命令是否安全執(zhí)行。如果安全,它就會自動批準(zhǔn)。

這意味著模型運(yùn)行時不再需要全程監(jiān)督。更重要的是,這意味著你可以并行運(yùn)行更多 Claude。一旦一個 Claude 開始運(yùn)行,你就可以將注意力轉(zhuǎn)向下一個 Claude。



2、新的 /fewer-permission-prompts 技能

它會掃描你的會話歷史記錄,找出常見的 bash 和 MCP 命令,這些命令是安全的,也導(dǎo)致了重復(fù)的權(quán)限提示。然后,它會推薦一個命令列表,將其添加到你的權(quán)限白名單中。

你可以使用此功能來優(yōu)化你的權(quán)限設(shè)置,避免不必要的權(quán)限提示。

3、「回顧」

回顧是對智能體所做的事情及下一步行動的簡短總結(jié),它可以在幾分鐘或幾小時后返回一個長時間運(yùn)行的會話。



4、專注模式

CLI 中加入了專注模式,它會隱藏所有中間步驟,只專注于最終結(jié)果。新模型已經(jīng)達(dá)到了這樣一個程度,我們通常信任它會運(yùn)行正確的命令并進(jìn)行正確的編輯,只需要查看最終結(jié)果。

你可以使用 /focus 進(jìn)行開關(guān)。

5、自適應(yīng)的思考深度

Opus 4.7 使用自適應(yīng)思考而非思考預(yù)算。要調(diào)整模型的思考多 / 少程度,Anthropic 推薦調(diào)整努力程度。

使用較低努力程度可獲得更快的響應(yīng)和更低的令牌使用量。使用較高努力程度可獲得最高智能和能力。

Boris Cherny 表示,大多數(shù)任務(wù)可以使用 xhigh 努力程度,對最困難的任務(wù)使用 max 努力程度。Max 僅適用于當(dāng)前的會話;其他努力程度是粘性的,并將在下一次會話中持續(xù)存在。

/effort 用于設(shè)置努力程度。



6、給 Claude 一個驗證其工作的方式

最后,確保 Claude 有一種驗證其工作的方式。這一直是一種能讓你從 Claude 獲得 2-3 倍產(chǎn)出的方法,而且在 4.7 版本中,這比以往任何時候都更重要。

驗證方式因任務(wù)而異。對于后端工作,確保 Claude 知道如何啟動您的服務(wù)器 / 服務(wù)來進(jìn)行端到端測試;對于前端工作,使用 Claude Chromium 擴(kuò)展程序,讓 Claude 能夠控制您的瀏覽器;對于桌面應(yīng)用,使用 computer use。

Boris Cherny 稱自己最近的許多提示都像這樣:「Claude 做 blah blah /go」。/go 是一種技能,它讓 Claude 1)使用 bash、瀏覽器或 computer use 進(jìn)行端到端自我測試;2)運(yùn)行 /simplify 技能;3)提交一個 PR。

上周 Anthropic 發(fā)布了 「Project Glasswing」項目,重點闡述了人工智能模型在網(wǎng)絡(luò)安全領(lǐng)域的風(fēng)險與優(yōu)勢。Anthropic 宣布將限制 Claude Mythos Preview 的發(fā)布范圍,并首先在功能較弱的模型上測試新的網(wǎng)絡(luò)安全防護(hù)措施。

Opus 4.7 即是首個此類模型:其網(wǎng)絡(luò)安全能力不如 Mythos Preview(Anthropic 表示在訓(xùn)練過程中嘗試了多種方法來逐步降低其網(wǎng)絡(luò)安全能力)。發(fā)布時的 Opus 4.7 配備了安全防護(hù)措施,能夠自動檢測并阻止表明存在違禁或高風(fēng)險網(wǎng)絡(luò)安全用途的請求。

Anthropic 將從這些安全防護(hù)措施的實際部署中獲得經(jīng)驗,從而最終實現(xiàn) Mythos 級模型的廣泛發(fā)布目標(biāo)。

總體而言,Opus 4.7 的安全性能與 Opus 4.6 相似:Anthropic 的評估顯示,其出現(xiàn)欺騙、奉承和與濫用者合作等令人擔(dān)憂的行為的比例較低。在某些指標(biāo)上,例如誠實度和抵御惡意「快速注入」攻擊的能力,Opus 4.7 比 Opus 4.6 有所改進(jìn);但在其他指標(biāo),例如在管制藥物方面提供過于詳細(xì)的減害建議的傾向上 Opus 4.7 略有不足。

Anthropic 的一致性評估得出結(jié)論,該模型「總體上一致性良好且值得信賴,但其行為并非完全理想」。值得注意的是,根據(jù)評估,Mythos Preview 仍然是一致性最佳的模型。



根據(jù)自動化行為審核,總體行為偏差得分如上。

除了 Claude Opus 4.7 本身之外,Anthropic 還將推出以下更新:

更精細(xì)的難度控制:Opus 4.7 新增了一個介于 high 和 max 之間的 xhigh「超高」級別,使用戶能夠更精確地控制在解決難題時推理速度和延遲之間的權(quán)衡。在 Claude Code 中,Anthropic 已將所有套餐的默認(rèn)級別提升至 xhigh。在測試 Opus 4.7 的編碼和智能體應(yīng)用場景時,建議從 high 或 xhigh 級別開始。

在 Claude 平臺(API)上:除了支持更高分辨率的圖像外,Anthropic 還在公開測試版中推出了任務(wù)預(yù)算,讓開發(fā)者能夠引導(dǎo) Claude 的 token 支出,以便它可以優(yōu)先處理較長時間內(nèi)的工作。

在 Claude Code 中:新增的 /ultrareview 斜杠命令會創(chuàng)建一個專門的審查會話,讀取所有更改并標(biāo)記出細(xì)心的審查員能夠發(fā)現(xiàn)的錯誤和設(shè)計問題。Anthropic 為 Claude Code Pro 和 Max 用戶提供三次免費(fèi)的超強(qiáng)審查機(jī)會供試用。Anthropic 還將自動模式擴(kuò)展到了 Max 用戶。自動模式是一項新的權(quán)限選項,Claude 會替你做出決策,這意味著可以運(yùn)行更長時間的任務(wù),減少中斷,并且比人類選擇跳過所有權(quán)限的風(fēng)險更低。

Opus 4.7 是 Opus 4.6 的直接升級版,但有兩個變化值得關(guān)注,因為它們會影響 token 的使用。首先,Opus 4.7 使用了更新的分詞器,改進(jìn)了模型處理文本的方式。因此外界認(rèn)為它大概率是一個新的基礎(chǔ)模型,甚至可能是從 Mythos 提煉而來的。

但代價是,相同的輸入可能會映射到更多的詞元 —— 根據(jù)內(nèi)容類型的不同,大約增加 1.0 到 1.35 倍。其次,Opus 4.7 在高難度任務(wù)下會進(jìn)行更多思考,尤其是在主動語態(tài)場景的后期回合。這提高了模型在解決難題時的可靠性,但也意味著它會產(chǎn)生更多的輸出 token。

人們也發(fā)現(xiàn),Opus 4.7 的知識截止日期更新了:



用戶可以通過多種方式控制 token 的使用:例如使用工作量參數(shù)、調(diào)整任務(wù)預(yù)算或引導(dǎo)模型簡化代碼。在 Anthropic 自己的測試中,最終效果是積極的 —— 內(nèi)部編碼評估顯示,所有工作量級別的令牌使用率均有所提高(如下所示)—— 但 Anthropic 建議在實際流量上進(jìn)行評估。

Anthropic 還編寫了遷移指南(https://platform.claude.com/docs/en/about-claude/models/migration-guide#migrating-to-claude-opus-4-7),提供了從 Opus 4.6 升級到 Opus 4.7 的更多建議。



根據(jù)每個工作量級別下 token 使用情況,對內(nèi)部智能編碼評估進(jìn)行評分。在此評估中,模型在單個用戶提示下自主運(yùn)行,因此結(jié)果可能無法代表交互式編碼中的 token 使用情況。

在 Opus 4.7 發(fā)布后,人們開始大規(guī)模測試評價,大多數(shù)使用者認(rèn)為新模型效果不錯,也有人表示其 token 消耗非常驚人(pro 問兩三個問題就沒額度了)。

同樣是在昨天晚上,千問開源了 Qwen3.6-35B-A3B(350 億參數(shù),激活 30 億),有人還表示,在自己 MacBook Pro M5 上通過 LM Studio(以及 llm-lmstudio 插件)運(yùn)行的千問模型生成「鵜鶘騎自行車」效果要比 Opus 4.7 好。



當(dāng)然這不能就說明 Qwen3.6-35B-A3B 更強(qiáng)了。

更多的使用情況,還有待大家的進(jìn)一步驗證。

參考內(nèi)容:

https://www.anthropic.com/news/claude-opus-4-7

https://x.com/bcherny/status/2044847848035156457

https://qwen.ai/blog?id=qwen3.6-35b-a3b

https://simonwillison.net/2026/Apr/16/qwen-beats-opus/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
董卿被傳離婚6年后,婚姻真相大白,如今隱居上海,低調(diào)陪父母

董卿被傳離婚6年后,婚姻真相大白,如今隱居上海,低調(diào)陪父母

尋墨閣
2026-04-16 02:57:15
馬筱梅直播爆張?zhí)m豪宅房間布置,一語道破為何汪寶兒不能住奶奶家

馬筱梅直播爆張?zhí)m豪宅房間布置,一語道破為何汪寶兒不能住奶奶家

白面書誏
2026-04-14 14:12:15
可愛值拉滿!廣東拍到中華穿山甲“薅樹葉”

可愛值拉滿!廣東拍到中華穿山甲“薅樹葉”

新快報新聞
2026-04-16 22:20:07
請胡錫進(jìn)站臺?沃爾沃下了一部臭棋

請胡錫進(jìn)站臺?沃爾沃下了一部臭棋

木蹊說
2026-04-15 15:23:22
沒得商量了,中國軍工訂單被搶,馬國找到新賣家,將再購5艘軍艦

沒得商量了,中國軍工訂單被搶,馬國找到新賣家,將再購5艘軍艦

泠泠說史
2026-04-16 19:29:38
勇士VS太陽生死戰(zhàn)前,三個好消息讓庫里穩(wěn)了,波神才是那個X因素

勇士VS太陽生死戰(zhàn)前,三個好消息讓庫里穩(wěn)了,波神才是那個X因素

劉哥談體育
2026-04-17 13:38:39
中美波斯灣斗法,特朗普被解放軍“卡”得不敢動彈

中美波斯灣斗法,特朗普被解放軍“卡”得不敢動彈

華人星光
2026-04-17 11:36:30
TOP14位身高170以上的女神,有顏有燈有演技

TOP14位身高170以上的女神,有顏有燈有演技

素然追光
2026-01-02 02:45:02
3歲女童被迫吃到70斤:比窮更可怕的,是拿孩子當(dāng)賺錢工具

3歲女童被迫吃到70斤:比窮更可怕的,是拿孩子當(dāng)賺錢工具

萌醬追熱點
2026-04-15 21:58:35
新型出軌,越來越流行了!

新型出軌,越來越流行了!

黯泉
2026-04-16 21:56:14
蘭姐打拼海外市場,筱梅說自己公司僅3人!洋洋總透露婆媳近況!

蘭姐打拼海外市場,筱梅說自己公司僅3人!洋洋總透露婆媳近況!

鄉(xiāng)野小珥
2026-04-17 13:11:53
打出0:6的巴基斯坦陸軍元帥到訪 伊朗派F-4護(hù)航

打出0:6的巴基斯坦陸軍元帥到訪 伊朗派F-4護(hù)航

看看新聞Knews
2026-04-16 15:28:10
皇馬輸了,姆巴佩沒輸!這真不是梗

皇馬輸了,姆巴佩沒輸!這真不是梗

耀陽體育
2026-04-17 13:54:18
蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

蔣介石至死想不通:為何25萬大軍搜不到毛澤東,主席藏在眼皮底下

銅臭的歷史味
2026-04-17 13:58:55
剛剛!A股新“股王”誕生

剛剛!A股新“股王”誕生

證券時報
2026-04-17 11:44:04
3800公里外美軍心臟被炸!伊朗導(dǎo)彈射程暴漲100%,戰(zhàn)略格局劇變!

3800公里外美軍心臟被炸!伊朗導(dǎo)彈射程暴漲100%,戰(zhàn)略格局劇變!

老鵜愛說事
2026-04-17 08:43:59
北京牡丹文化節(jié)啟幕,13個展區(qū)匯集超1300個牡丹品種

北京牡丹文化節(jié)啟幕,13個展區(qū)匯集超1300個牡丹品種

新浪財經(jīng)
2026-04-16 22:41:35
物業(yè)不讓門口放鞋子鞋柜,看看“網(wǎng)友家的新招”,干凈整潔還美觀

物業(yè)不讓門口放鞋子鞋柜,看看“網(wǎng)友家的新招”,干凈整潔還美觀

室內(nèi)設(shè)計師有料兒
2026-04-17 12:15:56
913唯一幸存者臨終首次開口:我曾舉槍瞄準(zhǔn)林彪,扣動扳機(jī)那一刻他回頭看了我一眼

913唯一幸存者臨終首次開口:我曾舉槍瞄準(zhǔn)林彪,扣動扳機(jī)那一刻他回頭看了我一眼

寄史言志
2026-03-18 17:25:06
寧繞湖北三百里,不走湖南一公里:大車司機(jī)為何怕走湖南高速?

寧繞湖北三百里,不走湖南一公里:大車司機(jī)為何怕走湖南高速?

回旋鏢
2026-03-08 16:30:16
2026-04-17 14:55:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12787文章數(shù) 142631關(guān)注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

體育要聞

贏下快船,這場很庫里,很格林,很科爾

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經(jīng)要聞

海爾與醫(yī)美女王互撕 換血抗衰誰的生意?

汽車要聞

又快又穩(wěn)的開掛動力! 阿維塔06T全系搭分布式電驅(qū)

態(tài)度原創(chuàng)

健康
游戲
親子
旅游
教育

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

《Saros》PS5手柄觸覺反饋“有驚喜” 扳機(jī)新玩法

親子要聞

a2中文標(biāo)簽?zāi)谭鄞竺娣e缺貨,發(fā)生了什么?

旅游要聞

湘江文脈遇浦江春潮!長沙赴滬發(fā)出文旅邀約,要做入境游“第二站”

教育要聞

第3課巧妙禮貌地結(jié)束對話和告別

無障礙瀏覽 進(jìn)入關(guān)懷版