337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

長文問答準確率大漲 17% 后,Anthropic 把“不亂猜”做成了核心賣點

0
分享至


當地時間4 月 16 日,Anthropic 正式發布新一代旗艦模型 Claude Opus 4.7。該公司將其定位為"迄今能力最強的通用可用模型",標志著人工智能行業競爭焦點的決定性轉變——從追求對話流暢性轉向考核自主任務執行能力。

與兩個月前發布的 Opus 4.6 相比,新版本專為Agentic工作流設計,即需要 AI 在較長時間內獨立運行、僅需少量人類干預的復雜任務。此次更新優先提升高分辨率視覺感知、復雜多步軟件工程鏈穩定性,以及長上下文檢索能力,而非單純追求推理深度(官方博客地址:https://www.anthropic.com/news/claude-opus-4-7)。

值得注意的是,Anthropic 在發布 Opus 4.7 的同時坦誠表示,這并非其最強模型——能力更強的 Claude Mythos Preview 仍處于受限測試階段。


視覺智能突破與長上下文瓶頸攻克

在企業級應用場景的基準測試中,Opus 4.7 與主要競爭對手的性能差距進一步拉大。在 OfficeQA Pro 評測中——該評測由 Databricks 開發,要求模型解析近 9 萬頁美國財政部歷史文件(涵蓋近 100 年公報、2600 萬個數字)——Opus 4.7 取得 80.6% 的得分。這一結果幾乎是谷歌 Gemini 3.1 Pro(42.9%)的兩倍,并大幅領先于 GPT-5.4(51.1%)。數據顯示,Anthropic 已在長上下文檢索的關鍵瓶頸上取得突破。


在 BFS 1M 測試中——該測試由 OpenAI 設計,將一張有向圖用邊列表塞滿 100 萬 token 上下文,要求模型進行圖遍歷——Opus 4.7 從 Opus 4.6 的 41.2% 提升至 58.6%,提升幅度達 17.4 個百分點。這項指標被視為衡量 AI 智能體(Agent)跑多步驟長任務的硬性指標。在 Vending-Bench 2 模擬經營測試中,Opus 4.7 最終實現 10,937 美元余額,較 Opus 4.6 的 8,018 美元提升 36%,展現出長時間工作流中的決策連貫性優勢。


視覺智能是此版本進步最為顯著的方面。

Opus 4.7 現在支持最長邊達 2,576 像素的圖像輸入,分辨率約 375 萬像素,較前代提升超過三倍。這使得模型能夠"看到"屏幕上占比低至 0.07% 的 UI 元素。在 ScreenSpot-Pro 基準測試中——該基準評估 AI 在 VSCode、Photoshop、AutoCAD 等專業軟件中定位特定按鈕或數據點的能力——Opus 4.7 在高分辨率模式下配合工具調用功能達到 87.6% 的成功率,而 Opus 4.6 在低分辨率下僅為 57.7%。

這種精確度不再是單純的學術探索,而是"電腦使用"(Computer Use)能力的前提。Anthropic 將圖像分辨率大幅提升的本質目的,是讓 AI 能夠看懂軟件界面、密集表格、終端輸出、設計稿細節和代碼截圖。

未來 AI 辦公、AI 測試、AI 安全、AI 前端開發等任務,都將從純文本任務轉向屏幕任務。在 SWE-bench Multimodal 測試中——該測試要求模型結合 UI 截圖和代碼一起修復前端 JavaScript bug——Opus 4.7 從 Opus 4.6 的 27.1% 提升至 34.5%,提升 7.4 個百分點。這表明視覺能力的升級直接服務于編程場景的實際需求。

Anthropic 在官方公告中特別強調,Opus 4.7 在指令遵循能力上出現顯著提升。過往模型可能會寬松地"糊弄"指令或完全跳過部分指示,但 Opus 4.7 會嚴格按字面意思執行指令。

這一變化帶來雙重影響:一方面,它減少了提示詞"玄學",使寫需求、定格式、列限制條件變得更加可靠;另一方面,用戶可能需要重寫舊的、更偏對話式的提示詞以避免意外輸出。許多用戶的提示詞是在舊模型"會自動補全真實意圖"的習慣上調優出來的,而新模型的剛性可能導致這些舊提示詞失效。

在高級軟件工程領域,這種嚴謹性轉化為顯著提升。在 SWE-bench Verified 測試中,Opus 4.7 得分為 87.6%,Opus 4.6 為 80.8%;在更難的 SWE-bench Pro 測試中,Opus 4.7 為 64.3%,Opus 4.6 為 53.4%。這意味著用戶可以將過去需要密切監督的高難度編碼工作交給 Opus 4.7 處理,它會在匯報結果前主動驗證自身輸出。

Opus 4.7 在使用基于文件系統的記憶方面表現更為出色。它能在長時間、多會話的工作中記住重要筆記,并將其用于開展新的任務,因此新任務需要更少的前置上下文。一個能跨會話記住項目約束、用戶偏好、架構決策和上次失敗原因的 Agent,才可能從"聰明臨時工"變成"穩定同事"。這一特性在官方公告中并不顯眼,但可能是長期使用中最關鍵的更新。

伴隨 Opus 4.7 發布,Anthropic 還更新了 Claude Code,新增 auto mode 和/ultrareview 功能。auto mode 不是模型自動選型,而是權限選項。它允許 Claude 替用戶做一些權限決策,讓長任務少被打斷,但風險低于完全跳過權限確認。

這個設計針對的是 Agent 產品的核心矛盾:問太多,Agent 像實習生;不問,風險又太大。auto mode 的本質,就是在"別煩我"和"別亂來"之間找平衡。/ultrareview 是一個專門的代碼審查會話,可讀取變更并指出 bug 和設計問題。

這標志著 AI 編程正式進入第二階段:讓 AI 自己審查 AI 自己生成的代碼。生成代碼只是開發流程的一部分,審查、測試、重構、文檔同樣重要。如果 AI 只能做第一步,它永遠只是輔助工具;如果它能參與整個流程,它才可能真正改變軟件開發的方式。

專業領域的經濟價值正加速釋放

在 Structural Biology(結構生物學)基準測試中,Opus 4.7 的推理得分從 Opus 4.6 的 30.9% 躍升至 74.0%,一次版本迭代實現 2.4 倍增長。這是所有基準測試中躍升最夸張的一項。這種分子推理能力的突破表明,該模型正在從通用輔助邁向專業科學研究領域。對于更廣泛的勞動力市場而言,模型改進后的指令遵循能力意味著在短時間內它更不容易產生"幻覺"或遺漏步驟。

在金融分析領域,Opus 4.7 同樣取得領先地位。在 Finance Agent v11 測試中,Opus 4.7 得分為 64.4%,Opus 4.6 為 60.1%。在 GDPval-AA 評估中——該評估由 Artificial Analysis 基于 OpenAI GDPval 數據集開發,覆蓋 44 種知識工作職業、9 大 GDP 核心行業,任務來自資深職業人士(平均 14 年經驗)的真實交付物——Opus 4.7 獲得 1753 分的 Elo 評分,高于 Opus 4.6(1619 分)、GPT-5.4(1674 分)和 Gemini 3.1 Pro(1314 分)。

Anthropic 介紹稱,Opus 4.7 在金融分析任務上能夠生成更嚴謹的分析與建模、更專業的報告展示,并在各項任務間實現更緊密的整合。

在發布 Opus 4.7 的同時,Anthropic 推出了一份系統說明書并更新了 Cyber Verification Program(網絡安全驗證計劃)。該項目本質上是對能力進行分級:普通用戶拿到的是有護欄的 Opus,經過驗證的安全專家才能申請更寬的網絡安全用途權限。值得注意的是,Anthropic 有意限制了 Opus 4.7 的高級網絡安全能力,使其低于 Mythos Preview 模型中的水平,以防止在進攻性操作中的濫用。官方甚至表示,他們在訓練過程中實驗性地削弱了這個模型的網絡安全能力。

Opus 4.7 被明確定位為"第一款用來測試新網絡安全護欄的公開模型"。Anthropic 表示,他們會從 Opus 4.7 的真實部署中學習,為未來 Mythos 級別模型的廣泛發布做準備。這種謹慎的部署策略凸顯了硅谷日益增長的緊張關系:在爭相打造能夠替代人類工作者的模型的同時,也要確保同一模型無法摧毀數字基礎設施。當模型能力達到某個臨界點后,競爭邏輯從"我比你強"開始轉向"會不會出事"。

特朗普政府最近強調美國在 AI 安全方面需要發揮領導作用,Anthropic 的發布策略正是對這一政策導向的呼應。公司選擇先把最強的模型鎖起來,用稍弱但足夠好的模型來測試安全機制。這不是技術上做不到,而是主動選擇不做。這種"克制"本身成了產品差異化的一部分。至少在發布策略上,Anthropic 給出了一種新思路:有時候"不做什么"比"能做什么"更重要。

Token 消耗激增背后的成本邏輯

效率也意味著實實在在的成本。

Opus 4.7 使用了修訂后的分詞器(tokenizer),使得相同輸入量下的 token 消耗大約增加了 10% 到 35%。雖然 Anthropic 在定價上與 Opus 4.5 和 Opus 4.6 保持一致(輸入每百萬 token 5 美元,輸出每百萬 token 25美元),但 token 密度的增加意味著高強度任務將更快消耗 API 積分。

這種隱性成本上漲是模型增加"思考"時間的代價。尤其在使用新的 Xhigh Effort 模式時——該模式位于標準處理與最大推理深度之間——模型會進行更多內部推理,從而提高可靠性,但也會產生更多輸出 token。Anthropic 在遷移指南中提醒用戶,Opus 4.7 的 token 使用可能增加,但在實際編程評估中,整體效率反而提升了。

這說明他們優化的不是單次調用的成本,而是完成任務的總成本。一個 Agent 如果第一次就把事情做對,即使單次調用貴一點,總成本也比反復試錯要低。這是一種更成熟的產品思路。早期 AI 產品追求的是"便宜"和"快",現在開始追求"靠譜"。

Anthropic 新增的 x-high effort 和 task budgets(任務預算)功能,說明高端模型的使用方式正在走當年云計算的那套邏輯。用戶買的不是一次回答,而是在給一個會思考、會試錯、會驗證的任務過程付費。

過去模型計費主要看輸入輸出長度,現在還要看思考的等級、任務預算、Agent 跑了幾輪、工具失敗后有沒有繼續推理。這種計費模式的演變,反映出 Agent 產品從"能干什么"到"能不能用"的巨大飛躍。

綜合來看,Opus 4.7 不是最強的模型,Anthropic 也沒有把它包裝成最強的模型。它是在能力、安全、成本之間的一個平衡點。至于這個平衡點是否真的平衡,需要等待市場來驗證。

可以確定的是,隨著 Opus 4.7 的發布,AI 行業競爭的核心指標已經改變。大模型競爭的焦點,正在從答得像不像,轉到做得完不完。只會寫一段漂亮答案,已經不夠了。能不能把一份長文檔改干凈,能不能把一套資料串起來做成可交付物,能不能持續幾十分鐘甚至更久不跑偏,這才會決定它在日常工作里能不能真的替人扛起一片天。

這個策略能否成功,取決于市場是否認可"謹慎"這個概念。如果用戶只在乎"能不能做到",那 Anthropic 的做法會顯得保守。但如果企業客戶開始重視"會不會出事",那這種分級發布、主動削弱某些能力的做法,反而可能成為競爭優勢。(本文首發鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 秦聰慧)

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蘋果首次成為全球手機市場第一!份額21%,三星20%,這回是真的了

蘋果首次成為全球手機市場第一!份額21%,三星20%,這回是真的了

數碼Antenna
2026-04-16 11:52:53
“指紋鎖”退出中國家庭?開鎖師傅說了實話,我連夜換回了鐵將軍

“指紋鎖”退出中國家庭?開鎖師傅說了實話,我連夜換回了鐵將軍

巢客HOME
2026-04-08 15:48:09
馬斯切拉諾為何辭職?名記:與梅西爭吵不斷,更衣室大吵成導火索

馬斯切拉諾為何辭職?名記:與梅西爭吵不斷,更衣室大吵成導火索

奧拜爾
2026-04-17 12:18:49
韓國人知道他們國家小嗎?網友說他們不知道,但導演肯定知道

韓國人知道他們國家小嗎?網友說他們不知道,但導演肯定知道

侃神評故事
2026-04-05 15:05:07
14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

14歲被送上導演的床,17歲拍全裸寫真,被操控半生,如今怎樣了?

阿廢冷眼觀察所
2026-04-17 13:59:46
坐標廣州!被裁員的真實案例,打工人真的好無助…

坐標廣州!被裁員的真實案例,打工人真的好無助…

慧翔百科
2026-04-16 12:03:35
徹底拆隊重建?快船醞釀大交易,倫納德三大下家正式出爐

徹底拆隊重建?快船醞釀大交易,倫納德三大下家正式出爐

夜白侃球
2026-04-17 14:27:36
比利時一男子在云南哈巴雪山失聯超20天 當地多次搜救無果 知情人士:仍在“盲搜”

比利時一男子在云南哈巴雪山失聯超20天 當地多次搜救無果 知情人士:仍在“盲搜”

極目新聞
2026-04-17 13:46:08
樊振東大喜訊!迎來終極反轉,國乒世乒賽大名單有變?

樊振東大喜訊!迎來終極反轉,國乒世乒賽大名單有變?

運動探索
2026-04-17 09:45:06
投資5億打水漂,《尋龍訣·覓蹤》變網大,上線前資本仍在拉扯

投資5億打水漂,《尋龍訣·覓蹤》變網大,上線前資本仍在拉扯

光影新天地
2026-04-16 20:09:22
第6艘船出事,美軍艦攔截成功,難題已拋給中國,俄政府準備救場

第6艘船出事,美軍艦攔截成功,難題已拋給中國,俄政府準備救場

共工之錨
2026-04-16 13:45:22
2026娛樂圈男明星咖位大洗牌:歐豪難進前5,肖戰第2,第1沒爭議

2026娛樂圈男明星咖位大洗牌:歐豪難進前5,肖戰第2,第1沒爭議

橙星文娛
2026-04-17 08:41:33
可樂再次被關注!醫生發現:糖尿病者喝可樂,不用多久或有5變化

可樂再次被關注!醫生發現:糖尿病者喝可樂,不用多久或有5變化

蜉蝣說
2026-04-17 11:00:32
當場簽約!越南對華作出保證,蘇林乘坐高鐵離京,臨走前獻出重禮

當場簽約!越南對華作出保證,蘇林乘坐高鐵離京,臨走前獻出重禮

芳芳歷史燴
2026-04-17 03:57:25
愛潑斯坦文件曝光!證人實錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

愛潑斯坦文件曝光!證人實錘了:愛潑斯坦把梅拉尼婭介紹給特朗普

吃貨的分享
2026-04-16 17:13:11
國內油價或大幅下調,4月17日95、92號汽油今日價格,4月21日調整

國內油價或大幅下調,4月17日95、92號汽油今日價格,4月21日調整

天天熱點見聞
2026-04-17 13:16:35
被嘲笑了4年的俄羅斯突然發現,美軍只打了1個月,就比它還拉胯

被嘲笑了4年的俄羅斯突然發現,美軍只打了1個月,就比它還拉胯

阿器談史
2026-04-16 15:16:19
世界首富、巨石強森都迷的“權力腕表”!沛納海新表為何讓人上頭

世界首富、巨石強森都迷的“權力腕表”!沛納海新表為何讓人上頭

商務范
2026-04-16 13:12:27
地頭蛇砸了我家燒烤攤,媽媽不哭不鬧,拿著一等功勛章還給國家

地頭蛇砸了我家燒烤攤,媽媽不哭不鬧,拿著一等功勛章還給國家

紅豆講堂
2025-03-27 10:57:30
自斷后路,央企采用國產芯片,美:你不進口,我們的芯片賣給誰?

自斷后路,央企采用國產芯片,美:你不進口,我們的芯片賣給誰?

賤議你讀史
2026-04-17 07:00:03
2026-04-17 14:52:49
鈦媒體APP incentive-icons
鈦媒體APP
獨立財經科技媒體
132393文章數 862100關注度
往期回顧 全部

科技要聞

Anthropic推出Opus 4.7,坦言依不及Mythos

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

頭條要聞

78歲畫家每天畫800張1場直播賣100萬元:不共情普通人

體育要聞

贏下快船,這場很庫里,很格林,很科爾

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

海爾與醫美女王互撕 換血抗衰誰的生意?

汽車要聞

又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

態度原創

游戲
教育
本地
旅游
藝術

《Saros》PS5手柄觸覺反饋“有驚喜” 扳機新玩法

教育要聞

第3課巧妙禮貌地結束對話和告別

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

旅游要聞

湘江文脈遇浦江春潮!長沙赴滬發出文旅邀約,要做入境游“第二站”

藝術要聞

26幅 中國當代名家風景畫

無障礙瀏覽 進入關懷版