337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Claude Opus 4.5來了:谷歌把Anthropic逼到了墻角

0
分享至

上周,Google實在是太猛了,拳打OpenAI,腳踢Anthropic。Gemini 3 Pro模型在編程、數學、推理等能力上都達到了當之無愧的SOTA級別。


被逼到墻角之后,就看誰先有能力掀桌坐不住了。

于是,就在今天,Anthropic發布了Claude Opus 4.5。


Opus 4.5的核心還是聚焦在編程能力,可以說很炸裂:SWE-bench Verified達到80.9%,首次突破80%,超越Gemini 3 Pro的76.2%。


以及,很少見的是,他們甚至降價了!價格從之前的貴得離譜的$15/$75直接降到$5/$25 per million tokens,直降66%!!

Opus 4.5的發布,說明Anthropic是真的急了——或者說,終于認真了。

Opus 4.5到底有多強?

先說benchmark數據。

SWE-bench Verified:80.9%

這是業界公認的編程能力測試標準。Opus 4.5是第一個突破80%的模型。

對比一下:

- Gemini 3 Pro:76.2%

- Claude Sonnet 4.5:77.2%

- GPT-5.1:76.3%/77.9%

80.9%是什么概念?Anthropic內部拿性能工程師的面試題測試,Opus 4.5的得分超過了所有人類候選人。


Terminal-bench 2.0:59.3%

這個測試主要看模型在終端環境下的編程能力。Opus 4.5比Gemini 3 Pro高了5個百分點(54.2%),比自家的Sonnet 4.5高了近10個百分點(50.0%)。

這個差距說明一個事實:Claude在真實開發環境下,就是比其他模型強。

GPQA Diamond:87.0%

這是研究生級別的推理測試,涵蓋物理、化學、生物。Opus 4.5在這個測試上落后于Gemini 3 Pro(91.9%),但87%的成績也不差。

總結一下:編程能力世界第一,推理能力也不弱。

價格策略的巨大轉變

Opus 4.5最讓人意外的,是在性能提升的同時,價格還暴降了。

新定價:

- 輸入:$5 / million tokens

- 輸出:$25 / million tokens

Anthropic的官方說法是:"making Opus-level capabilities accessible to even more users, teams, and enterprises"(讓更多用戶、團隊和企業能用上Opus級別的能力)。

邏輯很明顯:Anthropic需要更多人用Opus。

之前Opus的定位是"高端用戶",但高端市場就那么大。現在降價,是要搶占"中端市場"——那些之前用Sonnet,但其實需要更強能力的開發者。

不到一周,正面交鋒

11月18日,Google發布Gemini 3 Pro。

11月24日,Anthropic發布Claude Opus 4.5。

不到一周,兩個頂級模型連續發布。

這不是巧合。

Gemini 3 Pro發布時,各種benchmark數據都很炸裂,尤其是GPQA Diamond的91.9%,直接刷新了推理能力的記錄。當時AI圈的共識是:Google這次真的起來了。


Anthropic當然不會讓Google獨占風頭。

Opus 4.5的發布時機,明顯是沖著Gemini 3來的。而且,Anthropic選擇的戰場很聰明:不和你比推理,和你比編程。

Gemini 3 Pro在推理上確實強(91.9% vs 87.0%),但在編程上,Claude Opus 4.5領先了近5個百分點(80.9% vs 76.2%)。

更關鍵的是,編程能力是開發者最關心的指標。推理能力再強,如果寫不出好代碼,開發者也不會買單。

這就是Anthropic的策略:在自己最擅長的領域,做到絕對領先。

為什么Anthropic能在編程上這么強?

之前我在測試Claude Code時,有個很深的感受:

Claude Code好用的邏輯,不是因為它是終端工具,而是因為Anthropic有模型成本和模型認知的優勢。

他們可以更無所畏懼地投喂代碼上下文燒token,能知道如何擠壓模型Agentic的能力實現更長步驟的推理,可以用agentic search而非RAG的方式處理上下文。

這些優勢,說白了就一個原因:Anthropic從一開始就是奔著編程和Agent去優化模型的。

我之前評價Claude 4時說:最強編程模型 + 最強Agent基建。

Anthropic對模型的所有優化,都是奔著To B做AI coding和讓開發者建agent而去的。他們主要做了這幾個方面的優化:

1. 擴展思維與工具使用:允許模型在思考和使用工具之間來回切換,形成"思考-執行-再思考"的循環

2. 改進的記憶能力:可以創建和維護"記憶文件"來存儲關鍵信息,支持長時間任務

3. 更強的指令遵循能力:可以處理超過10000個token的系統提示

4. 減少獎勵黑客行為:模型為了達到目標而走捷徑的傾向降低了80%以上

這些優化,放在Opus 4.5上,效果更明顯了。

相比之下,Gemini 3的優勢在于多模態。如果你的任務涉及視覺、圖片、視頻,Gemini 3會更強。但如果是純編程任務,Claude Opus 4.5幾乎沒有對手。

產品層面的配合

Opus 4.5的發布,不是孤立的。

Anthropic同時推出了幾個重要的產品更新:

1. Claude Code進入桌面端:支持并行運行多個本地和遠程會話,長對話自動總結早期上下文

2. Claude for Chrome:擴展至所有Max用戶

3. Claude for Excel:面向所有Max、Team和Enterprise用戶正式發布

這些產品更新,都是在強化一個信號:Claude不只是一個聊天模型,它是一個生產力工具。

尤其是Claude Code。

我之前說過,從工具層面來說,從Cursor這種IDE圖形界面退回到Claude Code這種終端命令行工具,其實是個挺大的退步。但Claude Code之所以還是比Cursor好用,就是因為它背后的模型能力太強了。

現在Opus 4.5出來了,Claude Code的優勢會更明顯。

而且,Anthropic還宣布了和Microsoft、NVIDIA的戰略合作:Claude擴展至Azure平臺,由NVIDIA提供算力支持。這意味著,Claude的To B布局在快速推進。

開發者該怎么選?

最后說點實際的:如果你是開發者,該選Claude還是Gemini?

我的建議是:

選Claude Opus 4.5,如果你的任務主要是:

  • 純代碼編寫和調試

  • 后端邏輯和復雜推理

  • 長時間的編程任務(需要記憶和上下文管理)

選Gemini 3 Pro,如果你的任務主要是:

  • 多模態任務(涉及圖片、視頻、視覺)

  • 前端、UI設計

  • 需要超強推理能力的研究級任務 如果預算夠,最好的辦法是:兩個都用。

Claude處理編程,Gemini處理多模態。各取所長。

我前兩天剛剛同時用Claude Code+Gemini 3 Pro,開發了一個有儀式感地記錄日常生活和靈感碎片的app「小票筆記 - Thermal」,在開發這款app時,我的工作步驟和體驗是:

1)Gemini 3在生成和復刻前端效果上明顯表現更優

2)實際的開發和解決bug的過程,Claude Code還是比Cursor + Gemini 3 Pro,或者使用Antigravity的體驗,因為長程的編程能力還需要工具更好的工程化能力,以及模型更底層的編程能力。




最后

Opus 4.5的發布,不是孤立事件。

它是Anthropic在編程和Agent這條路上的又一次發力,是對Gemini 3的正面回應,也是對自己商業化策略的調整。

Anthropic這么跳,說明AI大模型的競爭進入白熱化了。

對開發者來說,這是好事。模型越來越強,價格越來越低,工具越來越好用。

接下來,看OpenAI怎么接招。

當然,如果你因為訂閱或者網絡問題不方便使用原版Claude Code的話,也歡迎試試我前段時間開發的GLM Code:

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“直接崩了”,價格斷崖式下跌!有人瘋狂拋售…商戶:銷量跌了60%都不止

“直接崩了”,價格斷崖式下跌!有人瘋狂拋售…商戶:銷量跌了60%都不止

申消費
2026-03-30 10:36:28
單依純自封“創作者”?實則演唱會大把翻唱歌曲,在音著協的登記作品數量為0

單依純自封“創作者”?實則演唱會大把翻唱歌曲,在音著協的登記作品數量為0

可達鴨面面觀
2026-03-30 15:48:36
終于定了!中國移動正式發通知:自4月30日起,全國統一執行

終于定了!中國移動正式發通知:自4月30日起,全國統一執行

Thurman在昆明
2026-03-31 03:20:11
貴州茅臺時隔近兩年半再提價,飛天茅臺自營體系零售價調整為1539元/瓶

貴州茅臺時隔近兩年半再提價,飛天茅臺自營體系零售價調整為1539元/瓶

界面新聞
2026-03-30 20:29:15
章澤天帶卡塔爾公主參觀京東總部,身穿紫色套裝,端莊大氣

章澤天帶卡塔爾公主參觀京東總部,身穿紫色套裝,端莊大氣

日落于西
2026-03-30 16:40:28
民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

共工之錨
2026-03-31 00:27:37
鄭麗文受邀訪問大陸 我們應該怎么看?

鄭麗文受邀訪問大陸 我們應該怎么看?

看看新聞Knews
2026-03-30 22:31:04
這倆人雖說是不違反法律吧,但是純膈應人啊

這倆人雖說是不違反法律吧,但是純膈應人啊

歲月有情1314
2026-03-30 14:37:46
刺激夜:中國女足爆大冷門1-0掀翻歐洲強敵,德國2-1絕殺非洲勁旅

刺激夜:中國女足爆大冷門1-0掀翻歐洲強敵,德國2-1絕殺非洲勁旅

側身凌空斬
2026-03-31 04:56:41
伊朗女足球員:澳方承諾給我們房子、車子和永居權,來說服我們留下

伊朗女足球員:澳方承諾給我們房子、車子和永居權,來說服我們留下

懂球帝
2026-03-30 13:45:07
殯葬新規3月30日起實施 新規明確不全面禁止土葬

殯葬新規3月30日起實施 新規明確不全面禁止土葬

閃電新聞
2026-03-30 11:46:27
從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

從楊主席訪伊朗受怠慢,聊聊如今為何有伊朗人稱我們“秦腔窮”?

阿胡
2026-03-30 12:52:29
全網震動!字節跳動多人被抓!

全網震動!字節跳動多人被抓!

大佬灼見
2026-03-30 11:39:00
父親是福建人,母親是牙買加人,他落戶上海,或將成為男籃主力

父親是福建人,母親是牙買加人,他落戶上海,或將成為男籃主力

寒士之言本尊
2026-03-30 17:12:18
4月1日新規落地,私家車嚴查全面上線,這些壞習慣千萬別再犯

4月1日新規落地,私家車嚴查全面上線,這些壞習慣千萬別再犯

復轉這些年
2026-03-30 12:34:51
中國銀行副行長劉承鋼:把握大量定期存款到期有利時機,有效對沖資產收益下行壓力

中國銀行副行長劉承鋼:把握大量定期存款到期有利時機,有效對沖資產收益下行壓力

北京商報
2026-03-30 18:07:56
央視緊急曝光:全是假貨!別再往家里拎了,很多人天天在用!

央視緊急曝光:全是假貨!別再往家里拎了,很多人天天在用!

興史興談
2026-03-30 15:15:11
突然宣布大漲價!全網多渠道售罄、缺貨!

突然宣布大漲價!全網多渠道售罄、缺貨!

江南晚報
2026-03-29 12:17:06
馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

馬航370并非意外失聯,前美中情局特工說出真相后,車禍身亡

南冥那只貓
2025-03-05 21:11:34
全紅嬋哽咽談體重減不下來:餓到不行,希望大家不要再罵我了!

全紅嬋哽咽談體重減不下來:餓到不行,希望大家不要再罵我了!

新民周刊
2026-03-30 15:38:07
2026-03-31 07:11:00
AI進化論花生 incentive-icons
AI進化論花生
AI博主,AppStore付費榜第一的小貓補光燈app開發者
169文章數 83關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

白宮:特朗普希望4月6日前與伊朗達成協議

頭條要聞

白宮:特朗普希望4月6日前與伊朗達成協議

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

全紅嬋聊到體重哭了,每天只吃一頓飯

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

限時12.58萬起 銀河星耀8遠航家系列上市

態度原創

藝術
游戲
手機
房產
家居

藝術要聞

這父子倆的花鳥,堪稱一絕

突發!Xbox發布會官宣 還有第一方游戲專場

手機要聞

曝蘋果影像測試的新Sensor基本確定1/1.12",超廣角也考慮增強

房產要聞

重磅!番禺20宗涉宅地亮相,萬博CBD宅地將上新!

家居要聞

東方法式美學 現代簡約

無障礙瀏覽 進入關懷版