337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Anthropic甩出92.4%這個數字

0
分享至


凌晨兩點,一個做后端的朋友給我發消息:「Sonnet 5出來了,我手里的咖啡涼了。」我點開鏈接,第一反應是檢查日期——4月1號,確認不是玩笑。92.4%的SWE-bench Verified,這比他們自家旗艦Opus 4.6高出12個點,比GPT-5.4高出35個點。一個中檔模型,把全行業的旗艦按在地上。

價格沒變,但游戲規則變了

Anthropic這次沒搞發布會,沒預熱,博客帖子直接上線。模型字符串claude-sonnet-5-20260401,claude.ai默認切換,API價格維持$3/$15每百萬token——和Sonnet 4.6一模一樣。沒有漲價。

這有多反常?對比一下就懂了。Gemini 3.1 Pro定價$2/1M輸入,是當下最便宜的前沿模型;GPT-5.4定價$2.50;Sonnet 5貴一點,$3。但多花這50美分,你買到的是:SWE-bench上35個百分點的領先,OSWorld-Verified上13個百分點的領先,GPQA Diamond上接近2個百分點的領先,ARC-AGI-2上7個百分點的領先。

用五分之一的價格買Opus 4.6,性能反而更好——這種定價策略不像賣模型,像是對自家旗艦的公開處刑。

Opus 4.6的定價是$15/1M輸入,現在開發者有明確的選擇題:花3塊錢買更強的,還是花15塊錢買更弱的?Anthropic自己的產品矩陣內部,出現了明顯的 cannibalization(同類相食)。

計算機操作:從「能用」到「比人強」

OSWorld-Verified這個基準測試,測的是AI操控真實桌面環境的能力。人類專家基線是72.4%——這是受過訓練的專業人員,在可控環境下操作電腦的表現上限。

Sonnet 5得分88.3%。不是接近人類,是顯著超越。GPT-5.4上個月發布時,75.0%的成績已經讓不少人覺得「agent時代要來了」。一個月后,Anthropic把這個標準又拔高13個百分點。

這里的差距不是線性進步,是代際差。75%意味著「大多數時候能完成任務,但需要人工兜底」;88%意味著「可以放手讓它自己跑,只在邊緣case介入」。從「輔助工具」到「獨立代理」,閾值就在這個區間。

GPQA Diamond(博士級科學問答)上,Sonnet 5拿下96.2%,從Gemini 3.1 Pro手里搶走紀錄。ARC-AGI-2(抽象新穎推理)84.7%,比Gemini的77.1%高出7.6個百分點——這個測試的設計初衷就是「讓AI做它沒訓練過的事」,分數越高,泛化能力越扎實。

三個月內的三次變天

時間線拉出來看,節奏很密集。2月19日,Gemini 3.1 Pro發布,GPQA Diamond登頂,當時被認為是Google對OpenAI的精準反擊。3月5日,GPT-5.4上線,計算機能力和上下文窗口是賣點,75%的OSWorld成績足夠亮眼。

這期間Anthropic在做什么?Sonnet 4.6作為中檔型號,已經表現出奇怪的「以下犯上」——開發者頭對頭對比時,59%的情況下更喜歡它而不是自家旗艦Opus 4.5。這種內部倒掛說明,模型規模不是唯一指標,推理效率、響應質量、實際體驗都在重新定義「好模型」的標準。

Sonnet 5把這個趨勢推到極致。它沒有用更大的參數規模,而是優化了「自適應思考架構」——動態分配推理深度,在簡單問題上快,在復雜問題上深。這種「該省省該花花」的策略,可能是benchmark躍升的關鍵來源。

上下文窗口也完成了擴容:2M token正式脫離beta,1M版本從實驗狀態轉正。長文檔處理、代碼庫理解、多輪對話的瓶頸,被一次性打通。

SWE-bench為什么難作弊

92.4%這個數字值得單獨拆解。SWE-bench Verified測的是解決真實GitHub issue的能力——拿到一個沒見過的代碼庫,理解問題描述,定位bug,寫出修復,通過測試。沒有訓練數據可背,沒有套路可套。

之前的標桿是:Opus 4.6的80.8%,Gemini 3.1 Pro的80.6%,GPT-5.4的57.7%。Sonnet 5的92.4%意味著,在接近真實開發場景的任務中,它十次里能成功九次半。這個可靠性水平,已經觸及「可以集成到CI/CD流程」的門檻。

開發者社區的反饋正在快速匯聚。有人測試了復雜重構任務,有人扔進去遺留代碼庫的bug,有人在用它做code review。初步共識是:Sonnet 4.6已經夠用,Sonnet 5是「夠用」到「好用」的跨越。

定價策略的潛臺詞也很清晰。Anthropic沒有把性能提升轉化為溢價,而是用Sonnet tier承載技術突破,把Opus tier逼向更極端的場景——也許是為下一代Opus預留空間,也許是戰略性地用性價比搶占開發者心智。無論哪種,$3 vs $15的價差,會讓預算敏感的用戶用腳投票。

一個細節:模型發布當天,API文檔同步更新,2M上下文通過header顯式啟用,沒有灰度,沒有排隊。這種「即開即用」的交付節奏,和某些廠商的「waitlist文化」形成對比。

接下來兩周,真正的壓力測試會在生產環境里發生——不是benchmark,是凌晨三點的線上故障,是需求文檔里沒寫清楚的邊界條件,是產品經理臨時改需求后的代碼調整。Sonnet 5的92.4%能不能扛住這些,才是它值不值那3塊錢的最終裁決。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃曉明道歉:已接受處罰

黃曉明道歉:已接受處罰

中國日報
2026-04-06 12:08:40
小米汽車賣不動了

小米汽車賣不動了

新浪財經
2026-04-05 18:47:28
日本富婆來中國旅游,回國7天后哭訴:日本跟中國相比還需努力

日本富婆來中國旅游,回國7天后哭訴:日本跟中國相比還需努力

千秋文化
2026-03-24 21:49:28
法甲的金錢地獄:一個7.8億的賭約,如何毀掉了整個法國足球

法甲的金錢地獄:一個7.8億的賭約,如何毀掉了整個法國足球

老骾體育解說
2026-04-05 08:34:39
中美GDP差距再次拉大!中國GDP跌到美國60%,到底是哪出問題了?

中美GDP差距再次拉大!中國GDP跌到美國60%,到底是哪出問題了?

混沌錄
2026-04-05 16:44:05
世錦賽嚴重誤判!白雨露受害仍晉級,創2大紀錄,會師排名賽冠軍

世錦賽嚴重誤判!白雨露受害仍晉級,創2大紀錄,會師排名賽冠軍

劉姚堯的文字城堡
2026-04-07 08:59:55
建議收藏!血壓、血糖、血脂、尿酸標準對照表及忌口清單盤點

建議收藏!血壓、血糖、血脂、尿酸標準對照表及忌口清單盤點

華醫網
2026-04-06 05:42:56
英海事分析公司:霍爾木茲海峽通行出現南北“雙通道”

英海事分析公司:霍爾木茲海峽通行出現南北“雙通道”

每日經濟新聞
2026-04-07 07:09:23
普京接連出招,新仇舊恨一起算!日本油盡燈枯,全國大亂倒計時

普京接連出招,新仇舊恨一起算!日本油盡燈枯,全國大亂倒計時

肖茲探秘說
2026-04-06 23:14:42
年年體檢正常,突然查出肝癌晚期,醫生指著CT說:這里去年就有了

年年體檢正常,突然查出肝癌晚期,醫生指著CT說:這里去年就有了

健身狂人
2026-04-03 15:03:01
忠告天下子女:再孝順,也不要為年過75歲的老父老母,做這三件事

忠告天下子女:再孝順,也不要為年過75歲的老父老母,做這三件事

藝鑒在線
2026-04-07 00:13:20
市委書記暗訪撞見民工被派出所長毆打,走近一看,被打者是他二叔

市委書記暗訪撞見民工被派出所長毆打,走近一看,被打者是他二叔

歷史八卦社
2024-08-21 18:13:16
廣州停車費降價“爽約”,千萬車主面臨困境重返老規

廣州停車費降價“爽約”,千萬車主面臨困境重返老規

娛樂圈見解說
2026-04-07 07:28:17
東契奇瘋了!賭上職業生涯

東契奇瘋了!賭上職業生涯

風風拒絕焦慮
2026-04-07 00:17:24
繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

繼德國之后,英國也開始貼出“中文標語”?中國游客:不能夠接受

潮鹿逐夢
2026-04-02 12:31:48
美國最高法院批準特朗普政府撤銷班農刑事定罪請求

美國最高法院批準特朗普政府撤銷班農刑事定罪請求

財聯社
2026-04-06 22:14:10
歐洲制裁4年俄羅斯,一夜回到解放前!普京:麻袋裝錢都不夠用了

歐洲制裁4年俄羅斯,一夜回到解放前!普京:麻袋裝錢都不夠用了

安珈使者啊
2026-04-06 16:49:56
西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

西方白左正在用天真、善良和愚蠢將世界送往毀滅之路

壹家言
2026-03-31 11:04:40
二手CD播放器漲到天價!閑魚賣5999元,比當年全新還貴

二手CD播放器漲到天價!閑魚賣5999元,比當年全新還貴

金科技觀察家
2026-04-06 18:03:53
張凌赫環保紀錄片全素顏出鏡,不會真覺得和張凌赫只差一瓶粉底液

張凌赫環保紀錄片全素顏出鏡,不會真覺得和張凌赫只差一瓶粉底液

小椰的奶奶
2026-04-07 08:48:37
2026-04-07 10:28:49
硅嶼手記
硅嶼手記
有態度網友ytd
1407文章數 5關注度
往期回顧 全部

科技要聞

年化營收300億美元!Anthropic砸算力大單

頭條要聞

特朗普:伊朗人民甘愿承受苦難 他們"想聽炸彈的聲音"

頭條要聞

特朗普:伊朗人民甘愿承受苦難 他們"想聽炸彈的聲音"

體育要聞

官方:中國女足球員邵子欽加盟本菲卡

娛樂要聞

唐嫣羅晉新加坡遛娃,6歲女兒身高搶鏡

財經要聞

2026年,全國租房市場還有波降價潮

汽車要聞

阿維塔06T快上市了 旅行車還能這么玩?

態度原創

健康
游戲
本地
公開課
軍事航空

干細胞抗衰4大誤區,90%的人都中招

傳聞《古墓麗影:亞特蘭蒂斯遺產》延期至2027年

本地新聞

跟著歌聲游安徽,聽古村回響

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊朗:在C-130運輸機殘骸中發現一具美軍士兵遺體

無障礙瀏覽 進入關懷版