網易首頁 > 網易科技 > 網易科技 > 正文

最強編程AI被指降智！網友吵翻天，官方緊急回應被群嘲：縮水也叫優化？

2026-04-14 15:57:02　來源: 網易智能

北京舉報

分享至

出品 | 網易智能

作者 | 辰辰

編輯 | 王鳳枝

最強的編程AI，到底降沒降智？

今年2月初，Anthropic發布Claude Opus 4.6，其憑借著深邃的推理邏輯和對復雜代碼規范的精準執行，被業界奉為代碼真神。

然而好景不長，發布僅數周后就不斷有用戶在社交媒體上聲討，稱其性能出現了斷崖式下跌。

不少用戶聲稱自己付著同樣高昂的月費，換來的卻是一個被明顯降智的縮水版本，Opus 4.6開始變得懶惰與健忘，甚至在基礎邏輯里反復撞墻。

面對全網的聲討，Anthropic官方團隊出面回應，他們辯稱從未削弱模型，種種異常表現只是為了幫用戶節省Token而做出的默認配置優化。

這種單方面的技術辯解顯然無法平息開發者的怒火。

這究竟是大量用戶的集體心理錯覺，還是資本在算力瓶頸下精心炮制的縮水？

一、AMD高管的深度分析：6852份日志見端倪

如果說普通用戶的抱怨只是體感，那么斯特拉·勞倫佐（Stella Laurenzo）的分析，則是讓這件事徹底“實錘”了。

根據領英資料，勞倫佐是AMD的AI部門高級總監，目前在AMD領導一支龐大的團隊為開源AI編譯器開發貢獻力量。她曾在谷歌擔任首席軟件工程師，后作為前Nod.ai工程副總裁加入AMD。

4月2日，勞倫佐在GitHub上發布了一份詳盡的性能回溯報告。

作為一名頂級AI專家，她沒有只憑直覺說話，而是詳細分析了6852份Claude Code會話文件與17871個思考塊以及超過23萬次工具調用記錄，堪稱一份詳盡的高水平個案研究。

這份基于海量數據的分析揭露了一個令人不安的真相，從今年2月份開始，Claude的推理深度就出現了斷崖式下跌。

細節信息顯示：

推理字數縮減：中位思考長度從2200字符縮減到了600字符。

研究退化：以前Claude在寫代碼前會進行多輪研究（Research），現在的模式變成了直接上手改（Edit），這導致讀取與編輯的比率從6.6倍降至2.0倍。

任務早退：在短短17天內，Claude嘗試放棄任務或反問我是否應該繼續的次數達到了173次，而在3月8日之前這個數字是0。

自相矛盾：推理過程中的自我否定（如“哦等等，實際上……”）頻率增加了三倍。

勞倫佐的結論非常冷酷，對于高級工程工作流來說，深度推理不是奢侈品而是模型可用的前提，現在Claude在復雜工程中已經靠不住了。

不過需要注意的是，勞倫佐的分析結論只是說今年2月底Claude思考長度縮短了67%，推文將思考量減少直接等同于智力下降的說法難論嚴謹。

二、社交媒體的證言墻：40分鐘的思考與無效的賬單

勞倫佐的帖子迅速引爆了社交媒體X和Reddit，無數開發者發現自己遇到的問題與這份報告高度契合。

網紅開發者奧姆·帕特爾（Om Patel）直接在X上貼出了結論，有人測出了Claude變笨了多少，答案是67%。

他的論點主要集中在Opus 4.6的思考量比以前少了三分之二。他諷刺地寫道，Anthropic一直保持沉默，直到這些數字被公開，他們的團隊才出來滅火。

帕特爾還在推文中透露，泄露的源代碼顯示他們有一個內部開關，可以讓模型在Anthropic員工使用時保持最佳狀態。不過這一說法尚未得到獨立驗證，Anthropic也未對此作出回應。

他還直言，有人說Anthropic故意降低Opus的性能，是為了節省計算資源來訓練他們的下一個模型Mythos。但這一推測同樣缺乏直接證據。

在Reddit上，用戶們的吐槽則更具具像化，也更顯無奈：

坐等式思考：用戶DangerousSetOfBewbs稱他曾讓Claude處理一個500行的文件，結果Claude進入了長達24分鐘的思考中狀態，只是在那里干坐著。還有網友附和，讓它做研究，40分鐘幾乎沒用什么Token，所以根本不清楚它這40分鐘到底做了什么。

規則視若無睹：許多開發者習慣在CLAUDE.md中設定項目規范，但現在Claude仿佛患上了失憶癥。一位用戶憤怒地留言，如果你不盯著它的輸出，它能分分鐘毀掉你的代碼庫。

價格沒變智力降級：這就是典型的縮水通脹。Reddit用戶Firm_Meeting6350說，我今天退訂了Claude Max 20并轉投了Codex Pro，Claude現在給我的感覺就像在用過時的舊模型。

三、跑分迷霧：從第2名到第10名的跌落

如果用戶抱怨還可以解釋成主觀感受，那么基準測試則似乎要拿真實數據討說法。

4月12日，專門負責幻覺基準測試的機構BridgeMind發布了一條推文，直接將爭議推向高潮。

推文指出Claude Opus 4.6被削弱了，BridgeBench剛剛證明了這一點。上周它排名第2且準確率83.3%，今天重測它掉到了第10且準確率僅剩68.3%，幻覺率增加了98%。

然而這一測試結果遭到了反駁。外部AI研究員保羅·卡爾克拉夫特（Paul Calcraft）隨后指出測試中存在誤導性，BridgeMind的兩次測試并不是對等比較。第一次測試只涵蓋了6個任務，而第二次測試擴充到了30個任務。

卡爾克拉夫特指出，如果只看那6個共同的任務，Claude的得分僅從87.6%輕微波動到85.4%，最大的偏差幾乎來自于單個虛構結果，這種差異在統計學上完全可以歸類為噪音。

這場跑分爭議本身也說明，目前業界缺乏統一且可復現的AI性能基準測試標準，很多測試頗有先下結論后找論據的風格，用戶很難從測試數據中獲得確定性的答案。

然而那個跌落至第10名的數據在社交媒體上瘋傳，截圖給人的視覺沖擊力使其成為了Claude降智這一說法的最有力佐證。

四、官方回應：是優化而非削弱

面對洶洶民意，Anthropic的核心團隊成員不得不公開回應。

Claude Code負責人鮑里斯·切爾尼（Boris Cherny）在勞倫佐的GitHub原文下認真解釋了一通，并在X上連發數條回復，核心觀點只有一個，他們沒有削弱模型，只是為了響應用戶反饋調低了默認的努力程度。

切爾尼表示，很多用戶此前反饋Claude消耗Token太多。為了響應用戶反饋，Anthropic做了以下改變：

默認努力度降級：在3月3日默認將推理努力度設置為中等，如果你想要深度推理，需要手動輸入對應高級指令。

前端隱藏思考過程：改變了前端顯示，不再完整展示思考塊，減少了延遲，但這不影響思考預算或后端的深度推理。

自適應思考機制：在2月9日引入了動態調整機制。

Claude Code團隊成員塔里克·希希帕爾（Thariq Shihipar）也力挺自己的部門老大，他連發數條推文用技術層面的解釋打消用戶疑慮，還堅稱公司不會為了更好地滿足需求而降低模型性能。

值得注意的是，切爾尼提到的默認努力度降級，恰好可以解釋勞倫佐分析報告中的思考長度縮短與研究行為減少以及任務放棄頻率上升等多種現象，這與推理處于中等的默認設置高度吻合。

然而官方解釋并不能平息眾怒，社交媒體上很多用戶都認為，如果為了幫用戶省錢而降低性能或者給出錯誤答案，那這種省錢根本毫無意義可言。

何況公司沒通知就直接進行了調整，直接損害了用戶的知情權。

五、幕后暗戰：緩存生存時間與算力瓶頸

除了推理深度的變化，不少用戶還注意到Claude變得更貴了。

GitHub上一份編號為46829的反饋指出，Claude Code的提示詞緩存生存時間從原本的1小時被縮短到了5分鐘。

這意味著對于長時間工作的程序員來說，你剛才跟Claude說的話，5分鐘后它就忘了。為了繼續工作，你需要重新上傳上下文。

這不僅增加了延遲，更讓用戶的Token消耗量激增，使得一些訂閱用戶開始觸及以前從未遇到的使用上限。

Anthropic工程師賈里德·薩姆納（Jarred Sumner）承認了3月6日的這一改變，但辯稱這是為了持續的緩存優化工作而不是暗中降級。在開發者眼中，這無異于證實了官方確實在后臺積極調整緩存行為，而這正是大家抱怨配額消耗過快的時間段。

不管是Claude變笨也好變貴也罷，Reddit網友raven2cz的說辭堪稱一語中的。

這兩大問題也就是額度限制和思考能力下降都與基礎設施過載密切相關，去GitHub上看看就知道了，成千上萬的用戶現在都在面臨類似的問題，這情況感覺就像一年半前GPT發布新模型時一樣。

網友Wickywire則分析了其中的根本原因，Anthropic在兩個月內日活用戶從400萬漲到了1100萬，他們完全沒有準備并不得不全天候連軸轉去拼命擴容，這就是所謂削弱的真相。你去對時間線，和二三月份發生的事完全吻合。

這里沒有任何隱藏的意圖，只是一個經歷增長之痛的公司，硬件與能源的瓶頸是真實且證據確鑿的。

我們知道原因所在且它們都是結構性的，所以解決辦法也確實有限，在Reddit上反復糾結毫無意義。

這位網友給出的解決方法倒是立竿見影且切實可行，如果你覺得Claude表現不佳可以試試在非高峰時段使用，如果不行換別家AI服務商也行，反正又不是沒有選擇，真是受夠了那些在論壇上抱怨使用量和性能下降的人了。

六、結語：信任危機比變笨更可怕

目前的局面是，用戶在描述體感，而Anthropic在描述參數。

用戶覺得它變笨了且任務失敗了，官方則表示沒有動權重，只是改了默認努力值與縮短了緩存以及調整了前端顯示并公開披露過。

這兩種描述其實并不矛盾，在AI領域即便公司認為自己沒有在底層削弱模型，但微妙的設置變化和配額限制，對全天候依賴它的開發者來說體驗上與變笨毫無二致。

當開發者開始懷疑一個工具的穩定性時，這種信任的裂痕是極難修復的。

尤其是在強敵環伺的當下，OpenAI的Codex正在步步緊逼，它憑借更穩定的算力輸出與靈活的中階訂閱及全新的交互功能，精準收割失望的開發者。

第三方開發者調研工具顯示，自今年3月底Claude降智傳聞發酵以來，Codex及其相關插件的周新增用戶量環比增長了約22%。

如果Anthropic無法在節省算力成本與維持深度推理之間找到真正的平衡點，那么Claude辛辛苦苦建立起的口碑恐怕將在這場風波中受到考驗。

有老用戶所說，我寧愿付兩倍的錢買一個聰明的Claude，也不愿花同樣的錢買一個只會說道歉并要求更多信息的笨蛋。

這場AI界的性能拉鋸戰才剛剛開始。

本文來源：網易智能責任編輯：王鳳枝_NT2541

相關推薦

熱點推薦

一個CLAUDE.md霸榜GitHub第一！蒸餾自Karpathy，6萬碼農抄作業

新智元 2026-04-20 15:10:13
232 跟貼 232
更新越頻繁，Claude Code與Codex越像

機器之心Pro 2026-04-20 10:12:15
2 跟貼 2

如何正確Vibe Coding?這是來自Anthropic編程智能體負責人大師課

機器之心Pro 2026-04-20 15:27:46
0 跟貼 0

張雪沒有一句廢話，直截了當，真的是一個大家庭

小絨花 2026-04-19 17:05:27
1 跟貼 1
短短10年，計算機專業不香了？

司徒微時光 2026-04-20 12:58:36
8 跟貼 8

Claude Code 源碼泄露了，有人用Python復刻了一個極簡版

機器之心Pro 2026-04-02 11:30:10
4 跟貼 4

機器人參賽馬拉松，程序員抱著電腦猛追

BRTV新聞 2026-04-19 03:18:13
2179 跟貼 2179
Qwen3.6超大杯來了！我用這個“半成品”模型，親手造了一個macOS桌面

智東西 2026-04-20 19:08:36
3 跟貼 3

大廠程序員失業一年，離婚率高達90%？

燈錦年 2026-04-20 16:52:48
61 跟貼 61
AI斬殺線，Anthropic還要制造多少條？

鈦媒體APP 2026-04-20 14:23:11
0 跟貼 0
程序員追不上機器人干脆開電瓶車跟

瀟湘晨報 2026-04-19 15:42:14
0 跟貼 0
36歲程序員被裁失業，曾經年薪五十萬如今慘遭家人嫌棄！

燈錦年 2026-04-20 15:28:08
13 跟貼 13
機器人操練測試時工程師在后面費腦又費腿網友：沒想到程序員還是個體力活

重慶城市TV 2026-04-18 14:45:13
17 跟貼 17
解放軍133號艦艇編隊從橫當水道進入太平洋專家解讀

環球網資訊 2026-04-20 12:17:06
156 跟貼 156
山城奇緣：28歲佳人豪禮相送，25歲程序員喜獲金磚

望藝 2026-04-20 08:36:38
0 跟貼 0
靈光做了一個“AI應用版GitHub”，但重點不在代碼

智東西 2026-04-20 12:48:18
0 跟貼 0
豆包做PPT絕了！一句話生成，可編輯、下載，辦公效率翻10倍！

秋葉excel 2026-04-17 11:36:13
0 跟貼 0
寧波男子收到陌生賬號轉賬8萬余元，三天后奢侈品牌商家找來：員工誤將其收款碼給客戶

齊魯壹點 2026-04-20 07:19:18
1491 跟貼 1491
游戲AI的"操作系統"野心：GrowHouse在造什么

Ping值焦慮 2026-04-20 09:21:49
0 跟貼 0
程序員：好消息是我的代碼能跑了，壞消息是我跑不過我的代碼

重慶頭條官方 2026-04-19 20:24:03
0 跟貼 0
法國通過文物歸還法案敦煌藏經洞文物就能回歸嗎

澎湃新聞 2026-04-20 08:08:29
11257 跟貼 11257
這個152星項目，把PPT工程師逼到墻角

我是一個養蝦人 2026-04-19 12:00:03
0 跟貼 0
教你如何一個人用AI做仙俠短劇

AK007設計師 2026-04-16 20:39:58
0 跟貼 0
靈光把手搓應用做成「朋友圈」，一人應用時代來了

36氪 2026-04-20 16:01:07
0 跟貼 0
梁文鋒，坐不住了

虎嗅APP 2026-04-20 17:18:44
0 跟貼 0
驗資3000萬每日預約名單仍排滿，高凈值人群“排隊”看房，4月的杭州樓市是高端局

都市快報橙柿互動 2026-04-20 14:35:53
121 跟貼 121
從Vibe Coding到Wish Coding，AI編程迎來C端拐點

機器之心Pro 2026-04-20 14:17:56
1 跟貼 1
Anthropic CEO：如果我是25歲，不會選編程，會選

機器之心Pro 2026-04-18 12:00:00
0 跟貼 0
網友偶遇白發大姨在店里敲代碼，果然70歲正是打拼的時候

趣閃玩家 2026-04-18 12:36:57
0 跟貼 0
一篇西班牙語文藝散文，Medium怎么敢推給程序員？

心事寄山海 2026-04-20 16:00:11
0 跟貼 0
90%出租率仍被漲租逼退：麗柏廣場招拍掛背后的環市東商圈之困

新快報新聞 2026-04-20 17:53:06
29 跟貼 29
快檢查自家陽臺！有人家里已大量出現，官方提醒：千萬別摸

環球網資訊 2026-04-18 16:23:18
609 跟貼 609
媒體：日方有一種陰毒"戰略" 在自衛隊宣揚未來再侵華

新民周刊 2026-04-20 09:08:09
2298 跟貼 2298
保價2000元機蓋運輸中損壞，德邦理賠只肯賠1300元；車主：我不要錢了，你賠我一個機蓋總可以吧

大風新聞 2026-04-20 19:12:04
69 跟貼 69
當老板與員工展開“蒸餾”對抗

經濟觀察報 2026-04-18 17:48:45
21 跟貼 21
男子爬上泰山“五岳獨尊”石刻拍照，景區：將核查其身份進行處理

揚子晚報 2026-04-17 12:09:40
1288 跟貼 1288
深圳一火鍋店招985和211大學應屆生儲備店長，從服務員做起，門店負責人：本科生就行，已有985管培生

極目新聞 2026-04-20 14:14:59
274 跟貼 274
OpenClaw 飛書遠程連接教程｜1分鐘解鎖 CLI 插件高級功能

知了3C 2026-04-17 20:41:36
0 跟貼 0
高峰期作業、粗暴噴灑！深圳市民吐槽灑水車成 “擾民車”

南方都市報 2026-04-20 23:12:18
41 跟貼 41
阿聯酋被曝向美國尋求戰時金融支持否則恐以其他貨幣結算石油

財聯社 2026-04-20 10:04:07
254 跟貼 254

網易新聞

iOS

Android

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

數碼

健康

教育

時尚

軍事航空

手機 / 數碼

房產 / 家居

最強編程AI被指降智！網友吵翻天，官方緊急回應被群嘲：縮水也叫優化？

HUAWEI Pura X Max發布 售價10999元起

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

19歲女孩挪用自家1700萬當"榜一大姐" 親爹帶女兒自首

阿森納已拼盡全力，但你早干嘛去了...

《八千里路云和月》田家泰暗殺

利潤暴跌7成，字節到底在做什么

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

REDMI 顯示器 G Pro 27U 2026輕體驗：電競利器 桌面上的“小鋼炮”

干細胞抗衰4大誤區,90%的人都中招

問答環節：接受不完美，是最好的自愈

春天衣服不用準備太多！這幾大單品提前備好，百搭實用又不過時

特朗普:美艦向伊朗貨船開火炸出個洞

HUAWEI Pura X Max發布售價10999元起

把天門山搬進廠?開仰望U8沖上45度坡的那刻我腿軟了

REDMI 顯示器 G Pro 27U 2026輕體驗：電競利器桌面上的“小鋼炮”