Anthropic旗下AI編程工具Claude Code遭遇嚴重口碑危機。來自AMD的AI總監在GitHub官方倉庫公開提交問題報告,基于對數萬條會話日志的量化分析,指控Claude Code自今年2月起出現系統性能力退化,思考深度驟降67%,模型行為全面走樣。這一報告迅速在開發者社區引爆討論,將Anthropic推上輿論風口。
提交這份分析報告的是AMD的AI團隊負責人Stella Laurenzo。她在GitHub官方倉庫直接開Issue,措辭嚴峻:"Claude已無法被信任來執行復雜工程任務。"她表示,團隊已切換至其他服務商,并警告Anthropic:"6個月前,Claude在推理質量和執行能力上獨樹一幟。但現在,其他競爭者需要被非常認真地關注和評估。"
![]()
這一Issue在Hacker News上迅速發酵,獲得975點支持和548條評論,成為近期Claude Code相關討論中熱度最高的帖子之一。網友評論直指問題核心——"ClaudeCode曾經像一個聰明的結對編程伙伴,現在感覺像一個過于熱情的實習生,不停地把事情搞砸,然后建議最簡單的臨時方案";"最近總跟我說'你該去睡覺了。太晚了,今天就到這吧'這類話,一開始我還以為是我不小心讓Claude知道了我的deadline。"
Anthropic對此作出回應。Claude Code團隊成員Boris出面澄清,稱思考內容隱藏功能(redact-thinking)僅為界面層面的改動,"不會影響模型內部實際的推理邏輯本身,也不會影響思考預算或底層推理運行機制"。
他同時承認,團隊在2月進行了兩項實質性調整:一是2月9日隨Opus 4.6發布引入"自適應思考"(adaptive thinking)機制;二是3月3日將默認effort等級從高調整為中等(Medium)。Boris建議用戶通過/effort high指令或修改配置文件手動恢復高強度思考模式。
然而,這一解釋并未平息社區質疑。多位開發者表示,即便將effort調至最高,"急于完成任務"的擺爛行為依然存在。用戶richardjennings稱:
"在輸出質量斷崖式下跌之前,我完全不知道默認effort已經被改成了Medium。為了糾正這些問題,我大概花了一整天的工作時間。"數據實錘:思考深度驟降,行為全面走樣
Laurenzo的分析基于其團隊在~/.claude/projects/目錄下積累的6852個Claude Code會話JSONL文件,覆蓋17871個思考塊、234760次工具調用及18000余條用戶提示詞,時間跨度從2026年1月底延伸至4月初,全程使用Anthropic官方API直連Opus模型。
![]()
數據揭示了一條清晰的退化時間線。在1月30日至2月8日的"優質期",Claude Code的思考深度中位值約為2200字符;到2月下旬,這一數字暴跌至約720字符,降幅達67%;3月初進一步縮水至約560字符,降幅達75%。
![]()
思考深度的崩塌直接引發了工具使用模式的根本性轉變。在優質期,Claude Code修改代碼前的"讀改比"(每次編輯前的文件讀取次數)高達6.6,遵循"先研究再修改"的嚴謹工作流。而到3月8日之后的"退化期",這一比率驟降至2.0,研究投入減少約70%。更觸目驚心的是,退化期內每三次代碼修改中,就有一次是在未讀取目標文件的情況下直接進行的——這直接導致代碼被插入錯誤位置、注釋語義關聯被破壞等低級錯誤頻發。
![]()
行為層面的量化指標同樣觸目驚心。用于捕捉"推諉責任、提前終止、請求許可"等不良行為的終止鉤子腳本(stop-phrase-guard.sh),在3月8日之前從未觸發;而在此后17天內,觸發次數飆升至173次,平均每天10次。用戶提示詞中的負面情緒占比從5.8%升至9.8%,漲幅68%;用戶中斷率(即用戶發現模型犯錯并強行終止的頻率)從優質期到后期飆升了12倍。
![]()
![]()
隱藏的"思考內容隱藏"功能:退化被刻意遮蔽?
Laurenzo的分析指出,上述退化與一項名為redact-thinking-2026-02-12的功能部署時間線高度吻合。數據顯示,該功能從3月5日開始灰度上線(1.5%),至3月10日至11日已覆蓋逾99%的請求,3月12日起全量生效。
這一功能的作用是在API響應中剝離思考內容,使用戶無法從外部觀察模型的實際推理過程。Laurenzo認為,這一設計客觀上使思考深度的退化對用戶變得不可見——"3月初上線的隱藏功能,只是讓這一退化對用戶變得不可見。
她進一步指出,思考深度的下降實際上早于該功能上線,在2月中旬便已開始。這與Anthropic在2月9日推出Opus 4.6并引入"自適應思考"(adaptive thinking)模式,以及3月3日將默認思考等級調整為"Medium effort"(effort=85)的時間節點相吻合。
報告還發現,思考深度在隱藏功能上線后呈現出明顯的時段波動特征——太平洋時間17:00(美國西海岸下班時段)是全天最差時段,中位估算思考深度僅423字符;19:00為第二差時段,僅373字符。
![]()
這一模式與固定預算分配不符,更接近負載敏感型動態分配系統的特征,暗示思考資源可能隨平臺負載實時波動。
Anthropic官方回應:設置問題,非模型退化
面對GitHub議題的快速發酵,Claude Code團隊成員Boris在數小時內于GitHub和Hacker News雙平臺作出回應,承認了部分問題的存在并提供了技術解釋。
Boris的核心澄清包括:
- 第一、思考內容隱藏功能(redact-thinking)屬于UI層改動,不影響實際推理過程,用戶可通過settings.json中的showThinkingSummaries: true選項恢復顯示;
- 第二、2月下旬的思考深度下降,主要與2月9日Opus 4.6引入自適應思考機制(adaptive thinking)以及3月3日默認effort等級調整為中等有關,前者可通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1關閉,后者可通過/effort high或/effort max手動提升。
Boris還表示,團隊計劃測試將Teams和Enterprise用戶的默認effort等級調整為高,并正在就部分用戶反映的自適應思考機制在特定輪次分配推理不足的問題展開調查。
然而,這一解釋在社區中引發廣泛質疑。用戶koverstreet回應稱:
"問題遠不止是默認思考等級被改成了中等。即便把effort調到最高,模型'急于完成任務'的擺爛行為也明顯變多了。"
還有用戶直接指出,原始報告的提交者在提交時已采用了所有已知的公開設置,問題并非配置不當。一位用戶提出諷刺性反問:
"這是一種什么精神——告訴用戶'你們調錯設置了'"。成本雪崩與用戶出走
退化帶來的代價不僅是質量損失,更引發了成本的災難性膨脹。
Laurenzo的數據顯示,從2月到3月,其團隊的用戶提示詞數量幾乎持平(5608條 vs 5701條),但API請求量暴漲80倍,總輸入token增長170倍,輸出token增長64倍,按Bedrock Opus定價估算的月度成本從345美元飆升至42121美元,漲幅達122倍。
![]()
Laurenzo解釋,成本暴漲部分源于團隊主動擴容并發Agent數量,但退化本身造成的無效循環、頻繁中斷和重試,使每單位有效工作消耗的API請求量額外放大了8至16倍。團隊最終被迫關停整個Agent集群,退回到單會話人工監督模式。Laurenzo寫道:
"人類投入的工作量幾乎沒變,但模型消耗了80倍的API請求和64倍的輸出token,卻產出了明顯更差的結果。"
在Hacker News的討論中,大量用戶表達了類似遭遇,部分人已宣布切換至OpenAI Codex或其他替代方案。"我已經取消了訂閱,切換到了Codex";"現在用Qwen3.5-27b,雖然不如兩個月前的Opus那么鋒利,但我們又能正常推進工作了。"
用戶自救:臨時應對方案
面對退化,部分開發者已摸索出若干臨時應對策略。
在CLAUDE.md中明確授權是最常見的做法——通過在項目根目錄的配置文件中寫入"你有權編輯本項目任何文件""不要在重構時請求確認"等指令,可在實踐中將安全中斷頻率降低約70%。
將復雜任務拆解為邊界清晰的子任務,也被廣泛驗證有效。相比"重構整個認證系統","僅重構auth.js,完成后輸出變更摘要"這類有明確邊界的指令,能顯著減少模型的提前終止行為。
在設置層面,將effort調至high或max,并通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1禁用自適應思考,是目前官方認可的最直接干預手段。
Laurenzo則在報告中提出了更系統性的訴求:Anthropic應公開思考token的分配情況,推出面向復雜工程工作流的"滿額思考"專屬訂閱檔位,并在API響應中暴露thinking_tokens字段,讓用戶能夠自主監控推理深度是否達標。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.