337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Claude Code 更新后“翻車”,思考深度驟降67%,“無法再信任其處理復雜工程任務”!

0
分享至

Anthropic旗下AI編程工具Claude Code遭遇嚴重口碑危機。來自AMD的AI總監在GitHub官方倉庫公開提交問題報告,基于對數萬條會話日志的量化分析,指控Claude Code自今年2月起出現系統性能力退化,思考深度驟降67%,模型行為全面走樣。這一報告迅速在開發者社區引爆討論,將Anthropic推上輿論風口。

提交這份分析報告的是AMD的AI團隊負責人Stella Laurenzo。她在GitHub官方倉庫直接開Issue,措辭嚴峻:"Claude已無法被信任來執行復雜工程任務。"她表示,團隊已切換至其他服務商,并警告Anthropic:"6個月前,Claude在推理質量和執行能力上獨樹一幟。但現在,其他競爭者需要被非常認真地關注和評估。"


這一Issue在Hacker News上迅速發酵,獲得975點支持和548條評論,成為近期Claude Code相關討論中熱度最高的帖子之一。網友評論直指問題核心——"ClaudeCode曾經像一個聰明的結對編程伙伴,現在感覺像一個過于熱情的實習生,不停地把事情搞砸,然后建議最簡單的臨時方案";"最近總跟我說'你該去睡覺了。太晚了,今天就到這吧'這類話,一開始我還以為是我不小心讓Claude知道了我的deadline。"

Anthropic對此作出回應。Claude Code團隊成員Boris出面澄清,稱思考內容隱藏功能(redact-thinking)僅為界面層面的改動,"不會影響模型內部實際的推理邏輯本身,也不會影響思考預算或底層推理運行機制"。

他同時承認,團隊在2月進行了兩項實質性調整:一是2月9日隨Opus 4.6發布引入"自適應思考"(adaptive thinking)機制;二是3月3日將默認effort等級從高調整為中等(Medium)。Boris建議用戶通過/effort high指令或修改配置文件手動恢復高強度思考模式。

然而,這一解釋并未平息社區質疑。多位開發者表示,即便將effort調至最高,"急于完成任務"的擺爛行為依然存在。用戶richardjennings稱:

"在輸出質量斷崖式下跌之前,我完全不知道默認effort已經被改成了Medium。為了糾正這些問題,我大概花了一整天的工作時間。"
數據實錘:思考深度驟降,行為全面走樣

Laurenzo的分析基于其團隊在~/.claude/projects/目錄下積累的6852個Claude Code會話JSONL文件,覆蓋17871個思考塊、234760次工具調用及18000余條用戶提示詞,時間跨度從2026年1月底延伸至4月初,全程使用Anthropic官方API直連Opus模型。


數據揭示了一條清晰的退化時間線。在1月30日至2月8日的"優質期",Claude Code的思考深度中位值約為2200字符;到2月下旬,這一數字暴跌至約720字符,降幅達67%;3月初進一步縮水至約560字符,降幅達75%。


思考深度的崩塌直接引發了工具使用模式的根本性轉變。在優質期,Claude Code修改代碼前的"讀改比"(每次編輯前的文件讀取次數)高達6.6,遵循"先研究再修改"的嚴謹工作流。而到3月8日之后的"退化期",這一比率驟降至2.0,研究投入減少約70%。更觸目驚心的是,退化期內每三次代碼修改中,就有一次是在未讀取目標文件的情況下直接進行的——這直接導致代碼被插入錯誤位置、注釋語義關聯被破壞等低級錯誤頻發。


行為層面的量化指標同樣觸目驚心。用于捕捉"推諉責任、提前終止、請求許可"等不良行為的終止鉤子腳本(stop-phrase-guard.sh),在3月8日之前從未觸發;而在此后17天內,觸發次數飆升至173次,平均每天10次。用戶提示詞中的負面情緒占比從5.8%升至9.8%,漲幅68%;用戶中斷率(即用戶發現模型犯錯并強行終止的頻率)從優質期到后期飆升了12倍。



隱藏的"思考內容隱藏"功能:退化被刻意遮蔽?

Laurenzo的分析指出,上述退化與一項名為redact-thinking-2026-02-12的功能部署時間線高度吻合。數據顯示,該功能從3月5日開始灰度上線(1.5%),至3月10日至11日已覆蓋逾99%的請求,3月12日起全量生效。

這一功能的作用是在API響應中剝離思考內容,使用戶無法從外部觀察模型的實際推理過程。Laurenzo認為,這一設計客觀上使思考深度的退化對用戶變得不可見——"3月初上線的隱藏功能,只是讓這一退化對用戶變得不可見。

她進一步指出,思考深度的下降實際上早于該功能上線,在2月中旬便已開始。這與Anthropic在2月9日推出Opus 4.6并引入"自適應思考"(adaptive thinking)模式,以及3月3日將默認思考等級調整為"Medium effort"(effort=85)的時間節點相吻合。

報告還發現,思考深度在隱藏功能上線后呈現出明顯的時段波動特征——太平洋時間17:00(美國西海岸下班時段)是全天最差時段,中位估算思考深度僅423字符;19:00為第二差時段,僅373字符。


這一模式與固定預算分配不符,更接近負載敏感型動態分配系統的特征,暗示思考資源可能隨平臺負載實時波動。

Anthropic官方回應:設置問題,非模型退化

面對GitHub議題的快速發酵,Claude Code團隊成員Boris在數小時內于GitHub和Hacker News雙平臺作出回應,承認了部分問題的存在并提供了技術解釋。

Boris的核心澄清包括:

  • 第一、思考內容隱藏功能(redact-thinking)屬于UI層改動,不影響實際推理過程,用戶可通過settings.json中的showThinkingSummaries: true選項恢復顯示;
  • 第二、2月下旬的思考深度下降,主要與2月9日Opus 4.6引入自適應思考機制(adaptive thinking)以及3月3日默認effort等級調整為中等有關,前者可通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1關閉,后者可通過/effort high或/effort max手動提升。

Boris還表示,團隊計劃測試將Teams和Enterprise用戶的默認effort等級調整為高,并正在就部分用戶反映的自適應思考機制在特定輪次分配推理不足的問題展開調查。

然而,這一解釋在社區中引發廣泛質疑。用戶koverstreet回應稱:

"問題遠不止是默認思考等級被改成了中等。即便把effort調到最高,模型'急于完成任務'的擺爛行為也明顯變多了。"

還有用戶直接指出,原始報告的提交者在提交時已采用了所有已知的公開設置,問題并非配置不當。一位用戶提出諷刺性反問:

"這是一種什么精神——告訴用戶'你們調錯設置了'"。
成本雪崩與用戶出走

退化帶來的代價不僅是質量損失,更引發了成本的災難性膨脹。

Laurenzo的數據顯示,從2月到3月,其團隊的用戶提示詞數量幾乎持平(5608條 vs 5701條),但API請求量暴漲80倍,總輸入token增長170倍,輸出token增長64倍,按Bedrock Opus定價估算的月度成本從345美元飆升至42121美元,漲幅達122倍。


Laurenzo解釋,成本暴漲部分源于團隊主動擴容并發Agent數量,但退化本身造成的無效循環、頻繁中斷和重試,使每單位有效工作消耗的API請求量額外放大了8至16倍。團隊最終被迫關停整個Agent集群,退回到單會話人工監督模式。Laurenzo寫道:

"人類投入的工作量幾乎沒變,但模型消耗了80倍的API請求和64倍的輸出token,卻產出了明顯更差的結果。"

在Hacker News的討論中,大量用戶表達了類似遭遇,部分人已宣布切換至OpenAI Codex或其他替代方案。"我已經取消了訂閱,切換到了Codex";"現在用Qwen3.5-27b,雖然不如兩個月前的Opus那么鋒利,但我們又能正常推進工作了。"

用戶自救:臨時應對方案

面對退化,部分開發者已摸索出若干臨時應對策略。

在CLAUDE.md中明確授權是最常見的做法——通過在項目根目錄的配置文件中寫入"你有權編輯本項目任何文件""不要在重構時請求確認"等指令,可在實踐中將安全中斷頻率降低約70%。

將復雜任務拆解為邊界清晰的子任務,也被廣泛驗證有效。相比"重構整個認證系統","僅重構auth.js,完成后輸出變更摘要"這類有明確邊界的指令,能顯著減少模型的提前終止行為。

在設置層面,將effort調至high或max,并通過CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1禁用自適應思考,是目前官方認可的最直接干預手段。

Laurenzo則在報告中提出了更系統性的訴求:Anthropic應公開思考token的分配情況,推出面向復雜工程工作流的"滿額思考"專屬訂閱檔位,并在API響應中暴露thinking_tokens字段,讓用戶能夠自主監控推理深度是否達標。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

騙走50億!用小鮮肉的血抗衰,被央視曝光的“撈金女王”,真栽了

許三歲
2026-04-07 13:28:38
中日車企對決泰國車展,日系車被干沉默了

中日車企對決泰國車展,日系車被干沉默了

財經老莊
2026-04-07 06:25:54
伊朗接受巴基斯坦提出的停火提議

伊朗接受巴基斯坦提出的停火提議

環球網資訊
2026-04-08 07:11:11
贏福建9分!遼寧隊還有3大收獲,烏戈樂開了花

贏福建9分!遼寧隊還有3大收獲,烏戈樂開了花

體育哲人
2026-04-07 23:22:02
為何這么激動?賽后烏戈一口氣表揚和感激了4名隊員,一人反復夸

為何這么激動?賽后烏戈一口氣表揚和感激了4名隊員,一人反復夸

南海浪花
2026-04-08 07:32:17
孔帕尼:整場比賽感覺像是在刀尖上,可能隨時會向一方傾斜

孔帕尼:整場比賽感覺像是在刀尖上,可能隨時會向一方傾斜

懂球帝
2026-04-08 08:34:03
國羽亞錦賽爆冷!全英冠軍退賽混雙衛冕冠軍出局,馮彥哲釋疑減重

國羽亞錦賽爆冷!全英冠軍退賽混雙衛冕冠軍出局,馮彥哲釋疑減重

排球黃金眼
2026-04-07 23:51:04
17分大逆轉,騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強勢自證

17分大逆轉,騎士鎖定前四!哈登攜5人缺陣施羅德22+11助強勢自證

鍋子籃球
2026-04-07 12:35:32
顧順章叛變后,直接出賣了四個負責人,第一個就讓整個中統傻了眼

顧順章叛變后,直接出賣了四個負責人,第一個就讓整個中統傻了眼

冰語歷史
2026-04-08 00:16:01
災難!拜仁巨星全場擺爛,安聯王牌親手送皇馬生機

災難!拜仁巨星全場擺爛,安聯王牌親手送皇馬生機

瀾歸序
2026-04-08 06:00:16
朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

朝鮮兩名高官發動兵變為張成澤報仇,因細節敗露,金正恩一招鎮壓

阿胡
2024-04-30 11:48:45
密歇根大學NCAA奪冠!四大主力都將會是今年NBA首輪秀?

密歇根大學NCAA奪冠!四大主力都將會是今年NBA首輪秀?

仰臥撐FTUer
2026-04-07 12:22:05
香蕉被點名!醫生提醒:高血糖患者常吃香蕉,很快或迎來這些后果

香蕉被點名!醫生提醒:高血糖患者常吃香蕉,很快或迎來這些后果

白話電影院
2026-04-07 20:07:56
誰能被稱為“黨的創始人”,僅此12人!

誰能被稱為“黨的創始人”,僅此12人!

兵卒史
2026-03-22 08:43:17
最懂蔣介石的侍衛長晚年直言:蔣最大的失誤,就是接受雅爾塔協定

最懂蔣介石的侍衛長晚年直言:蔣最大的失誤,就是接受雅爾塔協定

浩渺青史
2026-04-07 18:33:32
利物浦血虧!7500 萬歐棄將伯納烏封神,紅軍腸子都悔青了

利物浦血虧!7500 萬歐棄將伯納烏封神,紅軍腸子都悔青了

瀾歸序
2026-04-08 05:16:19
特朗普“首次承認被黑吃黑”,被點名的庫爾德火速否認三連

特朗普“首次承認被黑吃黑”,被點名的庫爾德火速否認三連

觀察者網
2026-04-07 14:42:00
這下嚴重了!三大運營商2025年移動A...

這下嚴重了!三大運營商2025年移動A...

新浪財經
2026-04-07 20:10:59
車主福音!交管12123大更新,違章不拖沓,4次免罰到底能不能用?

車主福音!交管12123大更新,違章不拖沓,4次免罰到底能不能用?

周哥一影視
2026-04-08 06:33:14
銀行被炸,導致伊朗軍方工資無法發放

銀行被炸,導致伊朗軍方工資無法發放

桂系007
2026-04-05 23:37:29
2026-04-08 09:03:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
144202文章數 2653151關注度
往期回顧 全部

科技要聞

造出地表最強AI,卻死活不給你用!

頭條要聞

鄭麗文表態:感謝大陸熱情接待 國民黨堅持"九二共識"

頭條要聞

鄭麗文表態:感謝大陸熱情接待 國民黨堅持"九二共識"

體育要聞

科特迪瓦中場卡迪爾-凱塔被控過失殺人罪,面臨九年以上監禁

娛樂要聞

女首富陳麗華離世 被曝生前已分好遺產

財經要聞

特朗普同意停火兩周 伊朗:接受停火提議

汽車要聞

不止是大 極狐首款MPV問道V9靜態體驗

態度原創

藝術
數碼
手機
游戲
軍事航空

藝術要聞

鄭麗文書法爭議:她的字真的不是自己寫的嗎?

數碼要聞

售價413元!蘋果官網上架iPhone斜挎包:可放置AirTag追蹤器

手機要聞

古爾曼:蘋果可折疊iPhone Fold仍按計劃于9月推出

《Swords & Slippers》新視頻 大雷妹子激情

軍事要聞

文化符號當“彈藥” 美伊將信息戰帶入新階段

無障礙瀏覽 進入關懷版