337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Anthropic團隊把1個指標當心跳監(jiān)測

0
分享至


你的Claude賬單可能比鄰居貴9倍,而你們用的明明是同一套代碼。

這話不是我說的。Anthropic的Claude Code團隊上周在推特上丟了個炸彈:他們把「提示緩存命中率」當成產(chǎn)品生命線來監(jiān)控,掉一點就全員緊急響應。不是優(yōu)化項,不是省錢技巧——是承重墻。塌了,整個產(chǎn)品就埋在里面。

我花了兩周才搞懂這玩意。當時盯著Stripe后臺,測試環(huán)境燒積分的速度像小孩拿著生日禮品卡在GameStop橫沖直撞。后來才發(fā)現(xiàn),同一套對話邏輯,調(diào)對緩存能便宜90%。

緩存命中 vs 未命中:一場90%成本的差距

每次調(diào)用Claude API,系統(tǒng)會檢查你的提示前綴是否處理過。命中:便宜10倍,快85%。未命中:原價,原速。

這個「前綴」不是隨便什么開頭都行。必須是完全一致的token序列,從第一個字符到最后一個空格,差一個標點都算miss。Anthropic內(nèi)部管這叫「KV緩存」——模型預填充階段算好的鍵值張量,存下來復用,避免每次從零開始。

他們的團隊口號是「Cache Rules Everything Around Me」。玩的是Wu-Tang Clan的梗,把「Cash」換成「KV tensors」。能量一樣,貨幣不同。無視這條的代價也一樣:掏錢。

但問題是,大多數(shù)開發(fā)者根本不知道自己在用緩存,更不知道自己的寫法正在親手打破它。

你的提示是怎么被「肢解」的

每次調(diào)用Claude,提示由四層堆疊而成:

第一層:系統(tǒng)提示(system prompt),通常幾千token,定義角色和能力邊界。第二層:工具定義(tool definitions),每個工具的描述、參數(shù)、返回值格式。第三層:多輪對話歷史,用戶和助手的往返記錄。第四層:當前用戶輸入。

沒有緩存時,Claude像條金魚——每次都要把整本書從頭讀起。8000token的系統(tǒng)提示?重算。15個工具定義?重算。前面40輪對話?全部歸零。

緩存的機制是:把前N個token的KV張量存起來,下次只要前綴匹配,直接從斷點續(xù)傳。這個N在Anthropic的文檔里寫得清楚,但很多人沒讀,或者讀了沒懂。

我的Convex項目是個典型案例。6000token系統(tǒng)提示,12個工具定義(Clerk認證、Supabase查詢、幾個自定義動作),典型對話15-20輪。調(diào)通緩存后,20輪對話的成本對比是:9倍差距。1000次對話/天的話,1350美元/月 vs 150美元/月。

開發(fā)者正在犯的5種「緩存自殺」行為

第一種:動態(tài)時間戳。有人在系統(tǒng)提示里塞了「當前時間是{{timestamp}}」。每次調(diào)用都變,緩存永遠miss。解決方式是把時間塞進用戶消息的最后一層,別讓前綴沾上動態(tài)內(nèi)容。


第二種:隨機ID。調(diào)試時生成的request_id、trace_id,順手寫進系統(tǒng)提示。結果每次請求都是全新前綴。日志和提示分離,這是基本功。

第三種:工具定義亂序。Python字典的遍歷順序不保證穩(wěn)定,工具列表每次shuffle一下,緩存就失效。顯式排序,或者干脆用數(shù)組。

第四種:對話歷史截斷策略不一致。有時候截最后10輪,有時候按token數(shù)截,有時候保留系統(tǒng)消息但去掉用戶消息。截斷點一變,前綴就變。策略必須固定、可預測。

第五種:環(huán)境變量泄露。把NODE_ENV、DEBUG_MODE這種每次部署可能變的值寫進提示。開發(fā)和生產(chǎn)環(huán)境的分支差異,會讓同一套代碼在不同地方產(chǎn)生不同的緩存鍵。

這些錯誤我全犯過。最諷刺的是,你越是「嚴謹」地在提示里塞滿上下文,越容易把緩存打碎。

為什么Anthropic敢把這事公開

緩存命中率是基礎設施的脈搏,但他們選擇推特 casually 講出來,而不是藏進付費文檔。這本身就是個信號。

競爭對手也在做提示緩存。OpenAI有類似機制,Google的Gemini也有。但Anthropic是第一個把「我們內(nèi)部怎么監(jiān)控這事」抖出來的。這意味著兩層意思:一是他們已經(jīng)把緩存層做到足夠穩(wěn)定,不怕你知道;二是他們希望生態(tài)里的開發(fā)者別再用錯,否則整個平臺的成本結構都會被拖累。

一個冷知識:Claude Code的IDE集成里,每次你按Cmd+K或者讓AI改代碼,背后都是一連串API調(diào)用。如果緩存設計得當,這些調(diào)用的邊際成本趨近于零。設計不當,每次tab補全都在燒錢。

他們的團隊說,當緩存命中率掉的時候,「suddenly everyone cares about infrastructure」。平時沒人想看的監(jiān)控面板,那一刻成了全公司最熱鬧的頁面。這種文化很有意思——不是SLA驅動,是成本脈沖驅動。

怎么驗證你的緩存有沒有生效

API響應里有個字段叫cache_creation_input_tokens和cache_read_input_tokens。前者是首次寫入緩存的token數(shù),后者是命中緩存復用的token數(shù)。理想情況下,后者應該遠大于前者,尤其是在對話進行中。

如果你看到cache_read_input_tokens始終是0,說明你的前綴設計有問題。常見原因:系統(tǒng)提示里有動態(tài)內(nèi)容,或者你的對話歷史拼接方式每次都在變。

另一個指標是latency。命中緩存的響應,首token時間(TTFT)會明顯快于未命中。Anthropic官方數(shù)據(jù)是85%加速,實際體驗中,大提示的差距更明顯。

我的建議是:先做一個最小復現(xiàn)。固定系統(tǒng)提示,固定工具定義,發(fā)10輪完全相同的用戶消息??碿ache_read_input_tokens是否在第二輪開始增長。如果不增長,逐層排查哪一部分在抖動。

這件事的門檻在于,緩存是「全有或全無」的。前綴匹配度99%和0%的結果一樣:都算miss。沒有近似匹配,沒有模糊容錯。這種設計保證了速度,也放大了開發(fā)者的失誤成本。

Claude Code團隊把這事攤在臺面上,等于給整個行業(yè)遞了張紙條:提示工程的下一張考卷,考的是基礎設施思維。你準備好重新檢查自己的前綴設計了嗎?

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
蕭旭岑說出真相 前清皇室后裔想阻撓兩岸交流!馬英九劍指鄭麗文

蕭旭岑說出真相 前清皇室后裔想阻撓兩岸交流!馬英九劍指鄭麗文

現(xiàn)代小青青慕慕
2026-03-25 14:07:03
“百億賭王”林秉文被槍殺:他當時正在遛狗,槍手突然竄出掃射,據(jù)稱身中29槍!他曾因替知名藝人還債聲名大噪

“百億賭王”林秉文被槍殺:他當時正在遛狗,槍手突然竄出掃射,據(jù)稱身中29槍!他曾因替知名藝人還債聲名大噪

每日經(jīng)濟新聞
2026-03-25 14:09:05
“重大轉變”!外媒:特朗普改變立場,將接受民主黨提議重啟美國土安全部部分部門

“重大轉變”!外媒:特朗普改變立場,將接受民主黨提議重啟美國土安全部部分部門

環(huán)球網(wǎng)資訊
2026-03-25 23:13:02
“上海實體交通卡,為啥退不了?”73歲老伯來滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實難

“上海實體交通卡,為啥退不了?”73歲老伯來滬遭遇引發(fā)質(zhì)疑,記者調(diào)查:確實難

新民晚報
2026-03-25 18:45:33
杭州球場突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號,千萬別硬扛!

杭州球場突發(fā),40歲男子心臟驟停倒地!緊急提醒:有這些信號,千萬別硬扛!

環(huán)球網(wǎng)資訊
2026-03-25 17:34:17
繼母燙幼子下體逼吃大便 姐弟慘遭虐待生母怒討說法

繼母燙幼子下體逼吃大便 姐弟慘遭虐待生母怒討說法

大象新聞
2026-03-25 12:09:04
于東來兒媳首次正面露面,顏值封神,和婆婆馬麗撞臉像復制粘貼

于東來兒媳首次正面露面,顏值封神,和婆婆馬麗撞臉像復制粘貼

往史過眼云煙
2026-03-23 19:27:43
黃天鵝調(diào)查結果出爐:雞蛋未檢測出角黃素,媒體開始譴責王海

黃天鵝調(diào)查結果出爐:雞蛋未檢測出角黃素,媒體開始譴責王海

映射生活的身影
2026-03-25 23:31:05
西甲積分榜:巴薩73分領跑!皇馬69分第2!奧維耶多21分墊底!

西甲積分榜:巴薩73分領跑!皇馬69分第2!奧維耶多21分墊底!

林子說事
2026-03-26 01:59:35
11投狂砍27分+7記三分!這才是聯(lián)盟頂級小前鋒,郭士強真沒看錯人

11投狂砍27分+7記三分!這才是聯(lián)盟頂級小前鋒,郭士強真沒看錯人

老葉評球
2026-03-25 22:06:40
伊朗新最高領袖莫賈塔巴哈梅內(nèi)伊已同意與美國進行談判并達成協(xié)議

伊朗新最高領袖莫賈塔巴哈梅內(nèi)伊已同意與美國進行談判并達成協(xié)議

深度報
2026-03-25 22:47:08
為啥同樣是亞洲人,華裔的差別卻那么明顯?

為啥同樣是亞洲人,華裔的差別卻那么明顯?

言安堂
2026-03-25 07:35:35
FCC把3億臺路由器扔進黑名單,中國廠商連夜改產(chǎn)線

FCC把3億臺路由器扔進黑名單,中國廠商連夜改產(chǎn)線

Ping值焦慮
2026-03-25 13:41:53
估值220億,阿里“親兒子”要IPO

估值220億,阿里“親兒子”要IPO

投資家
2026-03-25 21:15:50
一年流出視頻294部的小寶到底探過多少朵花?

一年流出視頻294部的小寶到底探過多少朵花?

挪威森林
2026-01-25 17:18:42
“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

“老人味”的禍首被揪出!醫(yī)生提醒:55歲后要少碰,老了或也沒味

今日養(yǎng)生之道
2026-03-23 11:46:39
上海市楊浦區(qū)長海路街道黨工委書記、人大工委主任王曉樂被查

上海市楊浦區(qū)長海路街道黨工委書記、人大工委主任王曉樂被查

瀟湘晨報
2026-03-25 20:42:14
1000賽第99勝!萊巴金娜2-1逆轉佩古拉,鎖定邁阿密四強席位

1000賽第99勝!萊巴金娜2-1逆轉佩古拉,鎖定邁阿密四強席位

全景體育V
2026-03-26 06:20:52
東航昨夜一北京飛上海航班,落地后艙內(nèi)現(xiàn)火情,官方通報:系旅客手機掉落座椅縫隙受擠壓冒煙

東航昨夜一北京飛上海航班,落地后艙內(nèi)現(xiàn)火情,官方通報:系旅客手機掉落座椅縫隙受擠壓冒煙

縱相新聞
2026-03-26 01:52:05
法國女生來中國旅游,家人擔心不安全,她回國后:中國讓人意外!

法國女生來中國旅游,家人擔心不安全,她回國后:中國讓人意外!

千秋文化
2026-03-25 21:43:36
2026-03-26 09:39:00
薛定諤的BUG
薛定諤的BUG
有態(tài)度網(wǎng)友ytd
84文章數(shù) 0關注度
往期回顧 全部

科技要聞

硅谷因AI大裁員?一線工程師戳破真相

頭條要聞

舉天價零件發(fā)出靈魂拷問的美官員 自己被大學生質(zhì)問了

頭條要聞

舉天價零件發(fā)出靈魂拷問的美官員 自己被大學生質(zhì)問了

體育要聞

35歲替補門將,憑什么入選英格蘭隊?

娛樂要聞

張雪峰遺產(chǎn)分割復雜!是否立遺囑成關鍵

財經(jīng)要聞

黃仁勛:芯片公司的時代已經(jīng)結束了

汽車要聞

智己LS8放大招 30萬內(nèi)8系旗艦+全線控底盤秀實力

態(tài)度原創(chuàng)

藝術
家居
教育
房產(chǎn)
公開課

藝術要聞

王洪文的狂草背后隱藏的秘密,趙孟頫書法的真實價值揭秘!

家居要聞

輕奢堇天府 小資情調(diào)

教育要聞

驚了!斯坦福大學近四成學生登記為殘障人士?!

房產(chǎn)要聞

41億!259畝!建學校…三亞這個大城更,最新方案曝光!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版