![]()
200K用戶的AI平臺每年多燒80萬,不是因為算力貴,是因為根本看不清錢花在哪兒。OpenAI、Anthropic、Gemini各給一個后臺,BYOK(用戶自帶密鑰)再攪進來,財務月底對賬像考古——挖出一堆CSV,拼不出一張完整的成本地圖。
Cloudflare AI Gateway的新功能,相當于給這團亂麻裝了個統一電表。Custom Reporting API今天開放beta,Pro和Enterprise用戶能用一套接口,把分散在各家的token消耗、請求量、成本數據,按模型、供應商、用戶ID、自定義標簽全維度拆解。
那個省掉80K的平臺不是測試案例,是已經跑完的賬單。他們用AI Gateway替掉了自己搭的第三方代理層,把成本追蹤和請求管理塞進同一個系統。原本需要跨三個供應商后臺+自建代理才能湊齊的數據,現在從一個端點實時拉取。
賬單黑箱是怎么養成的
做AI產品的團隊都經歷過這個漂移:月初定預算,月底對賬單,中間兩眼一抹黑。供應商后臺只認自己的密鑰,你的用戶分層、功能邊界、內部ID全被洗掉。BYOK模式下,用戶揣著自己的OpenAI密鑰進來,你的成本追蹤直接斷鏈——錢從誰兜里出的,消耗算在誰頭上,成了筆糊涂賬。
常見的補救姿勢是搭一層代理,把所有請求過一遍,自己記日志。這方案能跑,但維護成本不低:得保證代理不成為瓶頸,得處理各供應商API的微妙差異,得自己算token數——而供應商的計費規則和實際token消耗經常對不上。
Cloudflare的解法是把網關層變成數據樞紐。AI Gateway本來就要過手所有請求,現在順手把元數據結構化存下來,開放查詢接口。你不用另起爐灶搭代理,也不用在每個供應商后臺之間來回跳轉。
關鍵設計是標簽系統。發請求時帶上user字段和tags數組,后續查詢就能按這些維度切片。比如給每個請求打上customer.id、customer.plan、功能名稱,財務可以直接拉出「Pro套餐用戶在代碼審查功能上的Claude消耗」,不用寫正則表達式從日志里摳。
代碼層面,AI SDK、Chat Completions API、Responses API、OpenResponses API、Anthropic Messages API都支持同樣的providerOptions.gateway字段。不管你用Node.js還是Python,數據最終落進同一個reporting endpoint。
從「事后對賬」到「實時歸因」
那個200K用戶平臺的遷移路徑很典型。他們之前用第三方代理做兩件事:統一路由請求、記錄成本數據。AI Gateway的Custom Reporting上線后,他們發現第一件事早就由網關代勞了,第二件事現在也有了原生支持。
代理層被整個卸掉,省下的不只是80K年費,還有維護一套中間件的工程成本。更隱蔽的收益是數據實時性——以前月底才能看清的消耗分布,現在可以按小時粒度查詢,甚至直接接進Claude Code做交互式分析。
標簽系統的靈活性在這里顯出來。平臺給用戶分了三檔套餐,每檔對應不同的模型權限和token限額。以前要在代理層自己維護映射表,現在直接在請求標簽里寫plan名稱,查詢時GROUP BY就行。BYOK用戶也一樣處理:credential type作為查詢維度,自帶密鑰和平臺代付的消費能分開統計。
![]()
這對做多租戶SaaS的團隊尤其解渴。你需要向客戶展示他們的AI消耗明細,但供應商后臺給不了你按customer ID聚合的數據。現在每個請求自帶客戶標識,查詢接口吐出來的就是可以直接塞進客戶賬單的數據結構。
技術實現上,API支持時間范圍、分頁、多維度篩選。響應格式是標準JSON,成本、token用量、請求數按你選的維度分組。沒有專有查詢語言,沒有批量導出限制,沒有「請聯系銷售解鎖更多功能」的階梯。
API設計的取舍
Cloudflare在這個功能上做了幾個有意的限制,也留了明確的擴展空間。beta階段只開放給Pro和Enterprise,免費和Pro以下的用戶用不了——這不是技術門檻,是產品策略:成本歸因是規模化團隊的痛點,小體量用戶用供應商后臺就夠了。
數據保留期目前沒公開說明,但按Cloudflare一貫的作風,大概率有滾動窗口而非永久存儲。如果你需要長期歷史數據,得自己定時拉取歸檔。查詢延遲也沒承諾SLA,beta階段的「實時」是工程描述,不是合同條款。
標簽值的格式相對自由,但長度和字符集應該有限制——文檔沒細說,實際接入時需要測試邊界。user字段和tags數組的組合鍵,理論上可以支撐非常細的歸因粒度,但查詢復雜度會隨維度數量指數上升,需要自己在「看得細」和「查得快」之間找平衡。
和直接調用供應商API相比,網關層多了一個網絡跳點,延遲增加通常在幾十毫秒級別。對于成本追蹤這類非關鍵路徑,這個trade-off多數團隊能接受。但如果你的場景對延遲極度敏感,得實測驗證。
行業信號的解讀
這個動作放在更大的棋盤上看,是Cloudflare在AI基礎設施層的卡位。CDN和邊緣計算之后,AI Gateway成為新的流量入口——不是替代供應商,而是坐在供應商和客戶之間,提供跨供應商的通用能力。
成本可視化是通用能力里最容易被低估的一項。大家先拼模型接入數量、再拼緩存命中率,最后才發現賬單對不齊是規模化路上的暗礁。Cloudflare用一套API解決這個問題,相當于給客戶的財務部門遞了張名片:你的工程團隊選我,你的CFO也會感謝我。
競爭對手的應對值得關注。AWS Bedrock有成本分配標簽,但綁定在CloudWatch里,查詢體驗偏運維視角;Azure OpenAI的計量數據走Monitor,靈活性一般;Vercel的AI SDK最近也在加強observability,但主要面向前端場景。Cloudflare的差異化在于「網關即數據源」的架構——它不依賴供應商暴露的賬單API,而是自己抓流量算token,理論上更準確,也更不容易被供應商的計費規則變動打亂。
那個省掉80K的平臺,他們的CFO現在能問出以前問不了的問題:「我們Top 10客戶里,誰在消耗最貴的模型?代碼審查功能的真實成本比定價高多少?」這些問題不需要等月底,不需要寫Python腳本扒CSV,Claude Code里敲幾行查詢就能拿到。
當基礎設施讓成本歸因變得像查數據庫一樣簡單,AI產品的定價策略會不會變得更激進?按token收費的模式,會不會被更精細的「功能-成本」映射取代?你的客戶如果也能實時看到他們的消耗明細,你的毛利空間還藏得住嗎?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.