337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

拒絕「降智、減配、亂收費」:面向LLM API的可信驗證框架

0
分享至



本文作者分別來自新加坡國立大學和加州大學伯克利分校。第一作者郭衍培來自新加坡國立大學,長期關注大語言模型基礎設施中的可信性與安全性問題,特別是云端 LLM 服務的可驗證性與經濟激勵風險。指導教師為新加坡國立大學校長青年教授張嘉恒和加州大學伯克利分校 Dawn Song 教授。

大語言模型(LLM)已經成為各類 AI 應用的基礎設施,然而,在通過云端 API 便捷接入這些強大模型的同時,此類黑盒服務模式也引發了一個現實的信任危機:如何確保大模型服務提供商真的運行了所承諾的模型,并如實報告實際使用了 Token 數量,以防止潛在的 LLM 服務 “降智、減配、亂收費”?

事實上,圍繞 LLM 服務 “降智” 的討論,已經在國內外多個開發者社區中反復出現,不少用戶都報告過模型在使用一段時間后表現明顯下滑的現象 [1,2]。與此同時,若服務商出于競爭或策略原因,對特定用戶群體提供差異化甚至低質量服務 [3],則會進一步加劇黑盒 AI 服務的信任危機。

針對這一系列問題,研究者們最近提出了一種新的利用可驗證計算(Verifiable Computation)來證明推理過程正確性的 LLM 服務審計框架 ——IMMACULATE。 借助該框架,用戶能夠在完全不暴露模型內部信息的情況下,僅需 1% 的額外開銷,就能輕松驗證黑盒 LLM API 的執行完整性,以有效檢測模型替換、過度量化以及 Token 虛報計費等 LLM 服務違規行為。相關論文與代碼已公開。



  • 論文題目:IMMACULATE: A Practical LLM Auditing Framework via Verifiable Computation
  • 論文鏈接:https://arxiv.org/pdf/2602.22700
  • 代碼鏈接:https://github.com/guo-yanpei/Immaculate

本研究提出了一種面向黑盒 LLM API 的全新審計框架 IMMACULATE。該框架無需訪問模型內部結構,也不依賴專用可信硬件,即可檢測云服務商是否真實執行了其聲稱的模型推理過程,并是否如實報告 token 使用量。通過引入 Logit Distance Distribution (LDD) 這一新的統計度量,并結合 隨機化審計與可驗證計算技術,IMMACULATE 在真實模型上實現了低于 1% 的系統開銷,同時能夠可靠檢測模型替換、過度量化以及 token 過度計費等經濟動機型違規行為。

00 背景:當 LLM 成為 API 服務

近年來,大語言模型(LLMs)逐漸成為 AI 應用的重要基礎設施。絕大多數用戶并不會直接運行模型,而是通過云端 API 服務調用模型能力。例如 OpenAI、Anthropic 和 Google 等公司提供的模型服務,都采用這種模式。

然而,這種黑盒服務模式帶來了一個根本性的信任問題:用戶無法驗證服務提供商是否真正執行了其聲稱的模型。

從經濟角度看,服務商存在動機通過各種方式降低計算成本或增加收費,例如:

  • 模型替換(Model Substitution)

使用更小、更便宜的模型替代宣稱的模型

  • 過度量化(Aggressive Quantization)

使用低精度計算降低成本

  • Token 過度計費(Token Overreporting)

報告比實際更多的 token 使用量

這些行為往往仍會產生語義上正確但整體質量較低的結果,因此用戶很難通過輸出直接檢測到異常。事實上,在國內外多個開發者社區中,已有大量用戶分享關于 LLM 服務“降智”的經驗 [1, 2]:即在訂閱服務一段時間后,模型表現明顯不如初期。這類現象在技術社區中引發了廣泛討論。

此外,出于競爭或策略性考慮,一些服務提供商還可能對特定用戶群體(例如被識別為潛在競爭對手的調用者)提供差異化或低質量服務 [3]。這一行為嚴重破壞了模型服務的公平性與可信度,并進一步加劇了黑盒 AI 服務的信任問題。

因此,一個關鍵問題出現了:

如何在不訪問模型內部的情況下,驗證 LLM API 是否被誠實執行?

01 方法概覽:IMMACULATE 審計框架

IMMACULATE 的核心技術基礎之一是可驗證計算(Verifiable Computation)。可驗證計算是一類密碼學技術,使服務器能夠在不泄露內部計算過程或模型參數的情況下證明計算結果的正確性,從而讓用戶無需重新執行計算即可驗證遠程計算。然而,對每一次請求都生成證明的開銷非常高。為此,研究團隊提出了 IMMACULATE 審計框架,其核心思想是:

無需驗證所有請求,只需隨機審計少量請求即可檢測系統是否存在大規模違規行為。



圖 1 IMMACULATE 工作流程:審計單位偽裝成普通用戶發送隨機的請求,并在收到回復后要求提供證明

具體而言,IMMACULATE 的工作流程包括以下步驟:

  1. 用戶正常向 LLM API 發送請求
  2. 服務端返回回答與 token 使用量
  3. 審計者隨機選擇部分請求進行審計
  4. 服務端提供可驗證計算證明
  5. 審計者根據統計指標判斷執行是否可信

這種設計利用了一個簡單但關鍵的經濟事實:

如果服務商希望通過違規行為獲取經濟收益,就必須在相當比例的請求上進行違規執行。因此,通過隨機審計少量請求即可檢測系統是否存在違規行為。

02 關鍵技術:Logit Distance Distribution (LDD)



圖 2 在固定所有離散步驟的結果后,整個推理過程完全是連續函數。輸出的距離可以衡量模型的準確度

在實際系統中,驗證 LLM 推理過程面臨一個重要挑戰:GPU 推理存在數值非確定性。即使在完全相同的模型和輸入下,不同運行之間的浮點誤差也可能導致輸出略有不同。因此,傳統的 “逐位驗證計算” 的方法難以直接應用。

更進一步地,大語言模型的推理過程本身包含兩類不同的計算步驟:一類是連續計算(continuous computation),例如注意力計算、MLP 和歸一化等神經網絡算子;另一類是離散決策(discrete decision),例如 token 選擇或專家路由。

連續計算在 GPU 上執行時會受到浮點誤差與并行調度的影響,因此具有一定的數值非確定性;而離散決策一旦輸入確定,其輸出是完全確定的。由于生成過程是自回歸的,即使連續計算中極小的數值偏差,也可能導致后續離散決策發生變化,從而使整個推理路徑發生分叉。這使得傳統需要逐步復現完整推理過程的驗證方法難以直接應用。

為此,IMMACULATE 利用了這一結構特性:固定離散決策路徑,僅比較連續計算的偏差。具體而言,在給定相同離散決策序列的情況下,我們比較部署模型與參考模型在每一步產生的logits 向量之間的距離分布。這一分布被稱為Logit Distance Distribution (LDD)。

其核心思想是:不直接驗證每一步推理是否完全一致,而是衡量 實際執行模型與參考模型之間的 logit 偏差分布。

如果系統正常運行:

  • logit 偏差只來自數值誤差
  • 偏差分布穩定且集中

如果系統存在違規行為,偏差分布會明顯擴大或偏移。因此,通過統計LDD 的尾部概率,系統即可識別異常執行行為。

03 實驗結果:低成本檢測違規行為



圖 3 LLaMA3-70B 模型的 TV 距離分布??梢钥闯觯煌评矸绞皆谖膊坑惺置黠@的概率差異

研究團隊在多個模型和數據集上評估了 IMMACULATE 的效果。實驗結果表明,對單個請求:

  • 模型替換攻擊檢測率最高超過 90%
  • 量化攻擊檢測率可達 1%–10%

在隨機審計機制下:僅需約3000 次審計請求,即可在高概率下檢測到違規行為。

同時,IMMACULATE 的系統開銷極低:

  • 在 vLLM 推理引擎下,吞吐影響 < 1%
  • 計算證明僅在極少請求上觸發

這表明該框架具備現實部署可行性。

04 總結

IMMACULATE 提出了一種面向黑盒 LLM API 的可驗證審計框架。通過結合隨機化審計、可驗證計算以及新的 Logit Distance Distribution 指標,該方法能夠在不訪問模型內部、無需可信硬件的情況下檢測云端 LLM 服務的執行完整性。

該研究表明,大規模 LLM 服務的透明性與可信度可以通過輕量級審計機制得到顯著提升,為未來 AI 基礎設施的可信運行提供了一條可行路徑。

參考資料:

[1] https://mp.weixin.qq.com/s/cHhdltxUJ3fDka7oR8I06Q

[2] https://mp.weixin.qq.com/s/6JZrbE16k4qmF0pK-kpGRA

[3] https://www.zhihu.com/question/2009482926241382805/answer/2009814668114428352

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
當“整容臉”混進央視年代劇,碰上天然臉演員,簡直是降維打擊!

當“整容臉”混進央視年代劇,碰上天然臉演員,簡直是降維打擊!

嘴角上翹的弧度
2026-03-24 01:01:55
阿拉伯世界全線反水!以色列狂炸敘利亞軍營,徹底捅穿中東馬蜂窩

阿拉伯世界全線反水!以色列狂炸敘利亞軍營,徹底捅穿中東馬蜂窩

徐云流浪中國
2026-03-23 17:49:34
武漢新宇集團張文俊帶近30人暴力搶奪商場,聲稱已到政府部門備案

武漢新宇集團張文俊帶近30人暴力搶奪商場,聲稱已到政府部門備案

靈溪枕石
2026-03-23 14:21:40
央視9分鐘重磅曝光!王政源富二代人設崩塌:豪車豪宅全是演的

央視9分鐘重磅曝光!王政源富二代人設崩塌:豪車豪宅全是演的

橙星文娛
2026-03-23 09:14:37
特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

特朗普幫了中國大忙,中國首次成為全球第一,日本完全被踩在腳下

趣味八卦
2026-03-23 18:43:05
“香港演員幾乎全軍覆沒!無戲可拍”引發網友熱議

“香港演員幾乎全軍覆沒!無戲可拍”引發網友熱議

阿廢冷眼觀察所
2026-03-17 17:42:50
美軍發布戰果,摧毀中國產戰機,伊朗空軍損失殆盡

美軍發布戰果,摧毀中國產戰機,伊朗空軍損失殆盡

愛吃醋的貓咪
2026-03-22 22:29:08
路虎別停奔馳后續:知情人爆猛料 路虎車價值百萬 背景好是個慣犯

路虎別停奔馳后續:知情人爆猛料 路虎車價值百萬 背景好是個慣犯

天天熱點見聞
2026-03-23 15:32:51
機長副機長遇難!紐約機場一載76名乘客的客機撞上消防車,多名消防員重傷

機長副機長遇難!紐約機場一載76名乘客的客機撞上消防車,多名消防員重傷

紅星新聞
2026-03-23 17:08:20
一個女子的生理期,照出了多少衣冠楚楚的禽獸?

一個女子的生理期,照出了多少衣冠楚楚的禽獸?

胖胖說他不胖
2026-03-22 16:05:14
2013年,北京胡同里的高圓圓,照片看著很美,真人巨美

2013年,北京胡同里的高圓圓,照片看著很美,真人巨美

喜文多見01
2026-03-13 20:14:24
剛剛,加息大消息!霍爾木茲,伊朗突然宣布!

剛剛,加息大消息!霍爾木茲,伊朗突然宣布!

中國基金報
2026-03-23 19:35:31
人民網評姚晨“官宣”離婚:離婚純屬私事,沒有義務公開,“所謂官宣”成收割流量紅利“密碼”,浪費公共資源

人民網評姚晨“官宣”離婚:離婚純屬私事,沒有義務公開,“所謂官宣”成收割流量紅利“密碼”,浪費公共資源

大風新聞
2026-03-23 12:39:07
伊朗媒體稱特朗普“因懼怕伊朗反擊而撤銷48小時最后通牒”

伊朗媒體稱特朗普“因懼怕伊朗反擊而撤銷48小時最后通牒”

新華社
2026-03-23 20:09:44
137分鐘鏖戰!鄭欽文2-1逆轉澳網冠軍,解鎖3大成就,獲73萬獎金

137分鐘鏖戰!鄭欽文2-1逆轉澳網冠軍,解鎖3大成就,獲73萬獎金

劉姚堯的文字城堡
2026-03-23 09:39:13
怪誰?挺誰誰敗,挺誰誰死

怪誰?挺誰誰敗,挺誰誰死

雪中風車
2026-03-17 17:12:11
頭皮發麻!快檢查自家陽臺!有深圳人家里已大量出現!官方提醒:千萬別摸

頭皮發麻!快檢查自家陽臺!有深圳人家里已大量出現!官方提醒:千萬別摸

南方都市報
2026-03-23 21:20:37
滿血回歸!整整4個月啊,復出首秀砍下14+6,西部大亂斗又開始了

滿血回歸!整整4個月啊,復出首秀砍下14+6,西部大亂斗又開始了

球童無忌
2026-03-23 21:07:06
2-0!中國隊贏球,全場壓著打+“國產C羅”破門進球,球迷歡呼

2-0!中國隊贏球,全場壓著打+“國產C羅”破門進球,球迷歡呼

二瘋說球
2026-03-23 08:12:29
山東小伙娶只有8歲智商的新娘,笑的合不攏嘴,網友:賺大了!

山東小伙娶只有8歲智商的新娘,笑的合不攏嘴,網友:賺大了!

觀察鑒娛
2026-02-01 15:02:49
2026-03-24 03:56:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12576文章數 142591關注度
往期回顧 全部

科技要聞

裁掉2萬多名員工后,扎克伯格對自己下手了

頭條要聞

特朗普:伊朗還有最后一次機會

頭條要聞

特朗普:伊朗還有最后一次機會

體育要聞

不敢放手一搏,你拿什么去爭冠?

娛樂要聞

鐘麗緹就女兒考拉爭議道歉:女兒還小

財經要聞

市場見底了嗎?誰在拋售?機構火線解讀

汽車要聞

東風雪鐵龍新凡爾賽C5X上市 官方一口價11.37萬起

態度原創

時尚
健康
家居
教育
本地

春天穿衣別太老氣橫秋,試試這些多巴胺穿搭,減齡養眼又舒適

轉頭就暈的耳石癥,能開車上班嗎?

家居要聞

智慧生活 奢享家居

教育要聞

高三學生對教材中 “受精作用” 表述提意見,人教社回信

本地新聞

這里是寶雞 嫽滴很!

無障礙瀏覽 進入關懷版