337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

警惕!大模型成本倒掛:你正在為模型的多余「思考」買單

0
分享至



在選擇使用大模型 (LLM) 時,除了模型性能強弱,價格也是一個重要指標。人們通常會用大模型的 API 定價更貴或更便宜,來比較模型的價格高低。但事實上,定價低的模型真的比定價高的模型使用起來更便宜嗎?

如今,一項來自斯坦福、加州伯克利大學、卡內基梅隆大學和微軟研究院的研究,揭示了 AI 模型中的價格倒掛現象:低定價的 AI 模型,反而有可能產生更高的實際開銷!



  • 論文標題:The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More
  • 論文地址:https://arxiv.org/abs/2603.23971

圖 1 給出了主流模型的定價和它們在實際任務上的開銷。



圖 1: 左圖展示了模型定價和實際花銷的關系,右圖給主流模型定價和實際價格各自排序。揭示了價格倒掛現象:低定價的模型反而產生了更高的實際開銷。

GPT-5.2 的 API 定價是 Gemini 3 Flash 的 4.5 倍,但其實際成本僅為 Gemini 3 Flash 的 81%。類似地,Claude Opus 4.6 的 API 定價是 Google Gemini 3.1 Pro 的兩倍,但其實際成本卻低了 35%。

這到底是怎么回事?今天,我們就一起探討這項研究。

AI 模型開銷的審計框架

為了精準刻畫 AI 模型的實際開銷,研究聚焦于 8 個廣泛使用的前沿推理模型,包括 GPT-5.2、GPT-5 Mini、Gemini 3.1 Pro、Gemini 3 Flash、Claude Opus 4.6、Claude Haiku 4.5、Kimi K2.5 和 MiniMax M2.5。推理任務則囊括了包括 AIME、 Humanity's Last Exam、MMLUPro 等 9 個主流數據集。

前沿模型通常采用按量付費的定價機制,即用戶為發送的每個查詢分別付費。

這種定價機制對于給定模型通常涉及兩個組成部分:每單位輸入 token 的價格,以及每單位輸出 token 的價格。對于給定查詢,成本是兩個價格按提示 token 數和輸出 token 數加權的總和。(為了便于理解, 下文中的討論都使用平均加權。 對更多不同加權情況感興趣的話,可以在互動網站上嘗試:https://price-reversal.streamlit.app/)

AI 模型的成本倒掛現象



圖 2: 實際成本排名在不同任務之間存在顯著差異。

測試發現:定價排名與實際成本排名的巨大反差,且這樣的價格逆轉是普遍存在的。根據固定標價 API 定價進行的標準評估是具有誤導性的。

例如,Gemini 3 Flash 的標價($3.5)僅為 GPT-5.2 價格($15.75)的 22%,但其在 MMLUPro 上的實際成本實際上是后者的六倍(見圖2)!

根據 API 標價,Gemini 3 Flash 是第三便宜的模型,但它在 MMLUPro 上是最昂貴的。其實際成本幾乎是 Gemini 3.1 Pro 的兩倍。

為量化價格逆轉的普遍程度,研究人員檢查了所有 8 個模型組成的 28 個模型對,在 9 項任務上的表現,共產生 252 次成對成本比較,其中21.8%(55 次)比較表現出價格逆轉。

這意味著,僅基于標價的成本判斷中,大約每五次就有一次是錯誤的。同時模型的相對成本排序高度依賴于任務。一個在某個數據集上便宜的的模型可能在另一個數據集上成為最昂貴的之一。

為什么會出現倒掛現象?

我們先來介紹一個有趣的現象:一個富人和窮人同時購買靴子。富人花費了 100 元購買了一雙好靴子,而窮人為了省錢,只能支付 15 元購買了壞靴子。好靴子可以使用 10 年,而壞靴子只能使用 1 年。結果,窮人不得不每年購買一雙壞靴子。一個悖論就此出現了:窮人為了省錢購買了便宜的靴子,但卻花費了更多的錢。這就是社會經濟學中著名的靴子理論(Boots Theory):看上去價格便宜的商品,有可能帶來更高的總成本。

研究發現有些 AI 模型也出現了類似的 “靴子現象”, 問題的關鍵是推理 token。



圖 3:圖中展示了模型真實價格的具體拆分:輸入、推理、輸出。不同模型在相同任務上消耗的推理token 數量差異巨大。

首先,推理 token 是模型開銷的主要來源。如圖 3 所示,在模型的開銷里,輸入的 prompt 和輸出的最終結果通常只消耗總成本的 10% 不到,而大部分的開銷都來自于推理 token。這一分解揭示了思考 token 幾乎在所有模型中都是主導的成本組成部分。其次,不同模型的推理 token 的數量差距極大!例如,Gemini 3 Flash 所生成的推理 token,是 GPT-5.2 的將近 10 倍。



圖 4: 在同一道 AIME 題目上,GPT-5.2 使用 562 個思考 token,而 Gemini 3 Flash 使用超過 11,000 個,導致實際成本高出 2.5 倍。

圖 4 給出了一個具體的例子。給定同一道 AIME 2025 題目,GPT-5.2 和 Gemini 3 Flash 得出的最終答案一樣,最終的思路也大致相同。然而,得到這一思路和答案的過程卻大相徑庭:GPT-5.2 僅僅使用約五百個 token 就完成了思考,而 Gemini Flash 卻需要超過一萬個 token。這揭示了開銷逆轉的本質來源于思考 token 數量的巨大差距。



圖 5: 從實際成本計算中去除思考 token 成本。(a) 標價排名與實際成本排名之間的相關性在所有任務中均顯著提高。(b) 成對排名逆轉數平均減少 70%。

事實上,去掉思考 token 可以使得實際開銷和模型定價保持高度一致。如圖 5 所示,去除思考 token 成本顯著恢復了所有 9 項任務的排名一致性,并且使得排名逆轉的數量減少了 70%。這進一步驗證了思考 token 才是成本倒掛的隱藏殺手。

我們可以直接預測任務成本嗎?



圖 6: 實際開銷的不可預測性。對每一個 AIME 數據集上的任務跑 5 次所產生的推理 token 數量。對于固定的任務和固定的模型,多次實驗所產生的 token 數,也有著巨大的差異。這意味著推理 token 數量本身就是不可預測的。

既然定價不能準確反映實際開銷,我們是否可以直接預測實際開銷呢?

實踐表明:實際開銷其實是一個高度不可預測的量!

如圖 5 所示,研究人員在數學競賽數據集上多次運行同一個模型,發現它們的推理 token 的數量差距巨大。例如,對第 6 個任務,GPT-5.2 的推理 token 數最大可達五萬,最低只需 2 萬,達到了 2.5 倍的差距。這就意味著,推理 token 數本身帶有巨大的隨機性,因此,推理 token 數具有高度的不確定性和不可預測性,從而讓實際開銷的預測變得極為困難。

結論

這一研究發現了AI 模型領域的靴子現象:定價更低的模型反而可能帶來更高的實際開銷。同時,它又指出了實際開銷的不確定性和不可預測性。這表明,要選取物美價廉的 AI 模型,并不是看看價目表就夠了。

作者們還開源了使用的數據,提供了一個可互動的網站,為后續研究提供了基礎。

  • 數據:https://github.com/lchen001/pricing-reversal
  • 網站:https://price-reversal.streamlit.app/

作者介紹

本文由來自斯坦福大學、加州伯克利大學、卡內基梅隆大學、和微軟研究院的 Lingjiao Chen, Chi Zhang, Yeye He, Ion Stoica,Matei Zaharia,James Zou 等 6 位作者完成。

  • Lingjiao Chen,斯坦福大學博士,微軟研究院資深研究員。
  • Chi Zhang,卡耐基梅隆大學博士。
  • Yeye He,微軟研究院首席研究員。
  • Ion Stoica,加州伯克利大學教授,美國工程院院士,Databricks 創始人兼主席。
  • Matei Zaharia,加州伯克利大學教授,Databricks 創始人兼首席技術官。
  • James Zou,斯坦福大學教授。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

普京訪華行程敲定,特朗普已下命令,中國向全球通告,無懼美國

桑啟紅原
2026-04-20 20:19:05
美專家:美國在伊朗正面臨四個大問題

美專家:美國在伊朗正面臨四個大問題

環球時報國際
2026-04-21 00:16:12
國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

國際奧委會明確表態,對2036年奧運會的申辦情況很是失望

安安說
2026-04-20 11:09:20
哈登16+2!騎士54-48猛龍,看數據:他才是頭號功臣!

哈登16+2!騎士54-48猛龍,看數據:他才是頭號功臣!

運籌帷幄的籃球
2026-04-21 08:12:30
日本將地震震級調整至7.5級

日本將地震震級調整至7.5級

界面新聞
2026-04-20 16:30:33
罰15億!拼多多一員工故意關門,對抗調查,導致執法人員手指骨折

罰15億!拼多多一員工故意關門,對抗調查,導致執法人員手指骨折

魔都姐姐雜談
2026-04-19 08:03:27
中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報4起整治形式主義為基層減負典型問題

中央層面整治形式主義為基層減負專項工作機制辦公室 中央紀委辦公廳公開通報4起整治形式主義為基層減負典型問題

新華社
2026-04-20 17:44:02
“巴掌遮陽帽”在TikTok刷屏、義烏緊急跟進,利潤翻了近10倍

“巴掌遮陽帽”在TikTok刷屏、義烏緊急跟進,利潤翻了近10倍

去山野間追風
2026-04-21 03:16:20
撤下主力放棄比賽,替補卻反敗為勝!哈登都看傻了

撤下主力放棄比賽,替補卻反敗為勝!哈登都看傻了

林子說事
2026-04-21 02:26:26
“找到一個媳婦算你牛”,農村家長曬7兒1女,被群嘲后看清現實

“找到一個媳婦算你牛”,農村家長曬7兒1女,被群嘲后看清現實

妍妍教育日記
2026-04-20 19:42:54
歐爾班下臺,這個歐洲國家卻可能再次擁抱一位親俄領導人

歐爾班下臺,這個歐洲國家卻可能再次擁抱一位親俄領導人

上觀新聞
2026-04-20 15:58:42
睡一覺5萬沒了!全國多地爆發新型盜刷,睡前必查手機這4處

睡一覺5萬沒了!全國多地爆發新型盜刷,睡前必查手機這4處

洞見小能手
2026-04-20 16:03:26
冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

冠心病去世的越來越多,建議:1不喝、2不碰、3堅持,別大意了

芹姐說生活
2026-04-20 16:10:12
中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

中國高校只剩7年窗口期 學生數量斷崖式塌方后一半高校都得死

六子吃涼粉
2026-04-20 19:10:49
高市早苗向靖國神社獻祭品

高市早苗向靖國神社獻祭品

新華社
2026-04-21 05:59:03
拼多多暴力抗法震驚全網,市值萬億巨頭為何如此囂張

拼多多暴力抗法震驚全網,市值萬億巨頭為何如此囂張

燕梳樓頻道
2026-04-20 21:12:04
普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

普通家庭千萬不要買“小聯排別墅”,看著很高級,住著卻難受!

裝修秀
2026-04-20 10:50:03
震驚!網傳深圳中專打工女偽造百億富三代人設,收割尊界S800車主

震驚!網傳深圳中專打工女偽造百億富三代人設,收割尊界S800車主

火山詩話
2026-04-20 13:37:00
欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

欲哭無淚!47歲男子赴深圳求職一個月無果,住低價旅館,一日一餐

火山詩話
2026-04-21 06:36:18
丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

丈夫騎車躲狗摔倒致妻死亡,家屬起訴違停車主124萬,法院判了

大魚簡科
2026-04-20 19:38:39
2026-04-21 08:23:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12813文章數 142633關注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

特朗普兩天三次反轉 伊朗學習特朗普玩起"極限施壓"

頭條要聞

特朗普兩天三次反轉 伊朗學習特朗普玩起"極限施壓"

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經要聞

利潤暴跌7成,字節到底在做什么

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態度原創

親子
家居
游戲
本地
手機

親子要聞

大體重孩子家長要關注孩子運動足部壓力是否正常

家居要聞

自然慢調 慢享時光

簡直就是欺詐!玩家怒批索尼PS商店明目張膽割韭菜

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

手機要聞

蘋果被曝下調 iPhone 18 規格以壓縮成本

無障礙瀏覽 進入關懷版