337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

Elephant走紅:AI開始為“Token浪費”算細賬

0
分享至

2026年春季,大模型行業的高燒似乎正在退去,取而代之的是一種近乎冷酷的理性。近日,《財經》報道指出,全球企業級 AI 應用中,約50%的Token正在被浪費。

浪費的原因很具體,AI應用從“對話”轉向“執行”,這些計算資源流向了較貴的大型旗艦模型,Agent在復雜多輪任務中,歷史文件、對話會不斷累積,大量無用、冗余、過期的信息會不斷產生并且重復計算,Token消耗因此指數級增長。也就是說,企業和開發者在用最貴的車跑最短的路。

OpenRouter的流量數據反映了這個轉變:過去一個季度,旗艦級模型的調用占比在下降,100B–300B區間的模型調用量則明顯上升。以近日上線的100B 模型Elephant為例,單日流量暴漲500%,沖上熱榜榜首,成為OpenClaw等 Agent 最受歡迎的選型。開發者開始按任務類型分配模型,而不是一律用最頂配。這是工程理性回歸的信號,不是對旗艦模型的否定。



為什么現在才開始算這筆賬

幾年前,"選最強的模型"是最省心的工程決策。旗艦模型幾乎在所有任務上都更好,成本問題還沒到逼人重新設計架構的程度。

現在情況變了,Agent需要“執行”大量工作。一個客服Agent處理一張工單,可能需要調用模型十幾次:理解意圖、查詢知識庫、判斷優先級、生成回復、核查格式。如果同時有幾千張工單在處理,每天的調用量輕松進入百萬級別。在這種頻率下,每次調用多付的溢價開始在賬單上顯現。

今年3月,一位名為shelvenzhou的開發者在Github進行了一項基準測試,引發了廣泛討論。他記錄自己的OpenClaw日常工作(包括代碼、郵件、PDF、圖片、搜索等)Token消耗情況——第一輪對話Token成本0.0050美元;第五輪對話Token成本0.0665美元,是第一輪的13.3倍;第10輪的Token成本達到了0.13美元,是第一輪的26倍。

根據報道,《財經》統計了GitHub上有關“Token Waste”相關Issues的數量。這一討論至少有5200個,僅2026年一季度就誕生了4150個。越來越多的開發者在實際業務中正面臨控制Token浪費的問題。


目前大多數Agent的工程實現還相當粗糙。面對Agent的多步任務,Token消耗以接近線性的速度增長,而其中大量內容對當前步驟毫無意義。這類問題催生了一個新的工程概念——Agent Harness,它不是模型本身,而是包裹在模型外部、負責管理上下文、編排工具調用、控制執行生命周期的“韁繩”和“馬具”。

Token 效率因此形成了兩條并行的壓力線,一條來自 Agent 框架側,Harness 的出現就是典型代表;另一條來自模型側,推動廠商用更精簡的參數完成同等質量的推理。


模型,向實用主義靠攏

在這場范式轉移中,一批深耕“token效率”的模型成為了舞臺中央的主角。它們不比拼參數規模,而是在單位Token成本下,比拼推理速度、指令遵循度以及長上下文的穩定性。

根據OpenRouter 的 LLM Leaderboard在4月16日的數據,模型格局呈現出明顯的“大模型控榜,小模型控場”的分化態勢。

在前20名的榜單中,傳統意義上的大尺寸旗艦模型(如Claude Opus 4.6、DeepSeek V3.2等),主要分布在榜單頭部和中上部,依然掌握著復雜任務的話語權;而主打輕量化、高性價比的小尺寸模型(如Gemini 3 Flash、Grok 4.1 Fast、GPT-5.4 Nano等),且多集中在第 8 名至第 20 名的區間,形成了不可忽視的“腰部力量”。

可以明顯看到,小尺寸模型的漲幅驚人。根據4月16日數據,排名第17位的 GPT-5.4 Nano以48%的驚人漲幅領跑增長榜,100B模型Elephant單日漲幅 38%。


從App使用情況來看,OpenClaw、Hermes Agent、Kilo Code、CLaude Code 等成為這些小尺寸模型的“最大流量貢獻”,開發者正在將小尺寸模型作為高頻、低延遲任務的首選。

在業界看來,100B-300B已然成為一個實用主義區間。GPT-5.4-Mini是目前這條路線的典型代表之一,以更低延遲和更低成本大幅縮小與旗艦模型的性能差距。

OpenAI 此前著重強調了新模型在多模型分層系統中的位置:以其自研編程助手Codex為例,GPT-5.4負責規劃、協調與最終判斷,而GPT-5.4 mini子智能體則并行處理代碼庫檢索、大文件審閱及輔助文檔處理等粒度更細的子任務。

OpenAI表示,隨著小型模型速度更快、功能更強大,開發者無需使用單一模型處理所有任務,而是可以構建系統,由大型模型負責決策,小型模型則快速大規模地執行任務。這種分層調用的模式開始變得實用而非將就。

Elephant Alpha是另一個值得關注的案例,該模型于4月13日深夜上線 Openrouter。同為100B參數,Elephant定位為“智能效率”優先,在保持256K 上下文窗口的同時,重點優化Token使用效率,適合代碼補全、快速文檔處理和輕量Agent交互等場景。由于來源匿名,其具體技術細節尚不透明,但在開發者社區已有相當的實測關注。




效率不是降級,是分工

旗艦模型不會消失。在需要跨領域深度推理、多步驟規劃、復雜代碼生成的任務上,它們仍然是必要的。沒有人認真地認為100B模型可以在所有場景下替代旗艦版。

但在日常的業務執行層——那些占據大多數調用量的任務——用旗艦模型是在為不需要的能力付費。把這部分流量遷移到效率更高的模型上,毫無疑問是更具性價比的決策。

這種分工在軟件工程里有先例。CPU發展從追求單核主頻轉向多核協作,不是因為單核不重要,而是因為在實際工作負載下,多核架構的整體吞吐遠超單純堆主頻。數據庫領域也有類似的演變:OLTP和OLAP長期共存,不同的查詢特征對應不同的存儲和計算架構。

模型選型的邏輯正在經歷類似的成熟。Token效率正在成為工程師評估模型的核心維度之一——不是因為便宜,而是因為在高頻調用的場景下,它直接關系到產品的商業可行性。那些在單位成本下能提供足夠推理質量的模型,正在成為 Agentic應用的默認底座。

一條路線日漸清晰:規模繼續重要,但效率開始定價......

*以上內容不構成投資建議,不代表刊登平臺之觀點,市場有風險,投資需謹慎,請獨立判斷和決策。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
《八千里路云和月》田家泰因一本書暴露身份,小月和張云魁結婚!

《八千里路云和月》田家泰因一本書暴露身份,小月和張云魁結婚!

鄉野小珥
2026-04-18 00:19:32
太離譜!一男子抱著娃在沙灣大橋上騎平衡車,廣州交警:罰!

太離譜!一男子抱著娃在沙灣大橋上騎平衡車,廣州交警:罰!

番禺臺
2026-04-16 08:09:46
墳墓為什么不能用水泥封住,也不能打除草劑?

墳墓為什么不能用水泥封住,也不能打除草劑?

農夫也瘋狂
2026-04-16 10:14:25
程曉玥挺大肚為女慶生,富二代老公罕見同框,一家三口畫面太甜

程曉玥挺大肚為女慶生,富二代老公罕見同框,一家三口畫面太甜

黔鄉小姊妹
2026-04-15 08:49:46
香港失婚女星希望新戀情,白襯衫真空上陣,豐滿上圍雙手遮不住

香港失婚女星希望新戀情,白襯衫真空上陣,豐滿上圍雙手遮不住

觀察者海風
2026-03-27 19:42:21
剛到美國十幾天就出事!華男被砸昏迷87周離世,家屬赴美討說法:當時沒人打911

剛到美國十幾天就出事!華男被砸昏迷87周離世,家屬赴美討說法:當時沒人打911

華人生活網
2026-04-17 04:44:23
2026醫改大動作:取消24小時值班,終于對醫患雙方都負責了

2026醫改大動作:取消24小時值班,終于對醫患雙方都負責了

貓叔東山再起
2026-04-16 10:25:09
哇,這大身板,豐腴有度,放到唐朝不是皇后,也得是個貴妃

哇,這大身板,豐腴有度,放到唐朝不是皇后,也得是個貴妃

可樂談情感
2026-04-12 08:22:47
新澳門六合彩107期特,二中二,三中三內幕推薦

新澳門六合彩107期特,二中二,三中三內幕推薦

墨言論史
2026-04-17 12:00:20
北影節開幕式出現搶位風波!沈騰被擠出C位,強行在沈馬中間加桌

北影節開幕式出現搶位風波!沈騰被擠出C位,強行在沈馬中間加桌

萌神木木
2026-04-16 21:18:03
牛鬼蛇神現原形!張蘭案終于判了,小S放肆大笑,大S遺愿成笑話

牛鬼蛇神現原形!張蘭案終于判了,小S放肆大笑,大S遺愿成笑話

笑飲孤鴻非
2026-04-05 23:29:39
如果趙構全力支持岳飛,不發十二道金牌,南宋能滅金嗎?

如果趙構全力支持岳飛,不發十二道金牌,南宋能滅金嗎?

凡人侃史
2026-04-16 21:57:44
朋友圈的“訃告”,93年

朋友圈的“訃告”,93年

螞蟻大喇叭
2026-04-17 15:20:16
2026年4月16日晨俄烏沖突戰報:局勢升級,交戰白熱

2026年4月16日晨俄烏沖突戰報:局勢升級,交戰白熱

獨坐山巔前
2026-04-18 00:23:47
不怪郭富城忍不住跟她合照,網友:誰不心動

不怪郭富城忍不住跟她合照,網友:誰不心動

TVB的四小花
2026-04-18 01:09:44
零跑D19賣22萬:誰給它的勇氣?

零跑D19賣22萬:誰給它的勇氣?

摸魚算法
2026-04-16 20:52:14
一月內遭三次恐怖威脅,中方大使館公開要說法,高市政府裝聾作啞

一月內遭三次恐怖威脅,中方大使館公開要說法,高市政府裝聾作啞

石江月
2026-04-17 19:20:09
雷軍開啟15小時測試直播,稱:“最大的心理負擔是不能說錯話,一說錯話可能又會被黑子抓住拼命黑”

雷軍開啟15小時測試直播,稱:“最大的心理負擔是不能說錯話,一說錯話可能又會被黑子抓住拼命黑”

魯中晨報
2026-04-17 09:12:07
36歲時的鄭麗文與蘭宣、尹乃菁合影。

36歲時的鄭麗文與蘭宣、尹乃菁合影。

草莓解說體育
2026-04-12 08:02:43
誣告學弟后高調上崗當“銷冠”,武大楊某媛再惹眾怒遭網友舉報

誣告學弟后高調上崗當“銷冠”,武大楊某媛再惹眾怒遭網友舉報

老貓觀點
2026-04-17 06:31:56
2026-04-18 03:51:00
華爾街見聞官方 incentive-icons
華爾街見聞官方
中國領先的金融商業信息提供商
144762文章數 2653286關注度
往期回顧 全部

科技要聞

7家頭部平臺被罰沒35.97億元

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設定三個條件

頭條要聞

知情人:伊朗為霍爾木茲海峽通行設定三個條件

體育要聞

中超-泰山1-1海港 楊希處子球克雷桑任意球扳平

娛樂要聞

劉德華摯友潘宏彬離世 曾一起租房住

財經要聞

"影子萬科"2.0:管理層如何吸血萬物云?

汽車要聞

又快又穩的開掛動力! 阿維塔06T全系搭分布式電驅

態度原創

本地
藝術
房產
公開課
軍事航空

本地新聞

12噸巧克力有難,全網化身超級偵探添亂

藝術要聞

你絕對想不到!文森特的色粉作品竟如此驚艷!

房產要聞

重磅利好!2500個學位,海口濱江片區,要建九年一貫制學校!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美宣布黎以停火10天 以方稱不會撤軍

無障礙瀏覽 進入關懷版