網易首頁 > 網易號 > 正文申請入駐

Elephant走紅：AI開始為“Token浪費”算細賬

2026-04-17 16:51:57　來源: 華爾街見聞官方

上海舉報

分享至

2026年春季，大模型行業的高燒似乎正在退去，取而代之的是一種近乎冷酷的理性。近日，《財經》報道指出，全球企業級 AI 應用中，約50%的Token正在被浪費。

浪費的原因很具體，AI應用從“對話”轉向“執行”，這些計算資源流向了較貴的大型旗艦模型，Agent在復雜多輪任務中，歷史文件、對話會不斷累積，大量無用、冗余、過期的信息會不斷產生并且重復計算，Token消耗因此指數級增長。也就是說，企業和開發者在用最貴的車跑最短的路。

OpenRouter的流量數據反映了這個轉變：過去一個季度，旗艦級模型的調用占比在下降，100B–300B區間的模型調用量則明顯上升。以近日上線的100B 模型Elephant為例，單日流量暴漲500%，沖上熱榜榜首，成為OpenClaw等 Agent 最受歡迎的選型。開發者開始按任務類型分配模型，而不是一律用最頂配。這是工程理性回歸的信號，不是對旗艦模型的否定。

為什么現在才開始算這筆賬

幾年前，"選最強的模型"是最省心的工程決策。旗艦模型幾乎在所有任務上都更好，成本問題還沒到逼人重新設計架構的程度。

現在情況變了，Agent需要“執行”大量工作。一個客服Agent處理一張工單，可能需要調用模型十幾次：理解意圖、查詢知識庫、判斷優先級、生成回復、核查格式。如果同時有幾千張工單在處理，每天的調用量輕松進入百萬級別。在這種頻率下，每次調用多付的溢價開始在賬單上顯現。

今年3月，一位名為shelvenzhou的開發者在Github進行了一項基準測試，引發了廣泛討論。他記錄自己的OpenClaw日常工作（包括代碼、郵件、PDF、圖片、搜索等）Token消耗情況——第一輪對話Token成本0.0050美元；第五輪對話Token成本0.0665美元，是第一輪的13.3倍；第10輪的Token成本達到了0.13美元，是第一輪的26倍。

根據報道，《財經》統計了GitHub上有關“Token Waste”相關Issues的數量。這一討論至少有5200個，僅2026年一季度就誕生了4150個。越來越多的開發者在實際業務中正面臨控制Token浪費的問題。

目前大多數Agent的工程實現還相當粗糙。面對Agent的多步任務，Token消耗以接近線性的速度增長，而其中大量內容對當前步驟毫無意義。這類問題催生了一個新的工程概念——Agent Harness，它不是模型本身，而是包裹在模型外部、負責管理上下文、編排工具調用、控制執行生命周期的“韁繩”和“馬具”。

Token 效率因此形成了兩條并行的壓力線，一條來自 Agent 框架側，Harness 的出現就是典型代表；另一條來自模型側，推動廠商用更精簡的參數完成同等質量的推理。

模型，向實用主義靠攏

在這場范式轉移中，一批深耕“token效率”的模型成為了舞臺中央的主角。它們不比拼參數規模，而是在單位Token成本下，比拼推理速度、指令遵循度以及長上下文的穩定性。

根據OpenRouter 的 LLM Leaderboard在4月16日的數據，模型格局呈現出明顯的“大模型控榜，小模型控場”的分化態勢。

在前20名的榜單中，傳統意義上的大尺寸旗艦模型（如Claude Opus 4.6、DeepSeek V3.2等），主要分布在榜單頭部和中上部，依然掌握著復雜任務的話語權；而主打輕量化、高性價比的小尺寸模型（如Gemini 3 Flash、Grok 4.1 Fast、GPT-5.4 Nano等），且多集中在第 8 名至第 20 名的區間，形成了不可忽視的“腰部力量”。

可以明顯看到，小尺寸模型的漲幅驚人。根據4月16日數據，排名第17位的 GPT-5.4 Nano以48%的驚人漲幅領跑增長榜，100B模型Elephant單日漲幅 38%。

從App使用情況來看，OpenClaw、Hermes Agent、Kilo Code、CLaude Code 等成為這些小尺寸模型的“最大流量貢獻”，開發者正在將小尺寸模型作為高頻、低延遲任務的首選。

在業界看來，100B-300B已然成為一個實用主義區間。GPT-5.4-Mini是目前這條路線的典型代表之一，以更低延遲和更低成本大幅縮小與旗艦模型的性能差距。

OpenAI 此前著重強調了新模型在多模型分層系統中的位置：以其自研編程助手Codex為例，GPT-5.4負責規劃、協調與最終判斷，而GPT-5.4 mini子智能體則并行處理代碼庫檢索、大文件審閱及輔助文檔處理等粒度更細的子任務。

OpenAI表示，隨著小型模型速度更快、功能更強大，開發者無需使用單一模型處理所有任務，而是可以構建系統，由大型模型負責決策，小型模型則快速大規模地執行任務。這種分層調用的模式開始變得實用而非將就。

Elephant Alpha是另一個值得關注的案例，該模型于4月13日深夜上線 Openrouter。同為100B參數，Elephant定位為“智能效率”優先，在保持256K 上下文窗口的同時，重點優化Token使用效率，適合代碼補全、快速文檔處理和輕量Agent交互等場景。由于來源匿名，其具體技術細節尚不透明，但在開發者社區已有相當的實測關注。

效率不是降級，是分工

旗艦模型不會消失。在需要跨領域深度推理、多步驟規劃、復雜代碼生成的任務上，它們仍然是必要的。沒有人認真地認為100B模型可以在所有場景下替代旗艦版。

但在日常的業務執行層——那些占據大多數調用量的任務——用旗艦模型是在為不需要的能力付費。把這部分流量遷移到效率更高的模型上，毫無疑問是更具性價比的決策。

這種分工在軟件工程里有先例。CPU發展從追求單核主頻轉向多核協作，不是因為單核不重要，而是因為在實際工作負載下，多核架構的整體吞吐遠超單純堆主頻。數據庫領域也有類似的演變：OLTP和OLAP長期共存，不同的查詢特征對應不同的存儲和計算架構。

模型選型的邏輯正在經歷類似的成熟。Token效率正在成為工程師評估模型的核心維度之一——不是因為便宜，而是因為在高頻調用的場景下，它直接關系到產品的商業可行性。那些在單位成本下能提供足夠推理質量的模型，正在成為 Agentic應用的默認底座。

一條路線日漸清晰：規模繼續重要，但效率開始定價......

*以上內容不構成投資建議，不代表刊登平臺之觀點，市場有風險，投資需謹慎，請獨立判斷和決策。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.