網易首頁 > 網易號 > 正文申請入駐

匿名模型“大象”攪局OpenRouter：100B參數沖到熱榜第一，實測結果如何

2026-04-16 19:20:03　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達
編輯漠影

智東西4月16日報道，這兩天，一款名為Elephant（大象）的匿名模型，在OpenRouter上悄然亮相。上線不到48小時，這一模型已經沖到OpenRouter熱榜（Trending）第一，目前調用量超過1850億個token。

在調用量日榜上，Elephant排名全球第八。

根據OpenRouter對其介紹，Elephant是一個100B參數量的純文本模型，主打高token效率，支持256k上下文和32k輸出，適合的任務包括代碼補全、調試、快速文檔處理和輕量級Agent交互等等。

目前，Elephant在網友反復的“拷打”下，暫時還沒供出自己是哪家的模型。有網友猜測這可能是國產最新模型的Flash版本，或海外全新實驗室搗鼓出來的新品。

有不少開發者已經曬出他們對Elephant的使用體驗，Hermes Agent的作者拿它跑了個基準測試，發現這一模型在大部分工具調用任務中表現還行，不過偶爾會出現幻覺和對環境的錯誤理解，這對一個100B的模型來說其實也正常。

輸出速度是這一模型的一大亮點，其在OpenRouter上的平均速度就達到了67 token/s，首token延遲為0.89秒，在即時交互場景展現出了潛力。有網友感嘆，雖然質量還不確定，但這是他用過最快的模型，讓他想起了Grok Fast 1的體驗。

不過，光看別人的評價終究隔了一層。接下來，我們將親自上手，從編程、文檔處理到Agent交互，逐個任務實測一遍。

一、編程、長文本、Agent實測：前端編程響應快，支持多輪工具調用

在OpenRouter上，Elephant的編程能力排名在同尺寸模型中靠前，于是我們先嘗試了幾個編程的小項目，看看它能否快速完成。

首先是一個網站，這主要考察模型的前端能力。拿到開發任務后，Elephant對網站的幾個核心組件進行了規劃，并主動為這一網站加入了明暗模式切換、移動端響應式設計等我們并未要求的功能，最終耗時1分鐘左右完成開發。

當我們要求它將網站的主色調改成綠色后，Elephant用不到10秒鐘就完成了修改。相信使用過其他模型的用戶都知道，大部分模型在處理修改任務時往往需要通讀上下文，逐一修改，一些細枝末節的修改可能要花上幾分鐘。

而Elephant基本做到了指哪兒打哪兒，這對于一些快速、高頻的網站調試需求是很實用的。

我們也試了試Elephant有沒有打造項目級任務的能力，讓它根據自己的內部知識，復刻一個支付軟件。我們是在Kilo Code插件中體驗的模型編程，由Elephant驅動的多個子Agent并行工作，進一步放大了它的輸出速度優勢，但是其最終打造的結果僅能算是一個原型。這種表現可能與其較小的參數量有關。

再來看看Elephant在長文本場景的表現。我們向模型發送了一份幾百頁的招股書，并給出十分詳細的IPO解讀要求，讓Elephant輸出對這家公司基本面的總結。這種復雜的提示詞，對模型的指令遵循能力是一種挑戰。

在執行過程中，Elephant可以快速調用多個文件讀取工具，以極快的速度輸出解讀。它用12萬token完成了對這份復雜文件的梳理，耗時卻僅有幾十秒。

細讀它的解讀可以發現，模型完全按照我們的要求梳理出了核心信息，沒有遺漏，數據、結論都基本準確。

我們還嘗試了讓Elephant完成Agent類型的任務：將其接入一個OpenClaw類的產品，并要求它規劃一次去泰國的7日游，搜索景點注意事項、定位等關鍵信息，最終打造一個攻略網站。

Elephant可以充分利用Agent框架為其提供的工具，調用搜索等工具，獲取和泰國旅行相關的信息。

最終，Elephant在這種開放式Agent任務上做得不錯，旅程規劃合理，覆蓋了重要的景點。它還在高德上為我們查找了對應地點的定位，點擊后即可跳轉到相應界面。

幾個任務跑下來，我們發現Elephant在執行任務中展現了優秀的速度與指令響應能力，前端原型開發和長文件處理效率不錯，但在打造完整項目級應用時仍然有些力不從心。其Agent規劃與工具調用能力可圈可點，能自主完成旅行攻略到網站落地。總體而言，這是一款在輕量級、高頻任務中具有優勢的高效模型。

二、第三方評估：指令遵循滿分，token效率比肩GPT-5.4 Mini

Elephant在更全面的第三方基準測試上的表現如何？AI Benchy上對這一模型的評估值得參考。

AI Benchy是一個“擠水分”的民間AI測謊儀。如果你是一名開發者，或者你需要用 AI 來做自動化工作流，相比于各家大廠的官方跑分，AI Benchy提供的“指令遵循度”和“真實性價比”數據往往具有更高的參考價值。

從絕對實力來看，Elephant在AI Benchy上并未進入第一梯隊，但這可能本來就不是它的目標。在同參數量級的模型中，Elephant真正主打的是高效率與高性價比。

在token消耗維度，同樣的邏輯推理或代碼審計任務交給Elephant，其token用量要遠少于其他廠商的模型，基本和GPT-5.4 Mini處在同一水平線上。這種高token效率，尤其適合大規模的to-C場景或是重復性的日常任務。

這種高效率在Agent場景尤為重要。因為Agent工作流本質上是多輪串行或并行的循環過程，模型需要反復規劃、調用工具、觀察結果、再規劃，每一輪都會消耗token并引入延遲。高token效率意味著模型在有限的上下文窗口和預算內可以執行更多輪操作，能用更少的計算資源跑完更長的Agent鏈路。

而在響應時間方面，Elephant能做到基本在1秒左右給出回答，提供幾乎無延遲感的交互體驗，這一定程度上緩解了用戶在等待生成結果時的焦躁感，提升用戶體驗。

這種低時延效果是不少廠商追逐的重點。前段時間，谷歌CEO Sundar Pichai就分享了一個觀點：“延遲是優秀產品的核心特征之一，低延遲往往意味著產品的底層技術架構足夠優秀，…，這也是我們打造Gemini的核心思路，即在前沿性能與速度之間找到平衡。”

換句話說，低延遲不只是“快”這么簡單，它背后往往代表著一套更扎實、更成熟的技術體系和更好的用戶體驗，最終會轉化為真實的商業價值。

最后，在指令遵循方面，Elephant拿到了一致性的滿分成績和100%的通過率，也就是說這個模型比較“聽話”。這能夠降低任務執行過程中與模型反復交互、理清需求帶來的時間和算力浪費。

結語：不拿大炮打蚊子，輕量模型也有價值

其實，在最初測試Elephant模型時，我們并未被它的基礎能力驚艷，甚至一度有所懷疑。但隨著深入真實任務場景，它的實用價值才真正顯現出來。

當前，前沿模型的規模正不斷擴大，生成的答案也越來越長。然而在真實的業務流水線中，用萬億參數模型去處理基礎文本分類或信息抽取，無異于“大炮打蚊子”：既浪費算力，又導致token無意義消耗和時延飆升。

正因如此，剝離對龐大體量的迷信，根據任務復雜度精準匹配模型尺寸，讓每一個token都用在刀刃上，已經成為大模型規模化落地過程中，開發者和企業的共識。

在能反映真實調用量的OpenRouter平臺上，曾由超大規模模型壟斷的榜單，正被一批講究“token效率”的精銳小模型打破。這并非是對旗艦模型能力的否定，而是工程理性回歸的信號。相較于那些參數量最大、最“智能”的模型，那些能以最低成本、最快響應速度完成任務的模型，正展現出成為Agent操作系統的成長潛力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.