網易首頁 > 網易號 > 正文申請入駐

誰是AI之王？聊聊備受爭議的AI評測與崛起的LMArena

2025-11-01 10:25:32　來源: 硅谷101

上海舉報

分享至

撰稿｜張珺玥

編輯｜陳茜

在大模型激戰(zhàn)的當下，究竟誰更強？是OpenAI的GPT，還是Anthropic的Claude？是谷歌的Gemini，還是中國的DeepSeek？

當AI模型排行榜開始被各種刷分作弊之后，誰家大模型最牛這個問題就變得非常主觀，直到一家線上排行榜誕生，它叫：LMArena。

在文字、視覺、搜索、文生圖、文生視頻等不同的AI大模型細分領域，LMArena上每天都有上千場的實時對戰(zhàn)，由普通用戶來匿名投票選出哪一方的回答更好。最近以來，很多AI研究者都紛紛發(fā)聲，認為大模型競賽的下半場，最重要的事情之一就是重新思考模型評估。

因為當技術創(chuàng)新趨于飽和，真正拉開差距的，可能將不再是誰的參數(shù)更多、推理更快，而是誰能更準確地衡量、理解模型的智能邊界。

在大模型評測上，傳統(tǒng)的Benchmark（基準測試）究竟存在什么問題，是已經過時了嗎？LMArena的競技場模式為什么會被視為一種新的標準？它的技術機制、公平性和商業(yè)化隱藏著怎樣的挑戰(zhàn)？而下一代的大模型評測，又可能會走向哪里？

（本文為視頻改寫，歡迎大家收看以下視頻）

題庫泄露、數(shù)據污染傳統(tǒng)Benchmark為何失靈？

在LMArena之前，AI大模型是怎么被評估的呢？方式其實非常“傳統(tǒng)”。研究者們通常會準備一組固定的題庫，比如MMLU、BIG-Bench、HellaSwag等等。這些名字普通人看起來很陌生，但在AI學術界幾乎家喻戶曉。

這些題庫涵蓋學科、語言、常識推理等多個維度，通過讓不同模型作答，再根據答對率或得分來對模型進行比較。

比如MMLU，全稱是“Massive Multitask Language Understanding”，它涵蓋了從高中到博士級別的57個知識領域，包括歷史、醫(yī)學、法律、數(shù)學、哲學等等，模型既需要回答像“神經網絡中的梯度消失問題如何解決”的技術問題，也需要回答“美國憲法第十四修正案的核心內容是什么”的社會科學問題，學科跨度很大。

BIG-Bench更偏向推理和創(chuàng)造力，比如讓模型解釋冷笑話、續(xù)寫詩歌或完成邏輯填空。HellaSwag則專門用來測試模型對日常情境的理解能力，比如“一個人正在打開冰箱，接下來最可能發(fā)生什么？”等等。

這些Benchmark在過去二十年幾乎主導了整個 AI 研究領域。它們的優(yōu)點顯而易見：標準統(tǒng)一、結果可復現(xiàn)。學術論文只要能在相關公開數(shù)據集上刷新分數(shù)，就意味著“性能更強”。而AI的上半場也正是在這種“比成績”的節(jié)奏下高速發(fā)展起來的。

但這些早期的Benchmark是靜態(tài)的，多以單輪問答、選擇題形式為主，題目結構簡單、評測維度明確，便于統(tǒng)一打分和橫向比較。

然而，當模型的能力越來越強、訓練數(shù)據越來越龐大時，這些Benchmark的局限開始顯現(xiàn)。

首先是“題庫泄漏”，很多測試題早就出現(xiàn)在模型的訓練語料里。于是，一個模型在這些測試上得分再高，也不代表它真的“理解”了問題，只能說明它“記住”了答案。

其次，Benchmark永遠測不出模型在真實交互中的表現(xiàn)，它更像是一場封閉的考試，而不是一次開放的對話。

華盛頓大學助理教授、英偉達首席研究科學家，同時也是LMArena早期框架搭建參與者朱邦華在采訪中表示，正是因為傳統(tǒng)的靜態(tài)Benchmark所存在的過擬合、數(shù)據污染等問題，才催生出了Arena這種新的模型測評方式的出現(xiàn)。

朱邦華華盛頓大學助理教授英偉達首席研究科學家：當時比較流行的幾個Benchmark，比如Math500、MMLU，有幾個問題。

大家非常容易overfit（過擬合），比如一共就有幾百個問題，我如果都有ground truth（標準答案），而且我都有訓練在ground truth（標準答案）上，雖然有一些所謂的contamination detection method（污染檢測方式），但其實這個是比較難真的百分之百做到detection（檢測）。所以這種static benchmark（靜態(tài)基準），一是數(shù)量很少，二是大家可能覆蓋面不太夠，它可能就有最簡單的數(shù)學，最簡單的一些基礎知識，然后最簡單的一些代碼生成，像HumanEval這種。

當時的Benchmark數(shù)量少，同時coverage（覆蓋面）也不太好的情況下，Arena就作為一個非常獨特的Benchmark出現(xiàn)了，因為它每一個問題都是unique（獨特的），它可能是世界各地的人問，可能是俄羅斯或者越南的人在問你這樣一個問題，同時他問的問題真的就是隨時隨地、當時當?shù)厝ハ氲囊粋€問題，所以這個事就很難去在當時overfit（過擬合），尤其是在當時大家都沒有Arena數(shù)據的時候。

從伯克利實驗室到全球擂臺賽LMArena如何運作？

2023年5月，LMArena的雛形誕生于由全球頂尖學府組成的非營利性開放研究組織LMSYS。核心成員包括Lianmin Zheng、Ying Sheng、Wei-Lin Chiang等人。

當時他們剛剛發(fā)布了開源模型Vicuna，而斯坦福大學在此之前也推出了另一個類似的，叫Alpaca。因為這兩個模型都是基于大型語言模型進行微調的開源項目，于是LMSYS的團隊想知道，從性能和表現(xiàn)上來看，究竟誰更勝一籌？

當時并沒有合適的評測方法能回答這個問題。LMSYS團隊嘗試了兩種方法：

一是嘗試讓GPT-3.5作為評委，對不同模型生成的答案打0到10分，這種方法后來演化成MT-Bench（Model-Test Benchmark）。

另一種方式是采用人類比較（Pairwise Comparison），即隨機挑選兩個模型，針對同一個問題分別生成回答，再讓人類評審選擇哪一個更好。

最終，第二種方式被證明更可靠，并由此誕生了Arena的核心機制。

基于此，他們首先搭建了一個實驗性網站Chatbot Arena，也就是今天的 LMArena的前身。在傳統(tǒng)的基準測試里，模型是在預設題庫中答題，而在Chatbot Arena上，它們則要“上場打擂臺”。

當用戶輸入一個問題后，系統(tǒng)會隨機分配兩個模型，比如GPT-4和Claude，但用戶并不知道自己面對的是誰。兩邊模型幾乎同時生成回答，用戶只需投票：左邊好，還是右邊好？等投票完成后，系統(tǒng)才會揭示它們的真實身份。這個過程被稱作 “匿名對戰(zhàn)”。

投票結束后，系統(tǒng)基于Bradley–Terry模型實現(xiàn)Elo式評分機制，分數(shù)會根據勝負實時變化，從而形成一個動態(tài)排行榜。

Elo排名機制最早來自國際象棋。每個模型都有一個初始分數(shù)，每次贏一場就漲分，輸一場就扣分。隨著對戰(zhàn)次數(shù)增加，分數(shù)會逐漸收斂最終形成一個動態(tài)的模型排行榜。

這種機制的妙處在于，它讓評測變成了一場“真實世界的動態(tài)實驗”，而不再是一次性的閉卷考試。除此之外，LMArena不僅僅只是“讓模型打架”，它背后還有一個獨特的“人機協(xié)同評估框架”。

這個框架的邏輯是用人類投票去捕捉“真實偏好”，再通過算法去保證“統(tǒng)計公平”。平臺會自動平衡模型的出場頻率、任務類型和樣本分布，防止某個模型因為曝光量大而被“高估”。換句話說，它讓評測既開放又可控。更重要的是，Chatbot Arena的所有數(shù)據和算法都是開源的，任何人都可以復現(xiàn)或分析結果。

作為LMArena早期搭建的核心參與者，朱邦華告訴我們，LMArena的技術本身并不是新算法，更多的是經典統(tǒng)計方法的工程化實現(xiàn)。它的創(chuàng)新點不在于模型本身，而在于系統(tǒng)架構與調度機制。

朱邦華華盛頓大學助理教授英偉達首席研究科學家：一方面，雖然這個Bradley–Terry Model本身沒有什么太多技術上的新的東西，但是你怎么選模型這個事是比較新的，是大家摸索出來的。

現(xiàn)在假設有100個模型，我想了解到底哪個更好，你其實需要一些active learning（主動學習）。假設我選了一些模型出來，已經知道它們大概怎么樣了，那接下來選模型就應該選一些更不確定的模型，然后去做比較。怎么去dynamically（動態(tài)）選出更適合來對比的模型，是我們當時探索比較多的事兒。當時我們做了一些相關的系列研究，又去做了一些實驗性研究，去比較一下怎么去調這些不同的參數(shù)，能讓更好的模型被選出來，這是LMArena成功的一個因素。

我個人覺得這種項目可能還有一些時機和運氣的成分在里面。因為當時大家都需要很好的評估基準，這時人類偏好又完全沒有被saturated（飽和）。那時的人類偏好確實比較真實地反應模型本身的能力，所以在那個時候，我覺得Arena作為這個行業(yè)的gold benchmark（黃金基準）是非常合理的。

圖片來源：LMArena

LMArena這種“匿名對戰(zhàn) + 動態(tài)評分”的方式，被認為是從靜態(tài)Benchmark向動態(tài)評測的一次躍遷。它不再追求一個最終分數(shù)，而是讓評測變成一場持續(xù)發(fā)生的“真實世界實驗”。

它就像是一個實時運行的AI智能觀測站。在這里，模型的優(yōu)劣不再由研究者定義，而是由成千上萬用戶的選擇來共同決定。

2023年12月底，前特斯拉AI總監(jiān)、OpenAI早期成員Andrej Karpathy在X（推特）上發(fā)了一條關于LMArena 的推文，稱“目前他只信任兩個 LLM 評測方式：Chatbot Arena和r/LocalLlama”，給Chatbot ArenaI社區(qū)中收獲到了第一批“流量”。

2023年底到2024年初，隨著GPT-4、Claude、Gemini、Mistral、DeepSeek等模型的陸續(xù)接入Chatbot Arena，平臺的訪問量迅速增長。研究者、開發(fā)者、甚至普通用戶，都在這里觀察模型的“真實表現(xiàn)”。

到了2024年底，平臺的功能和評測任務開始擴展，除了語言模型的對話任務，團隊還逐漸涉及到了大模型的“細分賽道”，陸續(xù)上線了專注代碼生成的Code Arena、專注搜索評估的Search Arena、專注多模態(tài)圖像理解的Image Arena等子平臺。

圖片來源：LMArena

為了體現(xiàn)評測范圍的擴展，平臺也在2025年1月正式從Chatbot Arena更名為LMArena（Large Model Arena）。幾個月前，谷歌Nano Bnana的爆火也是讓更多普通用戶關注到了LMArena。至此，LMArena從一個研究者間的小眾項目，徹底成為AI圈乃至公眾視野中的“大模型競技舞臺”。

不久前爆火的谷歌最新文生圖模型Nano Banana，它其實最早以神秘代號出現(xiàn)、并引發(fā)“破圈式”關注的地方就是LMArena。

最近網友們發(fā)現(xiàn)谷歌又故技重施，傳聞已久的Gemini 3.0被發(fā)現(xiàn)已經出現(xiàn)在了LMArena上。根據網友們的測試反饋，Gemini3.0 Pro的代號應該是lithiumflow，而Gemini 3.0 Flash是orionmist。據說能“讀表”、能作曲和演奏，能力再一次全方位飛升。

不難看出，在正式發(fā)布新模型前，讓它們在LMArena上跑一跑，似乎已經成為了谷歌的慣例操作。而實際上，各家模型其實早就已經把LMArena當作了“常規(guī)賽場“，用來測試普通用戶最真實的反饋。

除了Google，OpenAI、Anthropic、Llama、DeepSeek、混元、千問……幾乎所有的頭部模型都在LMArena“打擂臺”。

刷榜、偏見與資本

LMArena光環(huán)之下的“公平性”危機

LMArena 的火爆，讓它幾乎成了大模型評測的“非官方標準”，但和所有新的實驗一樣，隨著光環(huán)越來越大，它也受到了越來越多的質疑。

首先是公平性問題。在 LMArena 的匿名對戰(zhàn)機制中，用戶的投票結果直接決定模型的Elo排名，然而，這種“人類評判”的方式，并不總是中立的。

不同語言背景、文化偏好甚至個人使用習慣，都會影響投票結果。一些研究發(fā)現(xiàn)，用戶更傾向于選擇“語氣自然”“回答冗長”的模型，而不一定是邏輯最嚴謹、信息最準確的那一個。這意味著，模型可能因為“討人喜歡”而獲勝，而非真的更聰明。

2025年初，來自Cohere、斯坦福大學以及多家研究機構的團隊聯(lián)合發(fā)布了一篇研究論文，系統(tǒng)分析了LMArena的投票機制與數(shù)據分布。研究指出，Arena的結果與傳統(tǒng)benchmark分數(shù)之間并非強相關，而且存在“話題偏差”與“地區(qū)偏差”，也就是說不同類型的問題、或不同用戶群體的投票，可能顯著改變模型的排名。

此外，還有 “游戲化” 與“過擬合” 的問題。當LMArena的排名被廣泛引用、甚至被媒體視為模型能力的“權威榜單”時，一些公司開始為“上榜”專門優(yōu)化模型的回答風格。比如更積極地使用模糊語氣、提升字數(shù)密度、或在提示工程上精細調教，以希望“贏得投票”。

Cohere的那篇研究論文就明確指出，大型供應商在獲取用戶數(shù)據方面擁有顯著優(yōu)勢。通過API接口，它們能夠收集到大量的用戶與模型交互的數(shù)據，包括提示和偏好設置。

然而，這些數(shù)據并未被公平地共享，62.8%的所有數(shù)據都流向了特定的模型提供商。比如Google和OpenAI的模型分別獲得了Arena上約19.1%和20.2%的全部用戶對戰(zhàn)數(shù)據，而其他83個開源模型的總數(shù)據占比僅為29.7%。

這使得專用模型供應商能夠利用更多的數(shù)據進行優(yōu)化，甚至可能針對LMArena平臺進行專門優(yōu)化，導致過度擬合特定指標，從而提升排名。

一個典型例子是 Meta 的“刷榜事件”。今年4月，Meta在LMArena上提交的Llama 4 Maverick模型版本，表現(xiàn)超越GPT-4o與Claude，躍居榜單第二。但隨著Llama 4大模型開源版上線，開發(fā)者們發(fā)現(xiàn)其真實效果的表現(xiàn)并不好，因此質疑Meta疑似給LMArena提供了經過專門針對投票機制的優(yōu)化的“專供版”模型，導致Llama 4的口碑急轉直下。

輿論爆發(fā)后，LMArena官方更新了排行榜政策，要求廠商披露模型版本與配置，以確保未來評估的公平性和可重復性，并將把公開的Hugging Face版本的Llama 4 Maverick加入排行榜進行重新評估，但事件仍然在當時引發(fā)了業(yè)內關于“評測公正性”的激烈討論。

除了系統(tǒng)和技術上的挑戰(zhàn)，LMArena的商業(yè)化也讓它的中立性受到質疑。

2025年5月，LMArena背后的團隊正式注冊公司“Arena Intelligence Inc.”，并宣布完成1億美元種子輪融資，投資方包括a16z、UC Investments和 Lightspeed等。

這也意味著，LMArena正式從一個開源研究項目，轉變?yōu)榫邆渖虡I(yè)化運營能力的企業(yè)。公司化后，平臺可能開始探索數(shù)據分析、定制化評測和企業(yè)級報告等商業(yè)服務。

這一轉變，也讓業(yè)界開始擔憂，當資本介入、客戶需求與市場壓力疊加時，LMArena是否還能保持最初“開放”與“中立” ？它的角色是否會從“裁判”變成“利益相關方”？

在LMArena之后，大模型評測似乎進入了一個新的拐點。它解決了過去Benchmark靜態(tài)、封閉的問題，卻也暴露出新的矛盾。那就是當評測數(shù)據、用戶偏好、甚至投票機制，都可能成為商業(yè)競爭的一部分，我們該如何界定“公平”？究竟什么樣的模型評估方式，才是當前所需要的呢？

從“實戰(zhàn)”到“動靜結合”

未來評測走向何方？

實際上，LMArena的出現(xiàn)，并不意味著傳統(tǒng)的Benchmark已經過時。在它之外，靜態(tài)的Benchmark仍然在持續(xù)演化。

近幾年來，基于傳統(tǒng)的Benchmark，研究者陸續(xù)推出了難度更高的版本，比如MMLU Pro、BIG-Bench-Hard等。此外，一些全新的、聚焦于細分領域的Benchmark也在被不斷創(chuàng)造出來，比如數(shù)學與邏輯領域的AIME 2025、編程領域的SWE-Bench、多智能體領域的AgentBench等等。

這些新的Benchmark，不再只是“考知識”，而是在模擬模型在真實世界中的工作方式。從過去單一的考試題集，演化為了一個龐大而多層次的體系：有的評推理，有的測代碼，有的考記憶與交互。

與此同時，評測也正在進一步走向“真實世界”。比如最近一家名為Alpha Arena的新平臺就引發(fā)了大量關注。它由創(chuàng)業(yè)公司nof1.ai推出，在首輪活動中，平臺選取了Deepseek、Genimi、GPT、Claud、Gork和千問等六大模型在真實的加密貨幣交易市場中進行對戰(zhàn)。

它給了每個模型相同的資金和Prompt，讓它們獨立決策和交易，最終以實際收益和策略穩(wěn)定性作為評測依據。結果是：DeepSeek竟然贏了！不愧是量化基金母公司下面做出來的AI模型。

雖然這個對戰(zhàn)更多是“噱頭”為主，大語言模型去預測股市現(xiàn)在還是非常不靠譜的，但Alpha Arena的這種“實戰(zhàn)式評測”再一次跳出了傳統(tǒng)的題庫和問答框架，讓模型在動態(tài)、對抗的環(huán)境中被檢驗，被視為是繼LMArena之后，又一次嘗試讓AI在開放世界中接受考驗的實驗。

不過，Alpha Arena更偏向特定任務領域的真實驗證，其結果也更難復現(xiàn)與量化。

實際上，這些Arena出現(xiàn)的意義，也并非是要取代靜態(tài)Benchmark，而是為這個體系提供一面鏡子，試圖把靜態(tài)測試中難以衡量的人類偏好與語義細節(jié)，重新引入到評測系統(tǒng)中。

也就是說，未來的模型評估，不再是靜態(tài)Benchmark和Arena之間的二選一，而更可能是一種融合式的評測框架。靜態(tài)benchmark負責提供可復現(xiàn)、可量化的標準；而Arena負責提供動態(tài)、開放、面向真實交互的驗證。兩者結合，進而構成衡量智能的完整坐標系。

在這個評估體系中，目前最重要、也具挑戰(zhàn)的部分是什么呢？朱邦華認為，隨著大模型能力提升，原有測試集“太簡單”的問題愈發(fā)突出，Arena的自動難度過濾提出了階段性解決方案，但真正的方向是由人類專家與強化學習環(huán)境共同推動的高難度數(shù)據建設。

朱邦華華盛頓大學助理教授英偉達首席研究科學家：之前包括Arena在內，大家會抱怨一個問題：簡單的問題太多了。隨著模型變得越來越強，“簡單”的定義也會變得越來越大，可能越來越多的prompt都屬于是easy prompt。

所以當時Arena出了一個Hard Filter Version（難度過濾版），它直接問模型說哪一個更難，然后去篩選一些hard prompt出來。現(xiàn)在隨著thinking model（具備顯式思維鏈的模型）的引入，也隨著大家接著用RL（強化學習）訓練各種各樣的模型，這個原來難的問題、原來難的prompt現(xiàn)在也不是特別難了。

所以這個時候可能就更需要人類專家，去標各種各樣更難的數(shù)據作為Benchmark（基準測試），這也是我們作為模型開發(fā)者正在做的事兒。如果你看的Grok 4，它們可能做Pretraining-scale RL（預訓練規(guī)模強化學習）。一方面你的RL數(shù)據就得非常多，另一方面，如果你RL數(shù)據都是用非常簡單的數(shù)據，那其實對模型不會有任何提升，所以你需要大量的、非常困難的數(shù)據。

包括我現(xiàn)在在英偉達做的一個事，也是想做一個RL Environment Hub（強化學習環(huán)境平臺），讓大家去創(chuàng)造更多更難的這種環(huán)境進來，能讓更多人來用RL去訓練它。

朱邦華談到，大模型評估的未來，不會是線性的改進，而是螺旋式的共演。一邊是不斷變強的模型，另一邊是不斷變難的評測。模型的突破，迫使評測體系升級；而新的評測，又反過來定義了模型的能力邊界。而高質量的數(shù)據成為了連接兩者的中軸。

圖片來源：mercor

朱邦華華盛頓大學助理教授英偉達首席研究科學家: RL和Evaluation（評測），或者說Training（訓練）和Evaluation（評測）就像是雙螺旋的感覺，一方面Training訓練）不斷地讓模型變強，然后你就會有更難的基準測試出來說：你現(xiàn)在的這個模型還不行。然后，你就會提升你的訓練，比如說環(huán)境的難度，或者是你找更好的model architecture（模型架構）、更好的算法，然后把模型能力再提升，你可能就需要更難的評測。現(xiàn)在似乎就已經到了，大家這兩步都得慢慢不斷地找人類專家來去標的程度。

現(xiàn)在大部分RL Environment Labeling（強化學習環(huán)境標注）的工作他們都會去找博士級別的人，比如頂尖的Math PhD（數(shù)學博士）、頂尖的CS PhD（計算機科學博士）去標math coding data（數(shù)學代碼數(shù)據），然后這個數(shù)據賣的也非常貴，一條可能就是幾千美元的水平。所以現(xiàn)在大家慢慢的都偏向找這種expert data（專家數(shù)據），能夠讓GPT-5或者是其他頂尖模型都沒有辦法回答或者回答錯的數(shù)據，通過這種方式來構造更難的Training data（訓練數(shù)據）和Evaluation data（評估數(shù)據）。

除了數(shù)據質量至關重要之外，朱邦華還認為，研究者不僅要“造benchmark”，更要學會“選benchmark”。如何在成百上千個數(shù)據集中進行篩選、組合與聚合，建立一個兼顧統(tǒng)計有效性與人類偏好的聚合框架，也將是接下來幾年重要的工作方向。

正如OpenAI的研究員姚順雨在他的博客《The Second Half》中寫道：AI 的上半場，是關于“如何訓練模型”；而下半場，則是“如何定義與衡量智能”。如今，評測不再只是AI模型性能的終點，而正在成為 AI 向前發(fā)展的“核心科學”。

究竟什么樣的評估方法才是最優(yōu)的，或許我們目前還無法下定論。但能夠預見的是，這將是一場持續(xù)進行的實驗：我們需要在成百上千個benchmark中找到那些真正有價值的任務，然后在類似于LMArena這樣的“競技場”中去捕捉人類偏好的信號，最后再將它們結合成一個動態(tài)、開放、可信的智能測量體系。

也許在那一天，我們不再需要問“哪個模型最強？”而是去真正探索 “智能，究竟是什么？” 歡迎大家給我們留言，你們覺得LMArena的方式是否是衡量模型的最好標準？

視頻有視覺和音樂的加持，更能呈現(xiàn)出這些精彩的故事細節(jié)。請?zhí)D至硅谷101【視頻號】收看完整版

注：部分圖片來源于網絡

【本期節(jié)目不構成任何投資建議】

【視頻播放渠道】

國內：B站｜騰訊｜視頻號｜西瓜｜頭條｜百家號｜36kr｜微博｜虎嗅

海外：Youtube

聯(lián)系我們：video@sv101.net

【創(chuàng)作團隊】

監(jiān)制｜泓君陳茜

撰稿｜張珺玥

主持｜陳茜

剪輯｜Frentee 橘子

動效｜踹

運營｜王梓沁孫澤平何源清

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.