網易首頁 > 網易號 > 正文申請入駐

AI智能體不是越多越強：信息冗余構成了LLM Agent Scaling的瓶頸

2026-02-27 14:45:03　來源: 機器之心Pro

河北舉報

分享至

近年來，基于大語言模型的多智能體系統（LLM-based Multi-Agent Systems, MAS）被廣泛用于復雜推理任務。典型做法是讓多個 agent 獨立生成并通過投票或辯論等機制聚合決策，從而在算術推理、常識推斷與專業問答中提升準確率。

隨著 test-time compute（推理時計算）成為常見的能力提升手段，一個自然的問題隨之出現：MAS 是否能通過不斷增加 agent 數量而持續變強？直覺上，這個設想似乎成立：類似 ensemble 或 self-consistency 的「多次采樣 + 聚合」往往能提高覆蓋正確答案的概率。

來自上海交通大學、UC Berkeley、加州理工學院以及約翰?霍普金斯大學的聯合研究論文Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity 表明：多智能體系統「擴不動」的真正原因，并不是 Agent 不夠多，而是信息冗余。系統實驗發現，單純堆規模收益迅速枯竭，而引入多樣性可以顯著延緩飽和、以更少的 Agent 獲得更強的性能。

論文標題：Understanding Agent Scaling in LLM-Based Multi-Agent Systems via Diversity
論文地址：https://arxiv.org/pdf/2602.03794
GitHub 代碼：https://github.com/SafeRL-Lab/Agent-Scaling

同質擴展的失效：

規模帶來的收益迅速飽和

論文首先直接檢驗「增加 agent 數是否有效」。在同質設置下，所有 agent 共享相同底座模型與系統提示（無 persona 差異，配置一致），采用兩類常見協作機制：

Vote：單輪獨立生成后多數投票；
Debate：多輪交互后再給出最終答案（交互 4 輪）。

僅改變 agent 數 N，在 7 個基準任務（GSM8K、ARC、Formal Logic、TruthfulQA、HellaSwag、WinoGrande、Pro Medicine）上評估。

結果在不同任務與模型上高度一致：當 N 從 1 增至 2 或 4 時，性能通常明顯提升；但繼續增加 N 后，準確率迅速進入平臺期，邊際收益接近 0，部分設置甚至出現回落。這說明：在同質配置下，單純堆疊更多 agent calls 并不能持續注入新的有效信息。

多樣性帶來的對照現象：

少量異質 agent 勝過大規模同質系統

與同質擴展的快速飽和形成鮮明對比的是，多樣性配置下的實驗結果。論文進一步比較了兩類系統：一類由同一模型多次獨立運行構成，另一類則由不同 backbone 模型或不同 persona prompt 組成。在匹配計算預算（固定總 agent calls）的前提下，異質系統在同預算下整體更高，并且在更大的 N 上仍能保持增益。

為了更系統地理解這一現象，作者在實驗中將多樣性拆解為不同來源，包括 persona 多樣性、模型多樣性，以及二者結合的完全多樣性，并在統一設置下進行對比。

在 GSM8K、ARC、HellaSwag、TruthfulQA 等七個基準任務上，作者系統比較了：

Agent 完全一致（L1）
Agent Persona 多樣性（L2）
Base Model 多樣性（L3）
Persona多樣性兼Base Model多樣性(L4)

結果顯示，每引入一層新的多樣性，系統整體性能都會顯著上移；其中，模型多樣性和 persona 多樣性各自都具有獨立貢獻，而二者結合時效果最為顯著。

這一趨勢在效率層面體現得尤為明顯：在多個任務上，僅使用2 個完全異質的 agent，就可以達到甚至超過16 個同質 agent的平均性能。

限制多智能體擴展的不是規模

而是信息冗余

將這些實驗結果串聯起來，論文在經驗層面得出了一個清晰結論：多智能體系統的擴展瓶頸并不來自 agent 數量不足，而來自 agent 輸出之間的高度相關性。在同質配置下，多個 agent 往往沿著相似的推理路徑生成答案，新增調用所帶來的大多是重復信息；而多樣性的作用，在于引入互補視角，降低輸出冗余，使系統能夠在相同甚至更小的計算預算下獲得更多有效證據。

基于這一系列實驗現象，作者進一步提出信息論分析框架，引入「有效信息通道」等概念，對「規模失效」與「多樣性優勢」給出統一解釋。與其說這項工作提出了新的 agent 架構，不如說它明確指出：多智能體系統里真正稀缺的資源不是調用次數，而是非冗余的信息來源

信息論視角：

性能由「有效信息」而非「調用次數」主導

作者考慮一個包含 N 個大模型智能體的多智能體系統，每個智能體具有自身配置，包括基座模型（backbone model）、系統提示詞（system prompt）、角色設定（persona）與工具能力（tool access）。系統接收問題輸入 X，按預設工作流執行若干次推理（記為 n 次），最終輸出答案。

從信息論角度，得到正確答案 Y 的成功率并不簡單由 N 與 n 決定，而取決于系統能夠提供多少關于 Y 的信息。作者用條件熵 H (Y|X) 刻畫任務的內在難度：在給定問題 X 的情況下，正確答案 Y 仍然存在的剩余不確定性。

同質配置下，即便新增智能體，往往也只是在相似推理路徑下重復采樣，因而對降低不確定性幫助有限；
異質配置下，新增智能體更可能引入新的推理路徑，與既有路徑互補，從而更有效地減少不確定性。

為刻畫這一差異，作者定義：

在該設定下，作者基于若干建模假設推導出一個近似形式，用于刻畫趨勢而非精確預測。作者認為，系統可獲得的有效信息量（并據此關聯成功率）主要受如下量支配：

該結果強調：影響系統性能的關鍵不在于 “智能體數量或推理次數”，而在于系統中有效信息通道的數量—— 也就是多樣化所帶來的非冗余信息規模。它也解釋了為何實踐中常見「邊際效益遞減」：當有效信息通道增長受限時，新增調用帶來的有效信息增量會快速衰減。

作者還給出了在實踐中估計有效信息通道 K 的方法，并在 GSM8K、ARC、Formal Logic、HellaSwag、WinoGrande、Pro Medicine 等數據集上驗證：經驗成功率與理論預測總體吻合。

進一步地，作者將系統輸出拆分為「正確推理路徑」與「錯誤推理路徑」，分別估算其對應的有效信息通道數量。實驗一致表明：當正確推理路徑對應的有效信息通道更多時，多智能體系統表現更好。這意味著系統設計不應盲目追求多樣性本身，而應追求與任務相關的推理多樣性 —— 即提升與正確推理相關的有效信息通道數。

總結

論文的核心經驗結論是：多智能體擴展的關鍵不在于把 N 做大，而在于讓新增調用帶來新的有效證據。只要輸出高度相關，同質擴展就會很快進入平臺期；而多樣性能夠提升效率，是因為它更可能產生互補推理路徑。換句話說，多智能體系統里稀缺的不是調用次數，而是非冗余信息。

實踐上可以用一個簡單標準指導擴展：當增加 agent 主要帶來「同一思路的重復」時，應停止堆同質數量，轉而引入可控的異質性（方法互補的 persona、不同模型家族、工具能力互補）；只有當這些改動確實帶來額外增益時，再繼續擴大規模。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.