網易首頁 > 網易號 > 正文申請入駐

社會模擬邁入可控、可量化時代：為AI Agent加上「認知滑條」

2026-03-27 17:03:16　來源: 機器之心Pro

天津舉報

分享至

用大模型做社會模擬，你能保證換個模型， Agent 還會做出一樣的決策嗎？在 LLM-based 社會模擬中，研究者通常用一段自然語言描述來定義 Agent 的行為，例如「John Lin 是一個社區藥店老板，他熱心助人……」。這種基于人設的 Agent 定義方式已被廣泛采用，幾乎成為社會模擬領域的標準范式。然而：這些描述究竟是在「定義 Agent 」，還是只是提供了一種松散且無法穩定復現的行為暗示？

UCSD 團隊在 CHI 2026 Best Paper 論文CoBRA （眼鏡蛇）中提出了一套可量化、可驗證、可復現的 Agent 控制框架。它將經典社會科學實驗轉化為可復用的校準環境，使 Agent 行為可被測量、反饋與收斂，建立類似實驗科學的變量控制機制，并在輸入、激活與參數空間實現定量化控制。

CoBRA 標志著AI 社會模擬從經驗式敘述走向可控、可復現的實驗科學范式。

視頻鏈接：https://mp.weixin.qq.com/s/FJULL6lcvqIFE4NaCEOx7w

論文標題：CoBRA: Programming Cognitive Bias in Social Agents Using Classic Social Science Experiments
論文鏈接：https://arxiv.org/abs/2509.13588
代碼鏈接：https://github.com/AISmithLab/CoBRA
項目主頁：https://cobra.clawder.ai

自然語言人設的可控性困境

研究者首先做了一組先導實驗。他們用經典社會科學實驗——亞洲疾病問題——來測試 Agent 的框架效應。這是行為決策研究中的經典范式：當同一個結果被描述為「 200 人被救活」或「 400 人將死亡」時，人類會系統性地改變決策偏好。

他們設計了三種 Agent 人設——經濟學家、普通人和空白（無描述）——并在 Mistral 7B 、 Gemma2 9B 、 GPT-4o Mini 、 DeepSeek-v3 四個模型上進行了測試。

結果令人反思：

同一描述，不同模型，行為完全不同。結果顯示所有條件下跨模型行為差異顯著。例如， Mistral 7B 的回答嚴重偏向正面框架，而 Gemma2 9B 的回答接近中性。
隱式描述無法可靠地產生預期行為。社會科學研究表明，經濟學專家往往比普通人更不容易受到框架效應的影響。但四個模型中，只有 GPT-4o 的結果勉強符合這一預期； DeepSeek 中經濟學家反而比普通人更容易受影響； Mistral 三種人設幾乎沒有區別。

一句話總結：用自然語言給 Agent 寫人設，在科學意義上是不可控的、不可復現的。

CoBRA：用經典實驗為 Agent 行為「標定刻度」

圖：CoBRA 工作流

CoBRA 的核心思路出奇地優雅：把經過幾十年驗證的經典社會科學實驗當作 Agent 的「考試」，測完再調，調到達標。

例如，我們希望精確指定一個 Agent 受到「框架效應」這種認知偏差的影響程度，就可以讓它參加經典的「亞洲疾病問題」等實驗，測量其決策差異，將這種差異量化為偏差指數，并根據目標水平調節控制系數，再次測量，直至其偏差程度達到預設值。

CoBRA 以「認知偏差」作為試點。認知偏差不同于抽象的價值觀或道德判斷，它具有明確的實驗定義、可計算的行為指標以及可驗證的干預路徑，因此更適合作為構建可量化調節的工程起點。

具體來說， CoBRA 包含兩個核心組件：

1. 認知偏差指數——量化 Agent 的偏差程度

CoBRA 的認知偏差指數建立在經典社會科學實驗范式之上，系統性地覆蓋四類具有代表性的認知偏差（權威效應、從眾效應、確認偏差與框架效應），每類偏差均對應兩種經典實驗范式，用于交叉校準與驗證。 Agent 在這些實驗中的表現被量化為一個 0-4 的連續分數。同一偏差類型的兩個范式相互驗證——在一個范式上校準的控制系數，在另一個范式上也應產生一致的效果。

2. 行為調節引擎——從三個層次調控 Agent

行為調節引擎覆蓋 LLM 的三個基本干預空間：

輸入空間（Prompt Numerical Control）：用數值化指令（如「你的權威偏差程度是 65% 」）替代模糊的定性描述，無需訓練。該方法適用于所有模型。

激活空間（Representation Engineering）：通過三組對比樣本（偏差正例 / 中性 / 反例），提取出干凈的偏差方向向量，并與安全拒絕信號分離，在推理時注入隱藏狀態。注入方式有兩種： Linear Control 像是均勻放大或減弱偏差強度，表達范圍更廣； Projection Control 則根據當前語境自適應調節，控制曲線更平滑穩定。該方法適用于開源模型。

參數空間（Fine-tuning with Task Vectors）：分別訓練一個「有偏差」和「無偏差」的 LoRA ，然后用 task vector 差值作為控制信號，通過控制系數精確調節。

每種方法都通過一個控制系數與認知偏差指數形成閉環： CoBRA 自動掃描控制系數，測量 Agent 在實驗中的表現，直到達到目標指數。

跨模型一致性與魯棒性驗證

論文在多類開源與閉源系統上開展系統評測，驗證了 CoBRA 的跨模型、跨推理模式與跨場景穩定性：其顯著降低行為方差，在 0.1–1.0 溫度區間內保持統計等價，并在不同推理模式下呈現高度一致的控制曲線。

在此基礎上，作者進一步從單調性、平滑度、表達范圍與泛化性四個維度系統評估其可控性。結果顯示，激活空間的控制在單調性與平滑度上表現最佳，輸入空間控制則提供更大的表達范圍。同時，控制系數可在不同實驗范式間遷移，并在不同人設設定下保持高度一致，展現出良好的泛化能力。

開放任務驗證

論文進一步模擬了經典的情緒傳染場景，以展示 CoBRA 的實際應用價值。在實驗中， Agent 瀏覽包含不同比例負面帖子的社交媒體信息流，隨后生成新的內容。研究者通過分析其生成文本的情緒變化，衡量情緒傳染的強度。

基線方法僅通過自然語言描述調節偏差強度，結果顯示不同偏差等級的 Agent 情緒傳染曲線幾乎完全重疊，難以有效區分。相比之下， CoBRA 呈現出清晰的劑量——響應關系：從眾效應認知偏差指數越高， Agent 表現出的情緒傳染程度也越強，不同等級之間具有明確且穩定的區分度。

該情緒傳染實驗基于開放式任務，體現出 CoBRA 明確的實際應用價值。

從「像那么回事」到「可控和可復現」

這項工作的意義，可以概括為從「看起來像那么回事」到「可控、可復現的科學研究」的跨越。過去的 LLM 社會模擬依賴自然語言人設來塑造行為，直觀卻缺乏穩定的控制結構。 CoBRA 將經典社會科學實驗轉化為可復用的校準環境，使 Agent 行為能夠被持續測量與調節，從而建立起類似實驗科學的變量控制機制。

CoBRA 讓 Agent 擁有清晰的刻度與調節旋鈕。當 Agent 行為可以被標定和收斂，社會模擬也就真正進入了可復現的工程階段。

作者信息

劉萱：加州大學圣地亞哥分校（UCSD）博士生， 2025 年本科畢業于香港理工大學。研究方向聚焦人工智能與人機交互，關注 AI 系統的類人認知與社會智能機制，構建面向科學研究的 AI 工具，以及其隱私與安全問題。個人主頁：https://xuanl17.github.io/

商昊暘：獨立學者， 2025 年本科畢業于上海交通大學，將于 2026 年秋季加入英屬哥倫比亞大學（UBC）深造。

金浩健：加州大學圣地亞哥分校（UCSD）助理教授，博士畢業于卡內基梅隆大學人機交互研究所（CMU HCII），本科就讀于華中科技大學。研究方向涵蓋人機交互、隱私與安全及人本系統設計。個人主頁：https://www.haojianj.in/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.