OPeRA Dataset: 首次系統(tǒng)評估LLM的人類行為模擬能力

2026-04-17 11:19:38　來源: 機器之心Pro

河北舉報

分享至

近年來，大語言模型（LLM）正在快速從「語言生成器」走向「行動者」。在越來越多的 agent 系統(tǒng)中，模型已經(jīng)不僅僅是回答問題，而是開始執(zhí)行任務(wù)：它會搜索、瀏覽網(wǎng)頁、點擊商品、比較選項，甚至在過程中給出一段看似合理的解釋。很多時候，這些行為已經(jīng)足夠自然，以至于我們會產(chǎn)生一種直覺 —— 它們已經(jīng)「很像人」。

但一個更關(guān)鍵的問題往往被忽略了：這些行為，真的接近人類嗎？

換句話說，我們現(xiàn)在看到的，是一種「看起來合理」的行為；但它是否準確地反映了真實用戶在相同情境下的決策，其實仍然是一個未知數(shù)。

為此，來自美國東北大學(xué)等機構(gòu)的研究者提出了OPeRA（Observation, Persona, Rationale, Action）數(shù)據(jù)集。該數(shù)據(jù)集采集真實用戶的 step-wise 在線購物行為，并首次支持對 LLM 在個體化行為預(yù)測任務(wù)中的能力進行系統(tǒng)評測。

論文：https://arxiv.org/pdf/2506.05606
數(shù)據(jù)：https://huggingface.co/datasets/NEU-HAI/OPeRA

Believable，并不等于 Accurate

隨著越來越多工作嘗試使用 LLM 來模擬人類行為，模型已經(jīng)能夠生成連貫且情境合理的多步?jīng)Q策過程。在許多場景中，這些行為在直覺上已經(jīng)「足夠像人」。

然而，現(xiàn)有研究大多停留在看起來「believable」的層面，但對于其與真實人類行為之間的偏差，仍缺乏系統(tǒng)性的量化分析。我們能夠判斷這些行為「看起來像」，卻難以回答它們「到底有多像」。

這一問題的核心瓶頸并不在于建模能力，而在于評估基礎(chǔ)的缺失。過去的大多數(shù)數(shù)據(jù)主要記錄最終結(jié)果，例如用戶是否完成任務(wù)或購買商品，但這類結(jié)果導(dǎo)向的信號無法反映決策是如何逐步產(chǎn)生的。真實的人類行為本質(zhì)上是一個連續(xù)過程：用戶在具體情境中，基于自身背景、當(dāng)前環(huán)境以及歷史交互，不斷做出條件化的選擇。如果缺少 step-wise 的行為軌跡，我們就無法判斷模型是否在關(guān)鍵節(jié)點上做出了符合人類的決策。

與此同時，現(xiàn)有數(shù)據(jù)往往并非來自真實用戶，而是由標注者構(gòu)造或模型生成，這使得「像人」的行為缺乏真實分布作為參照。更進一步，即使具備完整的行為序列，如果缺少用戶身份（persona）以及決策動機（rationale），行為本身仍然是不可判定的：同一情境下，不同個體可能做出不同選擇；而相同的 action，也可能對應(yīng)完全不同的決策原因。我們關(guān)心：在這個具體上下文中，這個具體的人，會不會這樣做？

然而，由于缺乏同時包含行為過程、上下文信息、個體信息以及決策動機的高質(zhì)量數(shù)據(jù)，這一問題長期以來難以被量化刻畫。

OPeRA：讓「人類行為」第一次可以被評估

基于上述思考，該工作提出了OPeRA（Observation, Persona, Rationale, Action）dataset，一個面向人類行為模擬的真實數(shù)據(jù)集及評測框架。OPeRA 選擇在線購物（online shopping）作為研究場景，一方面，這一場景天然包含豐富的多步交互與決策過程（如搜索、篩選、對比與購買），能夠充分體現(xiàn)人類行為的序列性與條件依賴；另一方面，其具有明確的目標驅(qū)動，同時又允許個體差異充分體現(xiàn)。

OPeRA 采用了基于瀏覽器插件的真實用戶行為記錄方式。研究者邀請參與者在日常在線購物過程中使用定制插件，自動記錄其在網(wǎng)頁中的交互行為，包括點擊、搜索、頁面跳轉(zhuǎn)等操作，從而獲取完整的 step-wise 行為軌跡。同時，在關(guān)鍵決策節(jié)點，系統(tǒng)會以輕量化的彈窗方式提示用戶輸入當(dāng)前操作的原因，以實時的形式收集對應(yīng)的 rationale，避免事后回憶帶來的偏差。此外，研究者通過問卷與訪談收集用戶的 persona 信息，包括人口統(tǒng)計特征、購物習(xí)慣與偏好等。

基于此，研究者從 51 名真實用戶中收集了近 700 個購物 session。每一個 session 都是一個帶時間戳的行為序列（time-stamped action sequence），用于刻畫用戶在連續(xù)交互過程中的逐步?jīng)Q策，累計記錄了 28904 條行為數(shù)據(jù)。在每一步用戶行為中，數(shù)據(jù)同時涵蓋了用戶的操作（action）和對應(yīng)的頁面信息（observation），包括網(wǎng)頁內(nèi)容、關(guān)鍵元素以及截圖等；同時，還收集了用戶在當(dāng)下做出該操作的原因（rationale）。此外，數(shù)據(jù)中還包含用戶的基本畫像（persona），如人口統(tǒng)計信息和購物偏好。通過將 persona、observation、rationale 和 action 統(tǒng)一在同一條行為序列中，OPeRA 提供了一個更完整的人類決策過程表示。

基于 OPeRA 的人類行為模擬實驗

為了研究 LLM 模擬人類行為的能力，作者基于 OPeRA 定義了一個「下一步行為預(yù)測」（Next Action Prediction）任務(wù)。具體來說，給定用戶在當(dāng)前購物 session 中的歷史行為序列、對應(yīng)的頁面信息（observation）、已有的決策理由（rationale），以及用戶畫像（persona），模型需要預(yù)測用戶在當(dāng)前時刻的下一步操作。

基于上述任務(wù)，研究者對一些主流 LLM 進行了系統(tǒng)評測：

整體來看，當(dāng)前模型在該任務(wù)上的表現(xiàn)仍然有限。以最優(yōu)的 GPT-4.1 為例，其下一步行為預(yù)測的準確率僅在20% 左右，而其他模型普遍低于這一水平。盡管在更粗粒度的指標（如 action type 分類）上，模型可以達到約 40%–50% 的 F1，但在更細粒度的 click type 或具體 action 預(yù)測上，性能明顯下降。這表明，模型可以大致判斷「要做什么類型的操作」，但難以精確預(yù)測「具體會點哪里、做什么」。

進一步分析發(fā)現(xiàn)，不同輸入信息對模型表現(xiàn)的影響具有明顯差異。首先，persona 的引入對性能提升并不穩(wěn)定：雖然在 action type 等粗粒度任務(wù)上有所幫助，但對最終 action 預(yù)測準確率影響有限，甚至在部分情況下帶來噪聲。這說明當(dāng)前模型尚無法有效利用 persona 信息進行細粒度決策建模。相比之下，rationale 對模型更為關(guān)鍵。移除歷史 rationale 后，大多數(shù)模型在多個指標上均出現(xiàn)明顯下降，尤其是在 session outcome 等高層決策任務(wù)上。這表明，rationale 作為中間決策信號，可以幫助模型更好地理解用戶意圖并進行推理。

從錯誤類型來看，模型的主要失敗模式高度集中。超過 60% 的錯誤來自「點擊了錯誤的按鈕」，是最主要的錯誤來源。這說明模型雖然能夠判斷「需要點擊」，但難以準確定位具體交互目標。此外，模型在 input 和 terminate 行為上也存在明顯問題。一方面，模型經(jīng)常無法正確生成搜索輸入（例如生成錯誤輸入信息，或選擇錯誤輸入框）；另一方面，對于「終止行為」（terminate），模型普遍預(yù)測不足。盡管真實用戶在部分情況下會放棄購物，但模型往往傾向于繼續(xù)操作。這些現(xiàn)象揭示了一個重要偏差：當(dāng)前 LLM 更傾向于「完成任務(wù)」，而不是「模擬真實人類」。

結(jié)語和未來展望

本文提出了 OPeRA 數(shù)據(jù)集，一個面向人類行為模擬的在線購物行為數(shù)據(jù)集。通過記錄完整的購物軌跡，包括用戶的操作序列、頁面環(huán)境、個體畫像以及顯式的決策理由，OPeRA 為個體化的人類行為建模提供了一個可驗證、可分析的數(shù)據(jù)基礎(chǔ)。在此基礎(chǔ)上，作者構(gòu)建了一系列評測任務(wù)，并對多種主流 LLM 進行了系統(tǒng)評估。實驗結(jié)果表明，當(dāng)前模型在復(fù)雜決策過程建模以及個體化行為刻畫方面仍存在明顯不足。總體來看，OPeRA 不僅提供了一個更貼近真實場景的數(shù)據(jù)集，也揭示了當(dāng)前 LLM 在人類行為模擬中的能力邊界。與此同時，近期一系列工作從不同角度探索了改進方向：例如 Shop-R1 通過強化學(xué)習(xí)對「rationale–action」進行分階段建模與分層獎勵優(yōu)化，See-Think-Act 框架引入多模態(tài)感知以統(tǒng)一「感知–推理–行動」流程，Customer-R1 強調(diào)個體化用戶建模與行為對齊，而 Yuxuan 等人的研究則進一步凸顯高質(zhì)量行為數(shù)據(jù)與中間推理信號在提升模擬真實性中的關(guān)鍵作用。這些工作共同表明，結(jié)合強化學(xué)習(xí)、多模態(tài)信息與個體建模，是推動人類行為模擬能力提升的重要路徑。未來，如何更好地建模長程決策過程、利用個體信息進行個性化推理，仍是值得進一步探索的重要方向。

作者介紹

本文由美國東北大學(xué) Human-Centered AI Lab 團隊聯(lián)合南加州大學(xué)、石溪大學(xué)、俄亥俄州立大學(xué)、圣母大學(xué)及哥倫比亞大學(xué)等多家機構(gòu)研究者合作完成。其中論文一作王子奕為東北大學(xué)計算機科學(xué)專業(yè)二年級博士生，師從王大闊副教授。本科及碩士畢業(yè)于清華大學(xué)。其研究方向主要聚焦于大語言模型（LLM）Agent，圍繞 LLM 對人類行為的建模能力，以及 tool-calling agent 的數(shù)據(jù)構(gòu)建與訓(xùn)練展開研究，致力于提升 Agent 在復(fù)雜真實場景中的行為一致性與決策能力。歡迎相關(guān)方向研究者交流探討。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.