![]()
近年來,大語言模型(LLM)正在快速從「語言生成器」走向「行動者」。在越來越多的 agent 系統(tǒng)中,模型已經(jīng)不僅僅是回答問題,而是開始執(zhí)行任務(wù):它會搜索、瀏覽網(wǎng)頁、點擊商品、比較選項,甚至在過程中給出一段看似合理的解釋。很多時候,這些行為已經(jīng)足夠自然,以至于我們會產(chǎn)生一種直覺 —— 它們已經(jīng)「很像人」。
但一個更關(guān)鍵的問題往往被忽略了:這些行為,真的接近人類嗎?
換句話說,我們現(xiàn)在看到的,是一種「看起來合理」的行為;但它是否準確地反映了真實用戶在相同情境下的決策,其實仍然是一個未知數(shù)。
![]()
為此,來自美國東北大學(xué)等機構(gòu)的研究者提出了OPeRA(Observation, Persona, Rationale, Action)數(shù)據(jù)集。該數(shù)據(jù)集采集真實用戶的 step-wise 在線購物行為,并首次支持對 LLM 在個體化行為預(yù)測任務(wù)中的能力進行系統(tǒng)評測。
![]()
- 論文:https://arxiv.org/pdf/2506.05606
- 數(shù)據(jù):https://huggingface.co/datasets/NEU-HAI/OPeRA
Believable,并不等于 Accurate
隨著越來越多工作嘗試使用 LLM 來模擬人類行為,模型已經(jīng)能夠生成連貫且情境合理的多步?jīng)Q策過程。在許多場景中,這些行為在直覺上已經(jīng)「足夠像人」。
然而,現(xiàn)有研究大多停留在看起來「believable」的層面,但對于其與真實人類行為之間的偏差,仍缺乏系統(tǒng)性的量化分析。我們能夠判斷這些行為「看起來像」,卻難以回答它們「到底有多像」。
這一問題的核心瓶頸并不在于建模能力,而在于評估基礎(chǔ)的缺失。過去的大多數(shù)數(shù)據(jù)主要記錄最終結(jié)果,例如用戶是否完成任務(wù)或購買商品,但這類結(jié)果導(dǎo)向的信號無法反映決策是如何逐步產(chǎn)生的。真實的人類行為本質(zhì)上是一個連續(xù)過程:用戶在具體情境中,基于自身背景、當(dāng)前環(huán)境以及歷史交互,不斷做出條件化的選擇。如果缺少 step-wise 的行為軌跡,我們就無法判斷模型是否在關(guān)鍵節(jié)點上做出了符合人類的決策。
與此同時,現(xiàn)有數(shù)據(jù)往往并非來自真實用戶,而是由標注者構(gòu)造或模型生成,這使得「像人」的行為缺乏真實分布作為參照。更進一步,即使具備完整的行為序列,如果缺少用戶身份(persona)以及決策動機(rationale),行為本身仍然是不可判定的:同一情境下,不同個體可能做出不同選擇;而相同的 action,也可能對應(yīng)完全不同的決策原因。我們關(guān)心:在這個具體上下文中,這個具體的人,會不會這樣做?
然而,由于缺乏同時包含行為過程、上下文信息、個體信息以及決策動機的高質(zhì)量數(shù)據(jù),這一問題長期以來難以被量化刻畫。
OPeRA:讓「人類行為」第一次可以被評估
基于上述思考,該工作提出了OPeRA(Observation, Persona, Rationale, Action)dataset,一個面向人類行為模擬的真實數(shù)據(jù)集及評測框架。OPeRA 選擇在線購物(online shopping)作為研究場景,一方面,這一場景天然包含豐富的多步交互與決策過程(如搜索、篩選、對比與購買),能夠充分體現(xiàn)人類行為的序列性與條件依賴;另一方面,其具有明確的目標驅(qū)動,同時又允許個體差異充分體現(xiàn)。
OPeRA 采用了基于瀏覽器插件的真實用戶行為記錄方式。研究者邀請參與者在日常在線購物過程中使用定制插件,自動記錄其在網(wǎng)頁中的交互行為,包括點擊、搜索、頁面跳轉(zhuǎn)等操作,從而獲取完整的 step-wise 行為軌跡。同時,在關(guān)鍵決策節(jié)點,系統(tǒng)會以輕量化的彈窗方式提示用戶輸入當(dāng)前操作的原因,以實時的形式收集對應(yīng)的 rationale,避免事后回憶帶來的偏差。此外,研究者通過問卷與訪談收集用戶的 persona 信息,包括人口統(tǒng)計特征、購物習(xí)慣與偏好等。
![]()
基于此,研究者從 51 名真實用戶中收集了近 700 個購物 session。每一個 session 都是一個帶時間戳的行為序列(time-stamped action sequence),用于刻畫用戶在連續(xù)交互過程中的逐步?jīng)Q策,累計記錄了 28904 條行為數(shù)據(jù)。在每一步用戶行為中,數(shù)據(jù)同時涵蓋了用戶的操作(action)和對應(yīng)的頁面信息(observation),包括網(wǎng)頁內(nèi)容、關(guān)鍵元素以及截圖等;同時,還收集了用戶在當(dāng)下做出該操作的原因(rationale)。此外,數(shù)據(jù)中還包含用戶的基本畫像(persona),如人口統(tǒng)計信息和購物偏好。通過將 persona、observation、rationale 和 action 統(tǒng)一在同一條行為序列中,OPeRA 提供了一個更完整的人類決策過程表示。
![]()
基于 OPeRA 的人類行為模擬實驗
為了研究 LLM 模擬人類行為的能力,作者基于 OPeRA 定義了一個「下一步行為預(yù)測」(Next Action Prediction)任務(wù)。具體來說,給定用戶在當(dāng)前購物 session 中的歷史行為序列、對應(yīng)的頁面信息(observation)、已有的決策理由(rationale),以及用戶畫像(persona),模型需要預(yù)測用戶在當(dāng)前時刻的下一步操作。
基于上述任務(wù),研究者對一些主流 LLM 進行了系統(tǒng)評測:
![]()
整體來看,當(dāng)前模型在該任務(wù)上的表現(xiàn)仍然有限。以最優(yōu)的 GPT-4.1 為例,其下一步行為預(yù)測的準確率僅在20% 左右,而其他模型普遍低于這一水平。盡管在更粗粒度的指標(如 action type 分類)上,模型可以達到約 40%–50% 的 F1,但在更細粒度的 click type 或具體 action 預(yù)測上,性能明顯下降 。這表明,模型可以大致判斷「要做什么類型的操作」,但難以精確預(yù)測「具體會點哪里、做什么」。
進一步分析發(fā)現(xiàn),不同輸入信息對模型表現(xiàn)的影響具有明顯差異。首先,persona 的引入對性能提升并不穩(wěn)定:雖然在 action type 等粗粒度任務(wù)上有所幫助,但對最終 action 預(yù)測準確率影響有限,甚至在部分情況下帶來噪聲。這說明當(dāng)前模型尚無法有效利用 persona 信息進行細粒度決策建模。相比之下,rationale 對模型更為關(guān)鍵。移除歷史 rationale 后,大多數(shù)模型在多個指標上均出現(xiàn)明顯下降,尤其是在 session outcome 等高層決策任務(wù)上。這表明,rationale 作為中間決策信號,可以幫助模型更好地理解用戶意圖并進行推理。
![]()
從錯誤類型來看,模型的主要失敗模式高度集中。超過 60% 的錯誤來自「點擊了錯誤的按鈕」,是最主要的錯誤來源 。這說明模型雖然能夠判斷「需要點擊」,但難以準確定位具體交互目標。此外,模型在 input 和 terminate 行為上也存在明顯問題。一方面,模型經(jīng)常無法正確生成搜索輸入(例如生成錯誤輸入信息,或選擇錯誤輸入框);另一方面,對于「終止行為」(terminate),模型普遍預(yù)測不足。盡管真實用戶在部分情況下會放棄購物,但模型往往傾向于繼續(xù)操作。這些現(xiàn)象揭示了一個重要偏差:當(dāng)前 LLM 更傾向于「完成任務(wù)」,而不是「模擬真實人類」。
結(jié)語和未來展望
本文提出了 OPeRA 數(shù)據(jù)集,一個面向人類行為模擬的在線購物行為數(shù)據(jù)集。通過記錄完整的購物軌跡,包括用戶的操作序列、頁面環(huán)境、個體畫像以及顯式的決策理由,OPeRA 為個體化的人類行為建模提供了一個可驗證、可分析的數(shù)據(jù)基礎(chǔ)。在此基礎(chǔ)上,作者構(gòu)建了一系列評測任務(wù),并對多種主流 LLM 進行了系統(tǒng)評估。實驗結(jié)果表明,當(dāng)前模型在復(fù)雜決策過程建模以及個體化行為刻畫方面仍存在明顯不足。總體來看,OPeRA 不僅提供了一個更貼近真實場景的數(shù)據(jù)集,也揭示了當(dāng)前 LLM 在人類行為模擬中的能力邊界。與此同時,近期一系列工作從不同角度探索了改進方向:例如 Shop-R1 通過強化學(xué)習(xí)對「rationale–action」進行分階段建模與分層獎勵優(yōu)化,See-Think-Act 框架引入多模態(tài)感知以統(tǒng)一「感知–推理–行動」流程,Customer-R1 強調(diào)個體化用戶建模與行為對齊,而 Yuxuan 等人的研究則進一步凸顯高質(zhì)量行為數(shù)據(jù)與中間推理信號在提升模擬真實性中的關(guān)鍵作用。這些工作共同表明,結(jié)合強化學(xué)習(xí)、多模態(tài)信息與個體建模,是推動人類行為模擬能力提升的重要路徑。未來,如何更好地建模長程決策過程、利用個體信息進行個性化推理,仍是值得進一步探索的重要方向。
作者介紹
本文由美國東北大學(xué) Human-Centered AI Lab 團隊聯(lián)合南加州大學(xué)、石溪大學(xué)、俄亥俄州立大學(xué)、圣母大學(xué)及哥倫比亞大學(xué)等多家機構(gòu)研究者合作完成。其中論文一作王子奕為東北大學(xué)計算機科學(xué)專業(yè)二年級博士生,師從王大闊副教授。本科及碩士畢業(yè)于清華大學(xué)。其研究方向主要聚焦于大語言模型(LLM)Agent,圍繞 LLM 對人類行為的建模能力,以及 tool-calling agent 的數(shù)據(jù)構(gòu)建與訓(xùn)練展開研究,致力于提升 Agent 在復(fù)雜真實場景中的行為一致性與決策能力。歡迎相關(guān)方向研究者交流探討。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.