337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

OPeRA Dataset: 首次系統(tǒng)評估LLM的人類行為模擬能力

0
分享至



近年來,大語言模型(LLM)正在快速從「語言生成器」走向「行動者」。在越來越多的 agent 系統(tǒng)中,模型已經(jīng)不僅僅是回答問題,而是開始執(zhí)行任務(wù):它會搜索、瀏覽網(wǎng)頁、點擊商品、比較選項,甚至在過程中給出一段看似合理的解釋。很多時候,這些行為已經(jīng)足夠自然,以至于我們會產(chǎn)生一種直覺 —— 它們已經(jīng)「很像人」。

但一個更關(guān)鍵的問題往往被忽略了:這些行為,真的接近人類嗎?

換句話說,我們現(xiàn)在看到的,是一種「看起來合理」的行為;但它是否準確地反映了真實用戶在相同情境下的決策,其實仍然是一個未知數(shù)。



為此,來自美國東北大學(xué)等機構(gòu)的研究者提出了OPeRA(Observation, Persona, Rationale, Action)數(shù)據(jù)集。該數(shù)據(jù)集采集真實用戶的 step-wise 在線購物行為,并首次支持對 LLM 在個體化行為預(yù)測任務(wù)中的能力進行系統(tǒng)評測。



  • 論文:https://arxiv.org/pdf/2506.05606
  • 數(shù)據(jù):https://huggingface.co/datasets/NEU-HAI/OPeRA

Believable,并不等于 Accurate

隨著越來越多工作嘗試使用 LLM 來模擬人類行為,模型已經(jīng)能夠生成連貫且情境合理的多步?jīng)Q策過程。在許多場景中,這些行為在直覺上已經(jīng)「足夠像人」。

然而,現(xiàn)有研究大多停留在看起來「believable」的層面,但對于其與真實人類行為之間的偏差,仍缺乏系統(tǒng)性的量化分析。我們能夠判斷這些行為「看起來像」,卻難以回答它們「到底有多像」。

這一問題的核心瓶頸并不在于建模能力,而在于評估基礎(chǔ)的缺失。過去的大多數(shù)數(shù)據(jù)主要記錄最終結(jié)果,例如用戶是否完成任務(wù)或購買商品,但這類結(jié)果導(dǎo)向的信號無法反映決策是如何逐步產(chǎn)生的。真實的人類行為本質(zhì)上是一個連續(xù)過程:用戶在具體情境中,基于自身背景、當(dāng)前環(huán)境以及歷史交互,不斷做出條件化的選擇。如果缺少 step-wise 的行為軌跡,我們就無法判斷模型是否在關(guān)鍵節(jié)點上做出了符合人類的決策。

與此同時,現(xiàn)有數(shù)據(jù)往往并非來自真實用戶,而是由標注者構(gòu)造或模型生成,這使得「像人」的行為缺乏真實分布作為參照。更進一步,即使具備完整的行為序列,如果缺少用戶身份(persona)以及決策動機(rationale),行為本身仍然是不可判定的:同一情境下,不同個體可能做出不同選擇;而相同的 action,也可能對應(yīng)完全不同的決策原因。我們關(guān)心:在這個具體上下文中,這個具體的人,會不會這樣做?

然而,由于缺乏同時包含行為過程、上下文信息、個體信息以及決策動機的高質(zhì)量數(shù)據(jù),這一問題長期以來難以被量化刻畫。

OPeRA:讓「人類行為」第一次可以被評估

基于上述思考,該工作提出了OPeRA(Observation, Persona, Rationale, Action)dataset,一個面向人類行為模擬的真實數(shù)據(jù)集及評測框架。OPeRA 選擇在線購物(online shopping)作為研究場景,一方面,這一場景天然包含豐富的多步交互與決策過程(如搜索、篩選、對比與購買),能夠充分體現(xiàn)人類行為的序列性與條件依賴;另一方面,其具有明確的目標驅(qū)動,同時又允許個體差異充分體現(xiàn)。

OPeRA 采用了基于瀏覽器插件的真實用戶行為記錄方式。研究者邀請參與者在日常在線購物過程中使用定制插件,自動記錄其在網(wǎng)頁中的交互行為,包括點擊、搜索、頁面跳轉(zhuǎn)等操作,從而獲取完整的 step-wise 行為軌跡。同時,在關(guān)鍵決策節(jié)點,系統(tǒng)會以輕量化的彈窗方式提示用戶輸入當(dāng)前操作的原因,以實時的形式收集對應(yīng)的 rationale,避免事后回憶帶來的偏差。此外,研究者通過問卷與訪談收集用戶的 persona 信息,包括人口統(tǒng)計特征、購物習(xí)慣與偏好等。



基于此,研究者從 51 名真實用戶中收集了近 700 個購物 session。每一個 session 都是一個帶時間戳的行為序列(time-stamped action sequence),用于刻畫用戶在連續(xù)交互過程中的逐步?jīng)Q策,累計記錄了 28904 條行為數(shù)據(jù)。在每一步用戶行為中,數(shù)據(jù)同時涵蓋了用戶的操作(action)和對應(yīng)的頁面信息(observation),包括網(wǎng)頁內(nèi)容、關(guān)鍵元素以及截圖等;同時,還收集了用戶在當(dāng)下做出該操作的原因(rationale)。此外,數(shù)據(jù)中還包含用戶的基本畫像(persona),如人口統(tǒng)計信息和購物偏好。通過將 persona、observation、rationale 和 action 統(tǒng)一在同一條行為序列中,OPeRA 提供了一個更完整的人類決策過程表示。



基于 OPeRA 的人類行為模擬實驗


為了研究 LLM 模擬人類行為的能力,作者基于 OPeRA 定義了一個「下一步行為預(yù)測」(Next Action Prediction)任務(wù)。具體來說,給定用戶在當(dāng)前購物 session 中的歷史行為序列、對應(yīng)的頁面信息(observation)、已有的決策理由(rationale),以及用戶畫像(persona),模型需要預(yù)測用戶在當(dāng)前時刻的下一步操作。

基于上述任務(wù),研究者對一些主流 LLM 進行了系統(tǒng)評測:



整體來看,當(dāng)前模型在該任務(wù)上的表現(xiàn)仍然有限。以最優(yōu)的 GPT-4.1 為例,其下一步行為預(yù)測的準確率僅在20% 左右,而其他模型普遍低于這一水平。盡管在更粗粒度的指標(如 action type 分類)上,模型可以達到約 40%–50% 的 F1,但在更細粒度的 click type 或具體 action 預(yù)測上,性能明顯下降 。這表明,模型可以大致判斷「要做什么類型的操作」,但難以精確預(yù)測「具體會點哪里、做什么」。

進一步分析發(fā)現(xiàn),不同輸入信息對模型表現(xiàn)的影響具有明顯差異。首先,persona 的引入對性能提升并不穩(wěn)定:雖然在 action type 等粗粒度任務(wù)上有所幫助,但對最終 action 預(yù)測準確率影響有限,甚至在部分情況下帶來噪聲。這說明當(dāng)前模型尚無法有效利用 persona 信息進行細粒度決策建模。相比之下,rationale 對模型更為關(guān)鍵。移除歷史 rationale 后,大多數(shù)模型在多個指標上均出現(xiàn)明顯下降,尤其是在 session outcome 等高層決策任務(wù)上。這表明,rationale 作為中間決策信號,可以幫助模型更好地理解用戶意圖并進行推理。



從錯誤類型來看,模型的主要失敗模式高度集中。超過 60% 的錯誤來自「點擊了錯誤的按鈕」,是最主要的錯誤來源 。這說明模型雖然能夠判斷「需要點擊」,但難以準確定位具體交互目標。此外,模型在 input 和 terminate 行為上也存在明顯問題。一方面,模型經(jīng)常無法正確生成搜索輸入(例如生成錯誤輸入信息,或選擇錯誤輸入框);另一方面,對于「終止行為」(terminate),模型普遍預(yù)測不足。盡管真實用戶在部分情況下會放棄購物,但模型往往傾向于繼續(xù)操作。這些現(xiàn)象揭示了一個重要偏差:當(dāng)前 LLM 更傾向于「完成任務(wù)」,而不是「模擬真實人類」。


結(jié)語和未來展望


本文提出了 OPeRA 數(shù)據(jù)集,一個面向人類行為模擬的在線購物行為數(shù)據(jù)集。通過記錄完整的購物軌跡,包括用戶的操作序列、頁面環(huán)境、個體畫像以及顯式的決策理由,OPeRA 為個體化的人類行為建模提供了一個可驗證、可分析的數(shù)據(jù)基礎(chǔ)。在此基礎(chǔ)上,作者構(gòu)建了一系列評測任務(wù),并對多種主流 LLM 進行了系統(tǒng)評估。實驗結(jié)果表明,當(dāng)前模型在復(fù)雜決策過程建模以及個體化行為刻畫方面仍存在明顯不足。總體來看,OPeRA 不僅提供了一個更貼近真實場景的數(shù)據(jù)集,也揭示了當(dāng)前 LLM 在人類行為模擬中的能力邊界。與此同時,近期一系列工作從不同角度探索了改進方向:例如 Shop-R1 通過強化學(xué)習(xí)對「rationale–action」進行分階段建模與分層獎勵優(yōu)化,See-Think-Act 框架引入多模態(tài)感知以統(tǒng)一「感知–推理–行動」流程,Customer-R1 強調(diào)個體化用戶建模與行為對齊,而 Yuxuan 等人的研究則進一步凸顯高質(zhì)量行為數(shù)據(jù)與中間推理信號在提升模擬真實性中的關(guān)鍵作用。這些工作共同表明,結(jié)合強化學(xué)習(xí)、多模態(tài)信息與個體建模,是推動人類行為模擬能力提升的重要路徑。未來,如何更好地建模長程決策過程、利用個體信息進行個性化推理,仍是值得進一步探索的重要方向。

作者介紹

本文由美國東北大學(xué) Human-Centered AI Lab 團隊聯(lián)合南加州大學(xué)、石溪大學(xué)、俄亥俄州立大學(xué)、圣母大學(xué)及哥倫比亞大學(xué)等多家機構(gòu)研究者合作完成。其中論文一作王子奕為東北大學(xué)計算機科學(xué)專業(yè)二年級博士生,師從王大闊副教授。本科及碩士畢業(yè)于清華大學(xué)。其研究方向主要聚焦于大語言模型(LLM)Agent,圍繞 LLM 對人類行為的建模能力,以及 tool-calling agent 的數(shù)據(jù)構(gòu)建與訓(xùn)練展開研究,致力于提升 Agent 在復(fù)雜真實場景中的行為一致性與決策能力。歡迎相關(guān)方向研究者交流探討。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
僅剩5輪!英超5隊保級大亂戰(zhàn):熱刺仍落后2分 升班馬或2天后降級

僅剩5輪!英超5隊保級大亂戰(zhàn):熱刺仍落后2分 升班馬或2天后降級

我愛英超
2026-04-21 07:37:47
美媒:萬斯同美國代表團將“在數(shù)小時內(nèi)”抵達伊斯蘭堡

美媒:萬斯同美國代表團將“在數(shù)小時內(nèi)”抵達伊斯蘭堡

澎湃新聞
2026-04-21 08:14:13
停火期限將至,美國單方面“敲定”談判日,伊朗仍未點頭赴會

停火期限將至,美國單方面“敲定”談判日,伊朗仍未點頭赴會

上觀新聞
2026-04-21 06:28:04
徐寅之任上海市委黨史研究室主任

徐寅之任上海市委黨史研究室主任

澎湃新聞
2026-04-21 08:18:26
脫口秀女演員自曝在潑水節(jié)執(zhí)勤經(jīng)歷,“穿著警察制服,幾個水氣球連續(xù)正中面門,被高壓水槍滋胸和屁股,每年要扛出多個被潑蒙掉的女孩”

脫口秀女演員自曝在潑水節(jié)執(zhí)勤經(jīng)歷,“穿著警察制服,幾個水氣球連續(xù)正中面門,被高壓水槍滋胸和屁股,每年要扛出多個被潑蒙掉的女孩”

揚子晚報
2026-04-20 12:24:51
上海突然掀桌子:這次救市不太對勁,真正想救的,其實不是樓市

上海突然掀桌子:這次救市不太對勁,真正想救的,其實不是樓市

笑熬漿糊111
2026-04-21 05:00:07
經(jīng)紀人霍汶希評論區(qū)翻車了!因張敬軒風(fēng)波,網(wǎng)友毫不留情面的怒批

經(jīng)紀人霍汶希評論區(qū)翻車了!因張敬軒風(fēng)波,網(wǎng)友毫不留情面的怒批

小徐講八卦
2026-04-19 11:17:33
山東省醫(yī)療保險事業(yè)中心主任王京波,涉嫌嚴重違紀違法被查

山東省醫(yī)療保險事業(yè)中心主任王京波,涉嫌嚴重違紀違法被查

魯中晨報
2026-04-20 15:36:05
為啥很多人不愿做頸動脈彩超?醫(yī)生:查一次,能 5 年躲開腦梗

為啥很多人不愿做頸動脈彩超?醫(yī)生:查一次,能 5 年躲開腦梗

健康科普365
2026-04-18 17:50:03
凌晨3點30 皇馬顏面之戰(zhàn)!劍指西甲9連殺 姆巴佩66天球荒

凌晨3點30 皇馬顏面之戰(zhàn)!劍指西甲9連殺 姆巴佩66天球荒

葉青足球世界
2026-04-21 08:32:49
別等心梗才慌!美國心臟協(xié)會2026?最新指南,照著吃就能預(yù)防80%的心臟問題

別等心梗才慌!美國心臟協(xié)會2026?最新指南,照著吃就能預(yù)防80%的心臟問題

臨床營養(yǎng)師劉遂謙
2026-04-20 07:02:47
湖人G2賽前做出爭議決定,或?qū)氐准づ材匪梗?>
    </a>
        <h3>
      <a href=夜白侃球
2026-04-20 10:12:53
海嘯抵達日本!日媒:請回想2011年大地震,立即逃生!

海嘯抵達日本!日媒:請回想2011年大地震,立即逃生!

揚子晚報
2026-04-20 16:37:00
法國掠奪中國的十大代表文物(附高清大圖),未來能否歸還?

法國掠奪中國的十大代表文物(附高清大圖),未來能否歸還?

文史道
2026-04-17 15:33:28
“最難對付的敵人”:周末,真主黨消滅以軍超過一個排!

“最難對付的敵人”:周末,真主黨消滅以軍超過一個排!

勝研集
2026-04-20 18:04:11
酒店窗簾太透明情侶全然不知! 60秒視頻片流出…路人狂拍

酒店窗簾太透明情侶全然不知! 60秒視頻片流出…路人狂拍

環(huán)球趣聞分享
2026-04-20 14:57:07
原來我們錯怪高市早苗了

原來我們錯怪高市早苗了

智先生
2026-04-20 21:07:48
微信這個開關(guān)不關(guān),你住哪、干啥,別人全知道!快關(guān)掉!

微信這個開關(guān)不關(guān),你住哪、干啥,別人全知道!快關(guān)掉!

侃故事的阿慶
2026-04-18 17:54:13
廣州環(huán)市中路高架橋底驚現(xiàn)長達300米細裂縫,乘客憂心橋梁專家呼吁緊急處理

廣州環(huán)市中路高架橋底驚現(xiàn)長達300米細裂縫,乘客憂心橋梁專家呼吁緊急處理

王姐懶人家常菜
2026-04-21 02:44:17
349元便攜屏:HKC把副屏門檻砍到腳脖子了

349元便攜屏:HKC把副屏門檻砍到腳脖子了

像素與芯片
2026-04-20 07:41:07
2026-04-21 08:52:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12813文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

頭條要聞

牛彈琴:特朗普成美伊談判最大障礙 伊朗果然勃然大怒

體育要聞

阿森納已拼盡全力,但你早干嘛去了...

娛樂要聞

《八千里路云和月》田家泰暗殺

財經(jīng)要聞

減速機訂單已排到明年!

汽車要聞

把天門山搬進廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

房產(chǎn)
親子
本地
數(shù)碼
公開課

房產(chǎn)要聞

大規(guī)模商改住!海口西海岸,這波項目要贏麻了!

親子要聞

大體重孩子家長要關(guān)注孩子運動足部壓力是否正常

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

數(shù)碼要聞

16GB能當(dāng)20GB用!華為超空間內(nèi)存技術(shù)適配計劃公布:Mate X7系列6月推送

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版