網易首頁 > 網易號 > 正文申請入駐

從「知題」到「知人」：UserRL讓智能體學會「以人為本」

2025-10-07 17:13:37　來源: 機器之心Pro

北京舉報

分享至

“知人者智，自知者明。”——《道德經》

古人早已洞見：真正的人類智慧，不僅僅在于公式推演、掌握技藝，更是能理解他人、洞察人心。今天的大語言模型已能在代碼、數學與工具使用上出色地完成任務，然而距離成為真正的用戶伙伴，它們依舊缺少那份 “知人” 的能力。這主要源于現實交互遠比解題更加復雜：

現實交互中，用戶目標常常未在最初完全成形（underspecification）、而是在多輪對話中逐步顯露（incrementality）、并且以含蓄 / 間接的方式表達（indirectness）。
在這種不確定、動態(tài)、多目標的語境里，模型不止要會解決用戶需求，更要主動澄清（clarification）、持續(xù)適配（adaptation）、善用工具（tool-use）并做出明智的權衡（decision-making）。

這正是智能體面臨的下一個時代課題：從 “會解題” 邁向 “懂用戶”。而要真正回答這一課題，我們需要全新的動態(tài)評測框架與訓練機制：不僅能測量模型在交互中的表現，還能驅動其學會在用戶不確定與多目標的世界里，問之有道，斷之有衡，答之有據。為此，來自 UIUC 與 Salesforce 的研究團隊提出了一套系統(tǒng)化方案：

UserBench—— 首次將 “用戶特性” 制度化，構建交互評測環(huán)境，用于專門檢驗大模型是否真正 “懂人”；
UserRL—— 在 UserBench 及其他標準化 Gym 環(huán)境之上，搭建統(tǒng)一的用戶交互強化學習框架，并系統(tǒng)探索以用戶為驅動的獎勵建模。

二者相輔相成，把 “以用戶為中心” 從理念落地為可復現的流程、接口與評測指標。

UserBench 論文鏈接：https://arxiv.org/pdf/2507.22034
UserBench 代碼倉庫：https://github.com/SalesforceAIResearch/UserBench

UserRL 論文鏈接：https://arxiv.org/pdf/2509.19736
UserRL 代碼倉庫：https://github.com/SalesforceAIResearch/UserRL

UserBench

先把 “用戶價值” 量化，才能倒逼智能體進化

核心思想

UserBench 的核心出發(fā)點是：真正的智能體價值不在于完成任務本身，而在于是否能夠理解用戶、服務用戶。不同于傳統(tǒng)評測大多進行的 “做題比賽”，其通過刻畫三類 “用戶特征”，并將它們嵌入到可復現的環(huán)境與標準化接口之中，從而把 “用戶價值” 從抽象理念轉化為可量化的研究對象。

1. 設計原則

長期以來，智能體的評測大多集中在工具調用與任務完成，但卻鮮少觸及一個更根本的問題：模型是否真正對齊了用戶的潛在與動態(tài)意圖。

UserBench 的設計正是為了解決這一缺口。它把 “用戶真實交互三大特征” 作為評測核心：

模糊性（underspecification）：用戶目標往往并未完整表達；
漸進性（incrementality）：意圖需要在對話中逐步顯露；
間接性（indirectness）：用戶偏好常常通過隱含線索體現。

在這樣的環(huán)境里，模型不再是 “照題答題”，而是必須主動追問、澄清約束，并在復雜條件下做出連貫而明智的決策。

UserBench 設計與交互流程示意圖

2. 環(huán)境與數據構造

UserBench 的標志性設計是旅行規(guī)劃任務，覆蓋五個子場景。每個維度都設置了數十條隱式偏好表述，如 “行程很緊” 暗含 “直飛 / 少中轉”，要求模型在與環(huán)境中的模擬用戶進行交互時，需要理解用戶每一句話背后的語義邏輯。同時，環(huán)境中內置了穩(wěn)定數據庫后段，并且搜索返回采用了混合式選項進一步增加了模型認知難度：

正確項：完全滿足全部偏好；
錯誤項：違背至少一條偏好；
噪聲項：與需求不符或信息缺失。

這使得模型必須學會過濾噪聲、權衡約束，而非直接機械化地比對。UserBench 同時也進行了數據難度分層，根據用戶偏好的復雜程度涵蓋了 Easy/Medium/Hard 三檔，這種設計讓其既保有真實性（場景、語言與需求均來自真實語料指導下的 LLM 用戶模擬），又具備實驗可控性。

3. 以工具為界面：標準化交互接口

以往針對模型，用戶以及環(huán)境的三方交互接口復雜。而在文章中，這種復雜交互被抽象為了三類原語操作：

Action：與用戶對話（澄清、追問、確認偏好）；
Search：檢索數據庫（返回混合候選集，模擬真實世界的不完美檢索）；
Answer：提交推薦（直接完成用戶需求）。

這三類操作高度濃縮了 “理解 — 檢索 — 決策” 的鏈路，使不同任務可以在同一坐標系下被評估與比較。在 UserRL 訓練框架中，這個標準化接口被保留并得以進一步拓展，使模型訓練也變得可以自由定制化和拓展。

UserBench 上不同模型主要評測結果以及分析指標

4. 評價指標與關鍵發(fā)現

UserBench 的評分體系兼顧結果與過程：

核心指標：歸一化得分。對于每一項旅行需求，在數據庫中選到最優(yōu)解記 1.0；選到正確但次優(yōu)解記 0.8；其余記 0。在一個問題中用戶需求可能會涵蓋多個場景（例如交通和酒店住宿），需要被測試模型深入挖掘，理解偏好，再進行判斷和抉擇。
除此之外，文章還提出了若干過程指標以進行綜合分析：
Valid Search / Action Attempt：搜索與用戶對話操作的有效率；
Preference Elicited：偏好在用戶交互是否被主動 / 被動引出。

主要結論：模型并非輸在 “不會算”，而是常常沒能問對問題、沒能挖出關鍵信息。換言之，真正的挑戰(zhàn)不是推理鏈，而是智能體與人的交互中進行有效的 “用戶價值” 提煉與捕捉。

關鍵發(fā)現

單選比多選難很多：對于每一項旅行需求，如果把模型可回答的次數限制為一次，平均分數下滑約 40%，暴露了 “只能給一次答案” 時的抉擇困難
用戶偏好揭示率普遍偏低：主流模型僅～20% 的答案完全貼合全部用戶意圖，即便是強模型，通過主動互動挖掘到的偏好不到 30%，顯示了當下模型 “主動問對問題” 能力仍然欠缺。
會用工具 ≠ 真懂用戶：模型普遍有效搜索 > 80%，但有效對話顯著更低，說明 “循證澄清” 的難度更高。
難點在 “單一維度的偏好多而復雜”：當總偏好數固定時，把偏好更平均地分散到多個旅行需求中更容易，而集中在少數需求上會顯著拉低分數，這揭示了本質挑戰(zhàn)來自局部約束的組合復雜度
更多對話輪數≠更好表現：盲目拉長交互輪數并不能帶來收益；同時，命中答案的 “時效性”（更早給出有效答案）與整體模型對話質量也并不總是正相關：小模型 “早早猜中” 整體也不如大模型的 “穩(wěn)扎穩(wěn)打”。

盲目增加交互輪數并不能增強交互質量

UserRL

把 “能測試” 擴展為 “會訓練”

核心思想

UserRL 的出發(fā)點相比更加直接：在 UserBench 抽象出的三個原語接口之上，構建一個統(tǒng)一的 gym 環(huán)境，把 User-in-th-Loop 的多輪交互轉化為一個可訓練的強化學習問題。這意味著，智能體不再只是完成一次問答，而是要在一個有明確定義的交互環(huán)境中，通過多輪對話和工具調用來優(yōu)化回報。

UserRL 中進行訓練的八個用戶中心場景設計

1. 八大 Gym Environments：能力光譜的全覆蓋

UserRL 對接了八類環(huán)境，覆蓋從個性化推薦到復雜推理的多維能力：

TravelGym：側重個性化偏好挖掘與多目標權衡；
TauGym：強調工具編排與用戶任務實現；
PersuadeGym：模擬論證與說服場景，關注對抗式對話能力；
TurtleGym：創(chuàng)造性推理環(huán)境（“海龜湯” 游戲）；
TelepathyGym：意圖猜測與假設檢驗；
FunctionGym：數理模式識別與規(guī)律發(fā)現；
IntentionGym：針對真實場景的意圖澄清；
SearchGym：外部知識檢索與基于檢索的問答。

所有環(huán)境都統(tǒng)一在Action / Search / Answer的接口下，但考察指標有所差異。這種統(tǒng)一接口 + 多元任務的設計，使得 UserRL 既能橫向比較不同方法，又能縱向推動能力遷移。

UserRL 完整訓練框架示意圖

2. 用戶模擬與多輪 Rollout

在每個環(huán)境中，用戶同樣由 LLM 進行模擬，并且可以更換不同用戶模擬模型，以實現交互的多樣性。UserRL 框架的核心特點包括：

確定性任務狀態(tài) + 可驗證獎勵函數
自然語言互動，保留了動態(tài)模擬用戶對話的開放性；
多輪 rollout，讓模型在交中做出策略性的交互選擇。

3. 獎勵建模：讓過程價值變成可學信號

在 UserRL 中，我們重點探索了雙層獎勵設計：回合層（Turn-level）以及軌跡層（Trajectory-level）。在回合層中，我們重新映射 Gym 環(huán)境在每一輪中反饋的獎勵信號，探索了多種方法以區(qū)分不同層的重要性：

Naive：直接用環(huán)境獎勵，但往往非常稀疏，在實際環(huán)境中并不適合訓練。
Equalized：為所有回合賦予同樣的獎勵，確保所有鋪墊性動作不被忽視。
Reward-to-Go (R2G)：把未來的預期獎勵收益折扣回流，以體現當前輪次對于未來獎勵的價值。

Exponential Mapping (EM)：對原始獎勵做非線性映射，讓某些小進展也能帶來正反饋獎勵信號。

在軌跡層中，我們將每一輪的獎勵反饋整合成與用戶多輪交互的總體得分，以便于后續(xù)適配 GRPO 等下游各種 RL 算法，其中我們主要探索了兩種整合方式：

Sum：直接累積每回合的獎勵，以衡量整體任務完成度。
R2G：對早期進展賦予更高價值，更強調任務完成效率。

在實際訓練中這兩層獎勵可以靈活組合以適配不同交互任務。

UserRL 訓練主要試驗結果

4. 評價指標與關鍵發(fā)現

文章主要采用了GRPO算法進行優(yōu)化：在同一 query 下采樣多條軌跡，組內歸一化優(yōu)勢，再結合回合與軌跡獎勵進行聯(lián)合優(yōu)化。同時，在 RL 訓練之前，模型預先進行了 SFT 小規(guī)模優(yōu)化，實驗發(fā)現 SFT 冷啟動能夠有效幫助后續(xù) RL 訓練。

UserRL 用其中的五個 Gym 的訓練集數據進行訓練，另外三個 Gym 則作為 OOD 環(huán)境進行測試。所有主實驗均采用 Qwen3-32B 作為用戶模擬。不同任務的測試指標不盡相同，但是都是以準確度作為衡量基礎。

主要結論：模型的提升并非來自更復雜的算力堆疊，而是得益于對過程價值的刻畫與利用。換言之，真正的突破點不在于 “終局答案對不對”，而在于能否在多輪交互中持續(xù)累積小進展、盡早對齊用戶意圖，并把這種過程性價值轉化為學習信號。

關鍵總結果

回合均等 + 軌跡 Reward-to-Go 在 4B/8B 模型上最穩(wěn)健、平均最好；反觀回合均等 + 軌跡 Sum最弱，說明軌跡級計分比回合級細分更具有決定性價值。
經過 UserRL 訓練的 Qwen3 在 TravelGym、PersuadeGym、IntentionGym 等交互型任務上超過強閉源模型；跨 8 個 gym 的平均也領先閉源對照，體現出 “針對用戶交互的 RL 訓練” 能實打實提升能力。
SFT 冷啟動是必要條件：先做 SFT 再 RL，能顯著避免早期坍塌，部分任務收益超 100%。
用戶模擬器選擇很關鍵：用 GPT-4o 做模擬用戶訓練的模型下游更強；但 Qwen3-32B 作為開源模擬器具備性價比高且可遷移的優(yōu)勢。

SFT 冷啟動（左側對照）與 GPT-4o 作為模擬用戶（右側對照）均能帶來更好的 RL 效果

結語：從 “完成任務” 到 “成就用戶”

UserBench 提供了一面 “明鏡”，讓我們得以量化模型是否真正理解用戶；UserRL 則把這面鏡子變成 “磨刀石”，推動模型在交互中不斷迭代，學會在模糊與多目標之間提煉價值。

《論語》有云：“君子和而不同。” 未來的通用智能體，也應當在理解用戶多元價值的同時，學會和而不同：既能尊重偏好，又能提供建設性選擇；既能滿足需求，又能引導更優(yōu)解。這，才是通向真正通用智能的必要一課。

所有環(huán)境、數據以及訓練框架已開源，歡迎研究人員探索。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.