網易首頁 > 網易號 > 正文申請入駐

讓多模態模型學會主動說話：主動交互從訓練到評估的完整方案

2026-03-30 13:16:01　來源: 機器之心Pro

河北舉報

分享至

本文綜合北京大學王選計算機研究所發布的 ProactiveVideoQA 和 MMDuet2 兩篇論文，介紹視頻多模態大模型如何實現 “主動交互”—— 在視頻播放過程中自主決定何時發起回復，而非等待用戶提問。ProactiveVideoQA 提出評估指標和 benchmark，MMDuet2 則通過強化學習訓練方法實現了 SOTA 性能，無需精確的回復時間標注即可訓練出及時、準確的主動交互模型。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning

論文鏈接：https://www.arxiv.org/abs/2512.06810
論文主頁：https://github.com/yellow-binary-tree/MMDuet2

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models

論文鏈接：https://arxiv.org/abs/2507.09313
論文主頁：https://github.com/yellow-binary-tree/ProactiveVideoQA

背景：為什么視頻模型需要 "主動交互"

想象這樣一個場景：你正在使用一個基于多模態大模型的語音助手指導你做飯；對于大多數已有的多模態大模型，它只能在你提出問題后做出回復。也就是說，你在手忙腳亂地操作廚具的同時，還要一次一次地提問 “現在我該怎么做？”。但更理想的體驗是，模型可以在看你操作的時候，不需要你給出指令，就主動提供講解。

這就是 "主動交互"（Proactive Interaction）要解決的問題。如上圖所示，與傳統的離線交互（offline，先提供整個視頻，然后基于視頻內容展開對話）和在線交互（online，用戶每次提問后模型回復）不同，主動交互要求模型自主決定何時回復，即能根據視頻的進展自主選擇合適的時機主動向用戶提供信息。

這種能力對很多真實場景至關重要：例如直播管理、智能監控、第一人稱視角助手等應用場景都需要模型能夠主動、及時地響應視頻中的關鍵事件。下面是 MMDuet2 模型在處理游戲直播時的一個例子：用戶在視頻開始時提出一個需要關注的事件（屏幕上出現表示游戲中重要事件的大字），每次這個事件發生時，MMDuet2 模型就會及時給出解釋。

視頻地址：https://mp.weixin.qq.com/s/pGnyUMZmBq0RBD0fAmlQ8A?click_id=36

但目前這個問題仍然沒有受到足夠的重視；雖然有一些工作訓練的多模態大模型聲稱具備主動交互能力，他們也并沒有對這種能力進行定量的評估。這背后反映的問題是：如何評估主動交互能力？如何訓練主動交互能力？這兩個基礎問題一直缺乏系統性的解決方案。ProactiveVideoQA 和發表在 ICLR 2026 上的 MMDuet2 這兩篇工作恰好構成了一個完整的方案：前者定義了問題和評估標準，后者提供了訓練解決方案并達到了最佳性能。

ProactiveVideoQA：首個主動交互評估基準

ProactiveVideoQA 是首個專門評估視頻多模態模型主動交互能力的綜合基準測試。它的核心特征有三個：

1.多輪開放式問答：不同于大多數視頻問答基準使用選擇題，ProactiveVideoQA 要求模型生成多輪、完全開放的文本回復，更接近真實對話場景。

2.多樣化的任務和多模態輸入：ProactiveVideoQA 涵蓋網絡視頻、第一人稱視角、電視劇、監控視頻四大類任務，整合文本、視頻、語音多種模態，共 1377 個視頻、1427 個問題。Benchmark 的數據示例如下圖所示，每條數據含有一個問題和一個以上的答案，每個答案對應一個時間片段：

3.提出和回復時間相關的評估指標 PAUC：提出 Proactive Area Under Curve（PAUC）指標，通過繪制 “時間 - 質量” 曲線并計算曲線下面積來評估模型回復的及時性和準確性，而非僅評估文本內容。

PAUC 的計算方式如上圖所示：受到人機交互領域中的用戶旅程地圖（User Journey Map）的啟發，我們將模型在每個時間點的累積回復質量分數繪制成折線圖，并計算折線下面積與最大可能面積的比值（藍色面積與黃色面積 + 藍色面積的比值）：

關于這個指標為什么可以兼顧回復的及時性和準確性，下圖有一個直觀的幾何解釋：

MMDuet2：基于強化學習的主動交互訓練方法

MMDuet2 是在 ProactiveVideoQA 基準上達到 SOTA 性能的支持主動交互的視頻多模態模型。它的主要貢獻包括：

1.高質量訓練數據：構建了包含 52k 條視頻的主動交互對話數據集，根據對話中問題個數的不同分為兩種對話類型（1QnA 和 nQnA）。

2.訓練和推理框架兼容性：基于 Qwen2.5-VL 模型，每個回復輪次輸出回復內容或 "NO REPLY"，無需額外模塊或手動調整閾值，與主流訓練 / 推理框架完全兼容。

3.多輪強化學習訓練：提出基于 GRPO 的 RL 訓練方法，通過精心設計的基于 PAUC 指標的復合獎勵函數，在無需精確標注最佳回復時間的情況下訓練模型生成及時、準確的回復。

主動交互訓練數據集的構建

本文提出的主動交互對話數據集的構建流程如下：

1.場景分割與描述：將視頻根據 scene 分成多個片段，為每個時間段生成詳細的視頻 caption。

2.QA 生成：用 LLM 根據所有片段的 caption 生成問題和一組答案（每個片段對應一個答案；如果某個片段中的視頻無法回答問題，則認為答案是 "NO REPLY"）。對于每個視頻，我們用這種方式可以生成多個問題和多組答案。

3.對話構建：根據每個視頻對應的多個問題和多組答案生成兩種類型的對話：

1QnA：視頻開始時提出一個問題，模型需要在對應的時間段中給出對應的答案
nQnA：視頻中多個隨機時間點每個時間點提出一個問題；模型需要在問題提出時立刻給出前面已經經過的時間段對應的答案，并在接下來的每個時間段回復對應的答案，直到用戶提出下一個問題為止。

純文本 Chat Template

MMDuet2 使用了如下的 chat template 來表示主動交互的過程：

首先，我們使用自定義的 system prompt 作為一個主動交互對話的開頭。這不僅為模型提供了對話規則，還通過不同的 system prompt 來區分主動和離線視頻任務。
user 輸入一條消息，其中包括來自視頻的少量（本文中為 1 或 2 幀）幀和可選的文本輸入。
在 assistant 的回合中，模型可以選擇生成一些文本內容作為回復，或生成 "NO REPLY" 來表示它不想在這一輪中回復。
隨后，user 重新獲得發言權并繼續輸入包含幀和可選的文本的消息。這個循環持續到視頻中的所有幀都已被輸入完成。

在這個 chat template 中，視頻中每個 user 回合或 assistant 回合的時間點可以通過將此回合之前的幀數乘以幀之間的時間間隔來計算得出。例如，在每秒 1 幀的幀采樣率下，上圖中的對話表示用戶在第 2 秒說 "What are the people doing in office?"，模型在第 4 秒回復 "People are working..."，在第 8 秒回復 "A reporter is speaking..."。

MMDuet2 的 SFT 和 RL 兩階段訓練

MMDuet2 的訓練分為兩個階段。在監督微調（SFT）階段，模型基于 Qwen2.5-VL 3B 初始化，使用 52k 條主動交互對話數據進行訓練，并混合 25k 離線視頻 QA 和 25k 條 video captioning 數據以保持通用視頻理解能力。為了避免模型產生幻覺，SFT 階段我們將模型回復的時間點選為每個時間段的末尾，確保相關內容在回復前已經發生。整個 SFT 階段在 16 張 H800 GPU 上訓練 8 小時。

然而，純監督學習存在明顯的局限性：因為我們將模型回復的時間點選在了每個時間段的末尾，這導致模型學會了看到關鍵信息出現時不立刻回復相關內容而是等這段視頻播放完了再說，這造成了一個我們并不想要的回復延遲。另外，由于 SFT 數據中模型輸出 "NO REPLY" 的頻率遠高于輸出有實際意義的回復內容的概率，這導致模型在測試時也更傾向于輸出 "NO REPLY"。

通過這種方式，模型能夠在無需精確時間標注的情況下學習到最優的回復時機。整個 RL 階段用了 1900 個視頻，在 8 張 H800 GPU 上訓練 20 小時，最終在 ProactiveVideoQA 基準上達到了 SOTA 性能。

上圖中在 ProactiveVideoQA 的 [WEB] [EGO] 子任務上的回復輪數統計顯示，RL 訓練后模型的回復次數明顯提升，解決了 SFT 模型 "回復過少" 的問題。

實驗結果

主動交互 benchmark 上的 SOTA 表現

上圖中展示了在 StreamingBench Proactive Output 任務上的表現，以及 ProactiveVideoQA benchmark 上的 PAUC 指標和回復重復率。我們的 MMDuet2 模型達到最佳性能且明顯降低回復重復率。

和本工作中使用強化學習引導模型學會回復時機判斷相比，之前的主動交互模型 VideoLLM-Online 和 MMDuet 通過在每幀后預測代表回復概率的分數，并比較分數是否大于閾值來決定是否在該幀后插入回復。他們的做法的缺點是測試時很難找到合適的閾值，從而導致模型總是不回復或生成大量重復回復。

保持離線視頻理解能力

在 Video-MME、MVBench、LongVideoBench 等離線基準上，MMDuet2 的性能與訓練前的原模型 Qwen2.5-VL 基本持平，說明 SFT+RL 訓練沒有損害通用視頻理解能力。

訓練和推理階段的幀采樣密度影響

幀采樣密度是影響主動交互體驗的關鍵因素。本文在 SFT、RL 和推理三個階段測試了不同的幀采樣間距：

SFT 階段：幀間距設為 1 秒時，模型會坍縮為每輪都輸出 "NO REPLY"，因為訓練數據中不回復（即輸出 "NO REPLY"）的占比過高。因此后續實驗中 SFT 使用 2 秒幀間距。
RL 階段：不同幀間距對性能影響不大。
推理階段：將幀間距從 2 秒降至 1 秒帶來顯著性能提升。原因是更高的決策頻率讓模型能更早（提前 1 秒）感知到合適的回復時機，這對 PAUC 指標（尤其是 ground truth 回復時間段很短時）和用戶體驗都更有利。

這一發現表明 MMDuet2 在 RL 階段對不同幀采樣策略具有良好的魯棒性，且在推理時使用更密集的幀采樣能顯著改善交互體驗。

總結與展望

MMDuet2 和 ProactiveVideoQA 共同構建了視頻多模態模型主動交互的完整解決方案：

ProactiveVideoQA提出了 PAUC 評估指標，提供了測試 benchmark
MMDuet2通過無需精確時間標注的 RL 方法解決了訓練問題，構建了訓練數據，達到了 SOTA 性能。

對多模態大模型主動交互能力的關注和探索代表了我們關注從 “用戶驅動” 到 “AI 主動” 的多模態大模型使用范式的轉變。本文主要關注通用領域的視頻問答和對話場景，未來我們希望通過構建特定領域的訓練數據的方式將主動交互技術擴展到更多實際應用場景中。

作者介紹

本工作的第一作者為北京大學王選計算機研究所博士研究生王越千，研究方向為多模態大模型，尤其是視頻對話、視頻問答、多模態強化學習。

導師為王選計算機研究所助理教授張輝帥、研究員趙東巖。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.