337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

讓多模態模型學會主動說話:主動交互從訓練到評估的完整方案

0
分享至



本文綜合北京大學王選計算機研究所發布的 ProactiveVideoQA 和 MMDuet2 兩篇論文,介紹視頻多模態大模型如何實現 “主動交互”—— 在視頻播放過程中自主決定何時發起回復,而非等待用戶提問。ProactiveVideoQA 提出評估指標和 benchmark,MMDuet2 則通過強化學習訓練方法實現了 SOTA 性能,無需精確的回復時間標注即可訓練出及時、準確的主動交互模型。

MMDuet2: Enhancing Proactive Interaction of Video MLLMs with Multi-Turn Reinforcement Learning



  • 論文鏈接:https://www.arxiv.org/abs/2512.06810
  • 論文主頁:https://github.com/yellow-binary-tree/MMDuet2

ProactiveVideoQA: A Comprehensive Benchmark Evaluating Proactive Interactions in Video Large Language Models



  • 論文鏈接:https://arxiv.org/abs/2507.09313
  • 論文主頁:https://github.com/yellow-binary-tree/ProactiveVideoQA

背景:為什么視頻模型需要 "主動交互"

想象這樣一個場景:你正在使用一個基于多模態大模型的語音助手指導你做飯;對于大多數已有的多模態大模型,它只能在你提出問題后做出回復。也就是說,你在手忙腳亂地操作廚具的同時,還要一次一次地提問 “現在我該怎么做?”。但更理想的體驗是,模型可以在看你操作的時候,不需要你給出指令,就主動提供講解。



這就是 "主動交互"(Proactive Interaction)要解決的問題。如上圖所示,與傳統的離線交互(offline,先提供整個視頻,然后基于視頻內容展開對話)和在線交互(online,用戶每次提問后模型回復)不同,主動交互要求模型自主決定何時回復,即能根據視頻的進展自主選擇合適的時機主動向用戶提供信息。

這種能力對很多真實場景至關重要:例如直播管理、智能監控、第一人稱視角助手等應用場景都需要模型能夠主動、及時地響應視頻中的關鍵事件。下面是 MMDuet2 模型在處理游戲直播時的一個例子:用戶在視頻開始時提出一個需要關注的事件(屏幕上出現表示游戲中重要事件的大字),每次這個事件發生時,MMDuet2 模型就會及時給出解釋。



視頻地址:https://mp.weixin.qq.com/s/pGnyUMZmBq0RBD0fAmlQ8A?click_id=36

但目前這個問題仍然沒有受到足夠的重視;雖然有一些工作訓練的多模態大模型聲稱具備主動交互能力,他們也并沒有對這種能力進行定量的評估。這背后反映的問題是:如何評估主動交互能力?如何訓練主動交互能力?這兩個基礎問題一直缺乏系統性的解決方案。ProactiveVideoQA 和發表在 ICLR 2026 上的 MMDuet2 這兩篇工作恰好構成了一個完整的方案:前者定義了問題和評估標準,后者提供了訓練解決方案并達到了最佳性能。

ProactiveVideoQA:首個主動交互評估基準

ProactiveVideoQA 是首個專門評估視頻多模態模型主動交互能力的綜合基準測試。它的核心特征有三個:

1.多輪開放式問答:不同于大多數視頻問答基準使用選擇題,ProactiveVideoQA 要求模型生成多輪、完全開放的文本回復,更接近真實對話場景。

2.多樣化的任務和多模態輸入:ProactiveVideoQA 涵蓋網絡視頻、第一人稱視角、電視劇、監控視頻四大類任務,整合文本、視頻、語音多種模態,共 1377 個視頻、1427 個問題。Benchmark 的數據示例如下圖所示,每條數據含有一個問題和一個以上的答案,每個答案對應一個時間片段:



3.提出和回復時間相關的評估指標 PAUC:提出 Proactive Area Under Curve(PAUC)指標,通過繪制 “時間 - 質量” 曲線并計算曲線下面積來評估模型回復的及時性和準確性,而非僅評估文本內容。



PAUC 的計算方式如上圖所示:受到人機交互領域中的用戶旅程地圖(User Journey Map)的啟發,我們將模型在每個時間點的累積回復質量分數繪制成折線圖,并計算折線下面積與最大可能面積的比值(藍色面積與黃色面積 + 藍色面積的比值):





關于這個指標為什么可以兼顧回復的及時性和準確性,下圖有一個直觀的幾何解釋:







MMDuet2:基于強化學習的主動交互訓練方法

MMDuet2 是在 ProactiveVideoQA 基準上達到 SOTA 性能的支持主動交互的視頻多模態模型。它的主要貢獻包括:

1.高質量訓練數據:構建了包含 52k 條視頻的主動交互對話數據集,根據對話中問題個數的不同分為兩種對話類型(1QnA 和 nQnA)。

2.訓練和推理框架兼容性:基于 Qwen2.5-VL 模型,每個回復輪次輸出回復內容或 "NO REPLY",無需額外模塊或手動調整閾值,與主流訓練 / 推理框架完全兼容。

3.多輪強化學習訓練:提出基于 GRPO 的 RL 訓練方法,通過精心設計的基于 PAUC 指標的復合獎勵函數,在無需精確標注最佳回復時間的情況下訓練模型生成及時、準確的回復。

主動交互訓練數據集的構建

本文提出的主動交互對話數據集的構建流程如下:

1.場景分割與描述:將視頻根據 scene 分成多個片段,為每個時間段生成詳細的視頻 caption。

2.QA 生成:用 LLM 根據所有片段的 caption 生成問題和一組答案(每個片段對應一個答案;如果某個片段中的視頻無法回答問題,則認為答案是 "NO REPLY")。對于每個視頻,我們用這種方式可以生成多個問題和多組答案。

3.對話構建:根據每個視頻對應的多個問題和多組答案生成兩種類型的對話:

  • 1QnA:視頻開始時提出一個問題,模型需要在對應的時間段中給出對應的答案
  • nQnA:視頻中多個隨機時間點每個時間點提出一個問題;模型需要在問題提出時立刻給出前面已經經過的時間段對應的答案,并在接下來的每個時間段回復對應的答案,直到用戶提出下一個問題為止。





純文本 Chat Template

MMDuet2 使用了如下的 chat template 來表示主動交互的過程:



  • 首先,我們使用自定義的 system prompt 作為一個主動交互對話的開頭。這不僅為模型提供了對話規則,還通過不同的 system prompt 來區分主動和離線視頻任務。
  • user 輸入一條消息,其中包括來自視頻的少量(本文中為 1 或 2 幀)幀和可選的文本輸入。
  • 在 assistant 的回合中,模型可以選擇生成一些文本內容作為回復,或生成 "NO REPLY" 來表示它不想在這一輪中回復。
  • 隨后,user 重新獲得發言權并繼續輸入包含幀和可選的文本的消息。這個循環持續到視頻中的所有幀都已被輸入完成。

在這個 chat template 中,視頻中每個 user 回合或 assistant 回合的時間點可以通過將此回合之前的幀數乘以幀之間的時間間隔來計算得出。例如,在每秒 1 幀的幀采樣率下,上圖中的對話表示用戶在第 2 秒說 "What are the people doing in office?",模型在第 4 秒回復 "People are working...",在第 8 秒回復 "A reporter is speaking..."。

MMDuet2 的 SFT 和 RL 兩階段訓練

MMDuet2 的訓練分為兩個階段。在監督微調(SFT)階段,模型基于 Qwen2.5-VL 3B 初始化,使用 52k 條主動交互對話數據進行訓練,并混合 25k 離線視頻 QA 和 25k 條 video captioning 數據以保持通用視頻理解能力。為了避免模型產生幻覺,SFT 階段我們將模型回復的時間點選為每個時間段的末尾,確保相關內容在回復前已經發生。整個 SFT 階段在 16 張 H800 GPU 上訓練 8 小時。

然而,純監督學習存在明顯的局限性:因為我們將模型回復的時間點選在了每個時間段的末尾,這導致模型學會了看到關鍵信息出現時不立刻回復相關內容而是等這段視頻播放完了再說,這造成了一個我們并不想要的回復延遲。另外,由于 SFT 數據中模型輸出 "NO REPLY" 的頻率遠高于輸出有實際意義的回復內容的概率,這導致模型在測試時也更傾向于輸出 "NO REPLY"。



通過這種方式,模型能夠在無需精確時間標注的情況下學習到最優的回復時機。整個 RL 階段用了 1900 個視頻,在 8 張 H800 GPU 上訓練 20 小時,最終在 ProactiveVideoQA 基準上達到了 SOTA 性能。



上圖中在 ProactiveVideoQA 的 [WEB] [EGO] 子任務上的回復輪數統計顯示,RL 訓練后模型的回復次數明顯提升,解決了 SFT 模型 "回復過少" 的問題。

實驗結果

主動交互 benchmark 上的 SOTA 表現





上圖中展示了在 StreamingBench Proactive Output 任務上的表現,以及 ProactiveVideoQA benchmark 上的 PAUC 指標和回復重復率。我們的 MMDuet2 模型達到最佳性能且明顯降低回復重復率。

和本工作中使用強化學習引導模型學會回復時機判斷相比,之前的主動交互模型 VideoLLM-Online 和 MMDuet 通過在每幀后預測代表回復概率的分數,并比較分數是否大于閾值來決定是否在該幀后插入回復。他們的做法的缺點是測試時很難找到合適的閾值,從而導致模型總是不回復或生成大量重復回復。

保持離線視頻理解能力



在 Video-MME、MVBench、LongVideoBench 等離線基準上,MMDuet2 的性能與訓練前的原模型 Qwen2.5-VL 基本持平,說明 SFT+RL 訓練沒有損害通用視頻理解能力。

訓練和推理階段的幀采樣密度影響

幀采樣密度是影響主動交互體驗的關鍵因素。本文在 SFT、RL 和推理三個階段測試了不同的幀采樣間距:



  • SFT 階段:幀間距設為 1 秒時,模型會坍縮為每輪都輸出 "NO REPLY",因為訓練數據中不回復(即輸出 "NO REPLY")的占比過高。因此后續實驗中 SFT 使用 2 秒幀間距。
  • RL 階段:不同幀間距對性能影響不大。
  • 推理階段:將幀間距從 2 秒降至 1 秒帶來顯著性能提升。原因是更高的決策頻率讓模型能更早(提前 1 秒)感知到合適的回復時機,這對 PAUC 指標(尤其是 ground truth 回復時間段很短時)和用戶體驗都更有利。

這一發現表明 MMDuet2 在 RL 階段對不同幀采樣策略具有良好的魯棒性,且在推理時使用更密集的幀采樣能顯著改善交互體驗。

總結與展望

MMDuet2 和 ProactiveVideoQA 共同構建了視頻多模態模型主動交互的完整解決方案:

  • ProactiveVideoQA提出了 PAUC 評估指標,提供了測試 benchmark
  • MMDuet2通過無需精確時間標注的 RL 方法解決了訓練問題,構建了訓練數據,達到了 SOTA 性能。

對多模態大模型主動交互能力的關注和探索代表了我們關注從 “用戶驅動” 到 “AI 主動” 的多模態大模型使用范式的轉變。本文主要關注通用領域的視頻問答和對話場景,未來我們希望通過構建特定領域的訓練數據的方式將主動交互技術擴展到更多實際應用場景中。

作者介紹

本工作的第一作者為北京大學王選計算機研究所博士研究生王越千,研究方向為多模態大模型,尤其是視頻對話、視頻問答、多模態強化學習。

導師為王選計算機研究所助理教授張輝帥、研究員趙東巖。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
龐麥郎轉發李榮浩維權微博并提及華晨宇,疑似重提《我的滑板鞋》版權糾紛,華晨宇工作室發布歷史聲明:冷飯又炒,不再回應

龐麥郎轉發李榮浩維權微博并提及華晨宇,疑似重提《我的滑板鞋》版權糾紛,華晨宇工作室發布歷史聲明:冷飯又炒,不再回應

瀟湘晨報
2026-03-30 13:42:12
6月1號起,車管所跟你關系不大了

6月1號起,車管所跟你關系不大了

音樂時光的娛樂
2026-03-30 15:57:27
為什么年輕人不愛繳社保?陸銘:要理解他們的現實需求

為什么年輕人不愛繳社保?陸銘:要理解他們的現實需求

中國經濟網
2026-03-30 15:07:08
曝托納利提出加盟曼聯條件!不會為轉會施壓紐卡,最少也要7000萬

曝托納利提出加盟曼聯條件!不會為轉會施壓紐卡,最少也要7000萬

羅米的曼聯博客
2026-03-30 11:45:33
張雪峰生前最后一瓶水有問題!?

張雪峰生前最后一瓶水有問題!?

八卦瘋叔
2026-03-27 11:25:06
特朗普宣布訪華新日期,不到48小時,中方不留情面,連續反制

特朗普宣布訪華新日期,不到48小時,中方不留情面,連續反制

知鑒明史
2026-03-29 13:23:26
快訊!以色列傳來新消息!

快訊!以色列傳來新消息!

做個平凡的軒友
2026-03-30 13:47:37
差6093分!韋德斷言杜蘭特必拿歷史第二,算完場次球迷懂了

差6093分!韋德斷言杜蘭特必拿歷史第二,算完場次球迷懂了

林子說事
2026-03-30 15:58:47
“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

“白天800晚上900元”,女子陪爬泰山時,被一男子“白嫖”800元

江山揮筆
2026-03-28 16:50:15
上海這家老字號的小餛飩,我以后是不會再去吃了……

上海這家老字號的小餛飩,我以后是不會再去吃了……

阿萊美食匯
2026-03-30 16:07:42
52歲李乃文天津被偶遇,站在救護車旁神情緊張,網友紛紛表示擔憂

52歲李乃文天津被偶遇,站在救護車旁神情緊張,網友紛紛表示擔憂

樂悠悠娛樂
2026-03-30 11:17:49
32歲女生自述得艾滋病過程,原因是見了一次網友,如今十分后悔

32歲女生自述得艾滋病過程,原因是見了一次網友,如今十分后悔

千秋文化
2026-03-29 20:59:49
美媒定論:特朗普已無法恢復政治地位,他的總統任期實質上已結束

美媒定論:特朗普已無法恢復政治地位,他的總統任期實質上已結束

蘭妮搞笑分享
2026-03-30 13:28:47
我是廣東人,在香港打工12年,發現香港人愛吃這3道菜,喝這2款酒

我是廣東人,在香港打工12年,發現香港人愛吃這3道菜,喝這2款酒

濤哥美食匯
2026-03-30 09:10:37
張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

張雪峰曾評價單依純翻唱的《李白》!欣賞不了,無法理解這歌能火

談史論天地
2026-03-30 07:33:27
黑色星期一,原油跳空大漲,日韓股市重挫,港股大跌,A股跟跌!

黑色星期一,原油跳空大漲,日韓股市重挫,港股大跌,A股跟跌!

丁丁鯉史紀
2026-03-30 12:16:05
凈利潤暴跌90%!理想的銷量神話破滅

凈利潤暴跌90%!理想的銷量神話破滅

大佬灼見
2026-03-13 12:23:26
鄭麗文得到大陸邀請,訪陸日期已定,朱、盧傻眼,賴清德慌了

鄭麗文得到大陸邀請,訪陸日期已定,朱、盧傻眼,賴清德慌了

墜入二次元的海洋
2026-03-30 11:15:59
軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

軍號被粉底液將軍粉絲圍攻,編劇汪海林發聲:真是無法無天

往史過眼云煙
2026-03-28 14:32:07
鳳凰傳奇沖上熱搜!玲花暴雨中睜不開眼,評論區都在問一個問題

鳳凰傳奇沖上熱搜!玲花暴雨中睜不開眼,評論區都在問一個問題

潮鹿逐夢
2026-03-30 11:43:44
2026-03-30 18:32:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12640文章數 142599關注度
往期回顧 全部

科技要聞

一句謊言引發的硅谷血案

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

頭條要聞

尹正發文恭喜張雪奪冠 張雪:沒錢請您做代言人 送臺車

體育要聞

想進世界杯,意大利還要過他這一關

娛樂要聞

單依純凌晨發長文道歉!李榮浩再回應

財經要聞

本輪地緣沖突,A股憑什么走出獨立行情

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態度原創

家居
本地
藝術
游戲
公開課

家居要聞

東方法式美學 現代簡約

本地新聞

用Color Walk的方式解鎖城市春日

藝術要聞

600 年前的「產亡孤魂」,藏著中國女性最痛的記憶

2025年的神作有中文了!M站92分 IGN9分超好評

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版