337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

CVPR2026 | Streamo:讓大模型變成實時流式交互助手

0
分享至



當視頻大模型在 MVBench、VideoMME 等離線基準上越跑越高分,真實交互場景卻卡在兩個硬問題:如何處理無界的視頻流、如何讓模型在動態的視頻流中決定回答時機。

近期,香港浸會大學聯合騰訊優圖實驗室提出Streamo,其核心創新在于:將‘何時回答’變成模型要預測的 token,通過端到端訓練框架把離線視頻模型直接轉化為實時流視頻助手。Streamo 能夠處理真實場景的視頻流,支持實時的多指令交互,實現實時解說、動作理解、事件定位、實時問答等不同任務,讓 streaming video assistant 真正走向可用。



  • 論文標題:Streaming Video Instruction Tuning
  • 論文主頁:https://jiaerxia.github.io/Streamo/
  • 論文鏈接:https://github.com/maifoundations/Streamo

1. 問題分析

為什么視頻大模型目前還無法成為一個實時的交互助手?雖然視頻大語言模型近年來取得了令人矚目的進展 ——Qwen2-VL、LLaVA-Video 等模型在視頻理解、問答、描述等任務上屢創新高。然而,關鍵的卡點在于這些模型是基于完整視頻片段的離線場景設計的,而真實世界的交互需求往往是 "邊看邊說" 的實時流式場景。

離線視頻理解范式假設在推理前可以獲取完整視頻,模型由此能在全局審視后再輸出答案,因此在視頻描述、視頻問答等任務中表現突出。然而,真實世界的流式場景并不滿足這一前提。

視頻流本質上是無界的,模型無法 “看到未來”,只能基于當前幀及時做出判斷;又因實時性要求,不能等視頻播放結束才給出結果,必須在關鍵事件發生的當下響應。同時,用戶指令可能隨時到來,模型需要持續監聽并在合適的時機觸發響應。更復雜的是,不同應用對響應粒度的要求并不一致:有的任務需要幀級的即時敘述,有的則更適合在完整事件結束后再做總結與描述。

現有方法通常通過拆分決策模塊來適配流式場景:先由一個模塊判斷 “是否應該響應”,再調用離線模型生成內容。但這種方案存在明顯缺陷:決策模塊如果過于輕量,就難以理解復雜指令和跨時間的上下文依賴;如果設計得過于龐大,又會拉高推理延遲,削弱流式交互所需的實時性。更關鍵的是,決策與生成彼此分離,使模型很難在持續變化的輸入中形成連貫、及時的響應。

Streamo 的核心洞察在于:決策與生成不應被拆開,而應統一到同一個端到端框架中,讓模型直接學會“什么時候該說話,以及該說什么”。

2. Streamo:

端到端的決策響應統一架構





通過這種方式,Streamo 將“是否響應”與“生成什么內容”統一到同一個 next-token prediction 過程中。也就是說,模型在預測下一個 token 時,不再只是生成文本內容,同時也在完成響應時機的判斷。這樣一來,決策和生成共享同一語義空間,模型能夠在連續變化的視頻內容中聯合建模時序線索、任務目標與語言輸出,從而更自然地學習 “何時該立即回應、何時應繼續等待”。

同時,這一設計并不需要額外引入獨立的決策頭或外部控制器,而是直接將三種狀態 token 融入標準的自回歸訓練框架中。這樣既保留了與現有監督微調范式的兼容性,也使訓練和推理流程更加簡潔高效,便于直接復用現有基礎設施進行并行訓練和部署。

3. Streamo-Instruct-465K

訓練流式助手的核心挑戰在于:不同任務對應不同的響應節奏—— 有的需要秒級實時輸出,有的則應等待事件結束后再總結。這意味著訓練數據不僅要提供內容監督,還要給出清晰、一致的時間邊界,告訴模型什么時候該沉默、什么時候該等待、什么時候該回答。

為此,研究者構建了Streamo-Instruct-465K。該數據集包含約 46.5 萬條指令樣本,來源于 135,875 段視頻,整合了 ActivityNet、YouCook2、QVHighlight 等多個公開數據源,并在統一協議下重新標注。標注過程采用多階段自動化流程,結合 Qwen2.5-VL-72B、GLM-4.5 等大模型生成候選描述,再通過一致性過濾與后處理,盡可能保證時間邊界準確、文本表達連貫。

在任務設置上,Streamo-Instruct-465K 具有多任務、多粒度的特點。同一段視頻可以被標注為不同形式的流式任務,包括實時旁白(Real-time Narration)、事件字幕(Event Caption)、動作字幕(Action Caption)、事件時序定位(Event Grounding)以及時變問答(Time-sensitive QA)。這些任務覆蓋了從連續解說到事件總結、從動作級描述到在線定位和動態問答等不同場景。

更重要的是,所有任務都被統一到同一種時間監督框架中:每一輪標注不僅包含文本輸出,還明確對應模型當下應處于沉默、等待還是回答狀態。這樣一來,模型學習的就不只是 “說什么”,還包括 “何時說”,從而具備適應不同流式任務的響應能力。

多任務數據標注演示:

對于同一段視頻,標注可以隨任務目標呈現不同形式:在實時旁白中,模型需要跟隨畫面持續輸出;在事件字幕中,則只在關鍵事件結束后給出總結;在時變問答中,答案會隨著視頻進展不斷更新。對應地,每個時間點都會標注模型應保持沉默、繼續等待,還是立即響應。

4. 實驗結果

在 OVO-Bench 上,Streamo-7B (2fps) 以57.86%的平均性能超越 Dispider13.83個百分點。在三大能力維度上全面領先:實時感知能力達到67.44%(相對 Dispider 的 54.55% 提升+12.89%);回溯追蹤能力達到49.18%(相對 Dispider 的 36.06% 提升+13.12%);前向響應能力達到56.96%(相對 Dispider 的 34.72% 提升+22.24%)。同時,Streamo 在1fps 訓練的模型可直接在 2fps 下評估,性能提升4.66%, 展現出強大的泛化能力。



Streamo-Instruct vs 現有數據

Streamo 的性能提升不僅來自訓練框架,也高度依賴于高質量的訓練數據。與廣泛使用的 ET-Instruct-164K 相比,Streamo-Instruct在 OVO-Bench 上的整體性能提升了11.79%,在關鍵的前向主動響應任務上提升了7.1%,并且避免了混合離線數據(如 LLaVA-Video)所帶來的 “在線能力退化” 問題。

實驗進一步揭示了一個重要現象:直接混合離線數據可能會削弱模型的在線能力。例如,ET-Instruct 與 LLaVA-Video 結合后,雖然實時感知能力有所提升,但前向響應表現反而下降。這表明,離線監督范式與流式學習目標之間存在一定沖突。相比之下,Streamo-Instruct 通過專門設計的流式標注與統一的時間監督,有效避免了這一問題。

5. 結論

實現真正的實時多模態助手(直播理解、智能駕駛提醒、安防巡檢、運動教學等),最難的往往不是 "答對",而是在合適的時間點做合適的輸出。Streamo 不僅解決了當前視頻大模型的關鍵瓶頸,提供了一個可復用的技術路線來將靜態感知模型轉換為動態交互智能體,同時提供了一個統一時間標注的大規模流視頻指令數據,推動流視頻理解的發展。

6. Demo


https://mp.weixin.qq.com/s/Q28azqwk-PtsXoep2i0_0Q

該 demo 展示了流視頻模型在連續視頻輸入下的實時理解與響應能力。模型能夠隨畫面進展動態決定何時沉默、何時等待、何時回答,在保證時效性的同時提升響應的準確性與連貫性。對于尚無明確答案的問題,模型會等待更多信息后再作答;對于答案隨時間變化的問題,模型能夠持續更新輸出;同時,它還支持基于歷史視頻內容的回溯式問答。

作者介紹:

本文第一作者為香港浸會大學計算機系博士生夏佳爾,主要研究方向為多模態大模型,包括多模態思考,流視頻理解與交互,以第一作者在CVPR,ICCV,AAAI等頂級會議發表多篇文章。導師為香港浸會大學計算機系周鍇陽助理教授。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

伊朗用血淚換來的教訓:一旦中美開戰,中國必須首先鎖定這一點

冷峻視角下的世界
2026-02-20 07:45:35
男子偷價值140萬保時捷去找前女友炫耀 因沒有駕駛證 花500元找了個代駕 結果半路被抓

男子偷價值140萬保時捷去找前女友炫耀 因沒有駕駛證 花500元找了個代駕 結果半路被抓

閃電新聞
2026-03-19 16:06:18
10人出局,10人加入!國足26人名單大變天:誕生3個驚喜+1大爭議

10人出局,10人加入!國足26人名單大變天:誕生3個驚喜+1大爭議

侃球熊弟
2026-03-20 12:29:04
詹姆斯背靠背刷新最老三雙紀錄 雷迪克:他是變態

詹姆斯背靠背刷新最老三雙紀錄 雷迪克:他是變態

體壇周報
2026-03-20 11:28:15
周恩來晚年含淚揭秘,當年若非毛主席深夜提燈來,歷史或將改寫

周恩來晚年含淚揭秘,當年若非毛主席深夜提燈來,歷史或將改寫

鶴羽說個事
2026-03-18 21:47:42
近8戰場均40.8分9板!NBA史上最離譜的交易,拿超巨換過氣球星

近8戰場均40.8分9板!NBA史上最離譜的交易,拿超巨換過氣球星

你的籃球頻道
2026-03-20 11:09:08
北京隊為何遭福建逆轉?京媒京迷吵翻天,矛頭直指一人:膿包是你

北京隊為何遭福建逆轉?京媒京迷吵翻天,矛頭直指一人:膿包是你

南海浪花
2026-03-20 06:33:09
龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

龍洋眼往上瞟,不是看提詞器,也不是針打多了,而是一個“硬傷”

她時尚丫
2026-02-17 22:41:30
特朗普接班人已明朗?美國或出現史上首個,被中國制裁的總統?

特朗普接班人已明朗?美國或出現史上首個,被中國制裁的總統?

詩酒趁的年華
2026-03-19 14:47:48
遼寧男籃沖擊7連勝!全力擊敗北京,鄢手騏漸入佳境,央視直播

遼寧男籃沖擊7連勝!全力擊敗北京,鄢手騏漸入佳境,央視直播

體壇瞎白話
2026-03-20 14:53:45
馬筱梅比大S還狠,給張蘭“下馬威”讓汪寶姓馬,百日宴在臺北辦

馬筱梅比大S還狠,給張蘭“下馬威”讓汪寶姓馬,百日宴在臺北辦

小蘭聊歷史
2026-03-18 18:14:35
伊朗:可付費通過霍爾木茲海峽

伊朗:可付費通過霍爾木茲海峽

新浪財經
2026-03-20 07:26:50
伊朗宣稱擊中F-35,美方回應卻完全相反

伊朗宣稱擊中F-35,美方回應卻完全相反

桂系007
2026-03-20 05:05:15
去深圳才發現:年輕人都不穿耐克、薩洛蒙了,滿街都是這3個品牌

去深圳才發現:年輕人都不穿耐克、薩洛蒙了,滿街都是這3個品牌

白宸侃片
2026-03-11 13:18:49
外媒:特朗普證實五角大樓申請緊急追加2000億軍費,聲稱這是“小小的代價”

外媒:特朗普證實五角大樓申請緊急追加2000億軍費,聲稱這是“小小的代價”

環球網資訊
2026-03-20 10:11:12
字節超60億美元出售沐瞳科技,進一步聚焦AI戰略

字節超60億美元出售沐瞳科技,進一步聚焦AI戰略

界面新聞
2026-03-20 15:39:54
張雨綺又懷孕了登上熱搜,前夫袁巴元的前妻葛曉倩發文

張雨綺又懷孕了登上熱搜,前夫袁巴元的前妻葛曉倩發文

君笙的拂兮
2026-03-20 03:24:36
臺當局緊張壞了,大陸對臺灣同胞做出一項公開承諾!賴清德慌了神

臺當局緊張壞了,大陸對臺灣同胞做出一項公開承諾!賴清德慌了神

云上烏托邦
2026-03-20 13:25:35
急了!寧愿讓臺灣島成為一個空島,也要實現祖國完全統一

急了!寧愿讓臺灣島成為一個空島,也要實現祖國完全統一

聞香閣
2026-01-27 13:53:07
一旦臺海爆發沖突,最難啃的骨頭不是臺灣本島

一旦臺海爆發沖突,最難啃的骨頭不是臺灣本島

阿七說史
2026-03-18 15:27:42
2026-03-20 20:15:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12555文章數 142588關注度
往期回顧 全部

科技要聞

新SU7只漲4千!雷軍:真怕交車慢挨罵

頭條要聞

美財長稱美方可能對在途伊朗石油解除制裁 外交部回應

頭條要聞

美財長稱美方可能對在途伊朗石油解除制裁 外交部回應

體育要聞

6年前的一場悲劇,造就了“法國瓦爾迪”

娛樂要聞

總臺首屆電影盛典,“沈馬”CP再合體

財經要聞

金融法草案向社會公開征求意見

汽車要聞

何小鵬坦白局:每月3億的“慌”與通向L4的堅定

態度原創

本地
教育
時尚
健康
數碼

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

教育要聞

生源荒!地方大學,面臨生存危機

想買能穿十年的衣服?可以看看她們構建衣櫥的思路

轉頭就暈的耳石癥,能開車上班嗎?

數碼要聞

一加 15T 「松弛抹茶」隨手拍

無障礙瀏覽 進入關懷版