![]()
這項由 SenseTime Research(商湯科技研究院)開發的研究成果發表于 2026 年 3 月,論文編號為 arXiv:2603.22918v1。有興趣深入了解的讀者可以通過該編號查詢完整論文。
當我們看一部電影時,我們不會呆呆地盯著每一幀畫面。相反,我們的大腦會根據劇情發展,有選擇性地關注重要情節,忽略無關緊要的片段。比如在看偵探片時,我們會特別留意可疑的細節,而在浪漫場景中則專注于角色的表情和互動。但現在的人工智能在理解視頻時,卻像一個死板的機器人,必須把整個視頻從頭到尾逐幀掃描一遍,不管內容是否重要。
這種笨拙的方式不僅浪費大量計算資源,更重要的是效果還很差。就像讓一個人在茫茫人海中尋找特定的一個人,如果只是盲目地一個個看過去,既耗時又容易遺漏關鍵信息。現在,商湯科技的研究團隊提出了一個革命性的解決方案——他們開發了一個名為 EVA(高效強化學習端到端視頻智能體)的系統,讓人工智能學會了像偵探一樣思考和觀察。
EVA 的核心思想是"先思考再觀察"。傳統的 AI 就像一個被動的攝像頭,只能接受別人塞給它的畫面;而 EVA 更像一個主動的偵探,它會先分析案件(用戶的問題),制定調查計劃,然后有針對性地尋找線索(選擇觀看視頻的特定片段),最后綜合所有證據得出結論。
這種工作方式的好處顯而易見。以一個長達兩小時的視頻為例,傳統 AI 需要處理超過 70 萬個視覺片段,就像要求一個人把一本厚厚的字典從頭到尾背一遍。而 EVA 只需要關注其中的幾千個關鍵片段,就能準確回答問題,效率提升了上百倍。
研究團隊為了訓練這個聰明的"視頻偵探",設計了一套三階段的教學方法。第一階段是基礎訓練,就像教小孩子識字一樣,讓 EVA 學會如何使用各種"偵探工具"——比如如何選擇觀看視頻的哪個時間段,用什么清晰度觀看,看多少幀畫面等。這個階段使用了精心制作的 1 萬個高質量訓練樣本。
第二階段采用了一種叫做"卡納曼-特沃斯基優化"的方法。這個名字聽起來很復雜,但實際上就是讓 AI 從錯誤中學習。研究團隊收集了 1.1 萬個案例,其中包括成功的偵探過程和失敗的案例。通過對比這些成功與失敗的例子,EVA 學會了避免常見的錯誤,比如不要在沒有足夠證據的情況下就匆忙下結論,也不要在同一個地方反復尋找已經找過的線索。
第三階段是最關鍵的強化學習訓練。這就像讓一個偵探在真實案件中積累經驗。EVA 需要處理 9600 個開放式問題和 1100 個選擇題,每次回答后都會得到反饋:答對了會得到獎勵,答錯了會被扣分。通過無數次的試錯,EVA 逐漸掌握了高效觀看視頻的技巧。
研究團隊還創新性地引入了"數據增強型強化學習"。傳統的訓練方法就像讓學生只做固定的練習題,而這種新方法會根據學生的薄弱環節動態生成新的練習題。當系統發現 EVA 在某類問題上表現不佳時,會自動生成更多類似的訓練樣本,確保全面提升能力。
為了驗證 EVA 的實際效果,研究團隊在六個不同的視頻理解基準測試上進行了評估。結果令人振奮:EVA 比傳統的視頻理解模型提升了 6-12%,比之前的智能體方法也提升了 1-3%。更重要的是,EVA 在處理超長視頻時表現尤為出色。
在一個名為"采樣困境基準"的測試中,EVA 的表現格外亮眼。這個測試的設計思路是:給 AI 看一個很長的視頻,但只能選擇看其中的一部分畫面,看如何在有限的"觀看預算"內獲得最多的信息。谷歌的 Gemini-2.0-Flash 模型雖然準確率最高(56.2%),但需要觀看近 70 萬個視覺片段;而 EVA 只需要看 1 萬個片段就達到了 51.8% 的準確率,效率比 Gemini 高出幾十倍。
EVA 的工作流程就像一個經驗豐富的偵探辦案。當接到一個新案子時,偵探不會盲目地到處搜集證據,而是先分析案情,推測可能的線索方向,然后制定調查計劃。EVA 也是如此:收到用戶問題后,它首先分析問題的性質,判斷需要什么樣的視覺信息,然后決定觀看視頻的哪個時間段、用什么清晰度、看多少幀畫面。如果第一輪觀察沒有找到足夠的證據,它會調整策略,進行下一輪更有針對性的觀察。
這種靈活的策略帶來了顯著的效率提升。對于不同類型的問題,EVA 會采用不同的觀看策略。如果問題只涉及視頻開頭或結尾的內容,EVA 就會直接跳到相關時間段;如果問題需要了解整個視頻的概況,EVA 會先用低清晰度快速瀏覽全片,再針對關鍵片段進行高清觀看。
研究團隊通過大量實驗驗證了這種"計劃-觀察-行動-反思"循環的有效性。實驗發現,經過三階段訓練的 EVA 不僅在準確率上有顯著提升,在視覺資源的利用效率上也有了質的飛躍。傳統方法往往會浪費大量時間觀看無關內容,而 EVA 能夠精準定位到關鍵信息,避免了無效處理。
EVA 的技術突破還體現在其靈活的工具使用能力上。系統配備了一個強大的幀選擇工具,可以控制四個關鍵參數:開始時間、結束時間、幀數量和分辨率。這就像給偵探配備了可調節焦距的望遠鏡、可變速播放的錄像設備和高清攝像頭。EVA 可以根據需要自由調節這些參數,實現最優的信息獲取策略。
在處理復雜的長視頻任務時,EVA 展現出了令人印象深刻的適應能力。比如在 Video-Holmes 推理基準測試中,盡管是在零樣本設置下(即沒有針對該測試進行專門訓練),EVA 依然取得了與其他開源模型相當的成績。這說明 EVA 學到的不是死記硬背的技巧,而是真正的視頻理解和推理能力。
研究團隊還專門分析了 EVA 的工作模式。他們發現,EVA 在不同輪次的觀察中會采用截然不同的策略。第一輪通常是大范圍、低分辨率的"偵察",用于獲得視頻的整體概況;后續輪次則會聚焦于特定時間段,使用更高分辨率進行"精細搜索"。這種從粗到細的策略正是人類觀看視頻時的自然習慣。
EVA 系統的另一個重要創新是其強大的反思能力。在每輪觀察后,系統都會評估當前獲得的信息是否足夠回答問題。如果信息不足,它會分析缺少什么類型的證據,然后調整下一輪的觀察策略。這種自我監控能力確保了系統不會過早下結論,也不會陷入無意義的重復搜索。
從技術實現角度來看,EVA 基于 Qwen2.5-VL-7B-Instruct 模型構建,這是一個支持多種分辨率輸入的先進多模態模型。研究團隊之所以選擇這個基礎模型,是因為它在處理不同分辨率圖像時能夠節省計算資源,這與 EVA 的高效理念完美契合。
訓練過程中,研究團隊遇到了一個有趣的挑戰:如何防止 AI 在沒有足夠證據時就隨意猜測答案。為了解決這個問題,他們設計了一個巧妙的獎勵機制。如果 EVA 使用了工具但答案錯誤,系統會給予少量的格式獎勵(0.05分),這個獎勵遠低于隨機猜測的期望得分(0.20-0.25分)。這樣設計的目的是鼓勵 EVA 進行有根據的推理,而不是無腦猜測。
在實際應用中,EVA 展現出了驚人的多樣性。面對不同類型的問題,它會自動生成不同的工作流程。有些問題只需要一輪高密度采樣就能解決,類似于傳統方法;有些問題則需要多輪迭代,先概覽再細看;還有些問題需要在多個時間段之間跳躍觀察。這種靈活性正是 EVA 相對于固化工作流程的傳統方法的最大優勢。
研究團隊在論文中展示了幾個典型案例。在一個關于游戲中"GOAAAAAL!!"動畫觸發機制的問題中,EVA 首先用低分辨率快速瀏覽了整個 397 秒的視頻,找到了可能相關的時間段,然后在該時間段內用高分辨率進行細致觀察,最終準確識別出動畫是在球進入球門時觸發的。整個過程就像一個經驗豐富的體育解說員快速定位精彩瞬間一樣自然流暢。
另一個案例涉及一個長達 1218 秒的縫紉機設置視頻。EVA 只用了兩輪觀察就準確回答了關于操作流程的問題。第一輪快速瀏覽全片,第二輪重點觀察關鍵操作步驟,效率遠超傳統的逐幀分析方法。
EVA 的成功不僅在于技術指標的提升,更在于它代表了視頻理解 AI 的一個重要轉向:從被動接受到主動探索,從機械處理到智能推理。這種轉變對于未來的人工智能發展具有深遠意義。
研究團隊也坦誠地指出了 EVA 目前的局限性。系統仍然依賴于預定義的工具接口,在處理全新類型的查詢時可能會遇到困難。此外,推理循環的設計相對固化,缺乏自我演化的能力。未來的研究方向包括開發更靈活的工具生態系統、自演化推理策略和跨模態記憶機制等。
盡管存在這些挑戰,EVA 已經為視頻理解 AI 的發展開辟了新的道路。它證明了通過合理的訓練策略和系統設計,人工智能確實可以學會像人類一樣高效地處理視頻信息。隨著技術的進一步成熟,我們有理由期待看到更多具備類似智能的 AI 系統出現。
這項研究的意義不僅限于學術界。在實際應用中,EVA 的高效特性使其在視頻監控、內容審核、教育培訓等領域具有廣闊的應用前景。特別是在需要處理大量長視頻的場景中,EVA 的效率優勢將轉化為顯著的成本節約和性能提升。
說到底,EVA 代表了人工智能發展的一個重要方向:讓機器不僅能夠理解信息,更能夠智能地選擇和處理信息。正如一個優秀的偵探不會被無關的細節所迷惑,而是能夠敏銳地抓住關鍵線索一樣,EVA 學會了在海量視頻信息中精準定位所需內容。這種能力的提升,不僅意味著技術性能的優化,更預示著人工智能正在向更高層次的認知智能邁進。
Q&A
Q1:EVA是什么?
A:EVA是商湯科技開發的一個視頻理解AI系統,它的核心能力是像偵探一樣智能地觀看視頻。不同于傳統AI需要逐幀掃描整個視頻,EVA會先分析問題,制定觀看計劃,然后有選擇性地觀看關鍵片段,效率比傳統方法高出幾十倍。
Q2:EVA的訓練過程是怎樣的?
A:EVA采用三階段訓練方法。第一階段是基礎技能學習,使用1萬個樣本學會工具使用;第二階段通過1.1萬個成功和失敗案例學會避免錯誤;第三階段是強化學習,通過處理9600個開放式問題和1100個選擇題來積累實戰經驗。
Q3:EVA相比傳統視頻AI有什么優勢?
A:EVA最大的優勢是效率。傳統AI需要處理70萬個視覺片段才能理解長視頻,而EVA只需要1萬個片段就能達到相近的準確率。它還具備靈活的觀看策略,能根據不同問題類型自動調整觀看方式,避免無效的重復處理。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.