網易首頁 > 網易號 > 正文申請入駐

德克薩斯農工大學破解AI視頻生成的"時空錯亂"之謎

2026-03-27 17:11:27　來源: 科技行者

北京舉報

分享至

這項由德克薩斯農工大學團隊完成的開創性研究于2026年3月發表，論文編號為arXiv:2603.14375v1，為我們揭開了當前AI視頻生成技術的一個重大盲點。有興趣深入了解的讀者可以通過該編號查詢完整論文。

說起AI生成視頻，相信很多人都有過這樣的體驗：畫面看起來很真實，人物表情也很生動，但就是有種說不出的別扭感，好像整個世界的節奏都慢了半拍。比如一只蜂鳥在花間飛舞，翅膀扇動得像電影慢鏡頭一樣悠閑；或者一個人從床上起身，動作慢得像在水中游泳。這種現象究竟是什么原因造成的呢？

德克薩斯農工大學的研究團隊發現，問題的根源在于現在的AI視頻模型患上了一種叫做"時間刻度錯亂"的毛病。簡單來說，這些AI就像一個沒有內置時鐘的機器人，雖然能夠模仿人類的動作，但完全不知道真實世界的時間應該如何流逝。它們能讓畫面看起來很流暢，卻無法把握動作應有的真實速度。

想象一下，如果你看一部電影，演員們的動作都變成了慢動作，即使畫質再精美，你也會覺得這部電影很奇怪。這正是當前AI視頻生成技術面臨的核心問題。雖然在視覺效果上已經能夠以假亂真，但在時間把握上卻存在嚴重缺陷，這大大限制了它們在實際應用中的表現。

更令人擔憂的是，這個問題對于AI想要成為"世界模擬器"的目標構成了重大障礙。真正的物理世界不僅有空間關系，更有嚴格的時間規律。一個連時間都把握不準的AI，如何能夠準確模擬現實世界的物理規律呢？這就像讓一個不懂音樂節拍的人去指揮交響樂團，結果可想而知。

為了解決這個問題，研究團隊開發了一個名為"視覺時間計"的創新工具。這個工具的作用就像給AI安裝了一個精確的內置時鐘，能夠通過觀察視頻中的動作來判斷真實的時間流逝速度。不僅如此，他們還建立了兩套專門的測試體系，系統性地評估了目前主流AI視頻生成模型的時間把握能力。

研究結果讓人大開眼界。他們發現，即使是最先進的AI視頻生成模型，在時間準確性方面也存在嚴重問題。更有趣的是，當研究團隊使用他們的"視覺時間計"對生成的視頻進行時間校正后，視頻的自然度得到了顯著提升，觀看體驗變得更加舒適。

這項研究不僅為當前AI視頻技術的發展指明了方向，更為未來構建真正能夠模擬物理世界的AI系統奠定了重要基礎。畢竟，只有掌握了時間的真諦，AI才能真正理解我們生活的這個世界。

**一、什么是"時間刻度錯亂"：當AI失去了時間感**

在深入了解這項研究之前，我們需要先理解一個關鍵概念：什么是"時間刻度錯亂"。研究團隊用了一個很形象的術語來描述這種現象——"Chronometric Hallucination"，翻譯過來就是"時間感知幻覺"。

這種現象的產生有著深層的技術原因。當前的AI視頻模型在訓練時，就像一個貪婪的學生，什么樣的視頻都照單全收。無論是正常速度拍攝的日常生活片段，還是專門用慢鏡頭拍攝的運動畫面，甚至是延時攝影的風景視頻，AI都一視同仁地學習。問題在于，AI并不知道這些視頻原本的真實播放速度應該是多少。

比如說，一段蜂鳥覓食的慢鏡頭視頻和一段正常速度的蜂鳥視頻，在AI看來沒有任何區別。它只是學會了"蜂鳥是這樣動的"，但完全不理解"蜂鳥應該以什么速度動"。這就像教一個從未見過真實世界的人畫畫，你給他看各種照片，有的是運動中的汽車，有的是靜止的汽車，但你從不告訴他汽車實際上是會移動的，移動速度又是多少。

這種訓練方式帶來的后果是災難性的。AI學會了模仿各種動作的形態，但完全失去了對真實時間流逝的感知。當它生成新視頻時，可能會讓一只本應快速飛行的蜂鳥變得慢如蝸牛，或者讓一個人的正常走路變成夢游般的慢動作。

更嚴重的是，這種時間感知的混亂是不可控的。你無法預測AI會以什么速度來呈現某個場景，也無法通過簡單的指令來糾正這種偏差。這就像與一個完全沒有時間概念的人交流，你說"快點"，他可能理解成"慢點"，你說"正常速度"，他可能完全不知道什么是正常。

研究團隊通過大量實驗發現，這個問題幾乎存在于所有主流的AI視頻生成模型中。無論是開源的還是商業化的模型，無論是小型的還是大型的模型，都不同程度地存在這種時間感知偏差。這說明這不是某個特定模型的缺陷，而是整個技術路線的系統性問題。

有趣的是，這種現象在人類身上也有類似的表現。想想你在夢中的體驗，動作往往顯得緩慢而不真實，這正是因為夢境中缺乏準確的時間參照。AI的"時間刻度錯亂"本質上就是一種技術層面的"做夢"狀態，它能創造出視覺上令人信服的場景，但時間感完全混亂。

**二、視覺時間計的誕生：給AI裝上精準的時間感知器**

面對AI視頻生成中的時間感知問題，研究團隊開發了一個革命性的解決方案——視覺時間計（Visual Chronometer）。這個工具的工作原理就像一個經驗豐富的電影剪輯師，能夠僅憑觀察畫面中的動作就準確判斷出視頻的真實播放速度應該是多少。

視覺時間計的核心理念源于古希臘哲學家亞里士多德的一句名言："我們不僅通過時間來測量運動，也通過運動來測量時間，因為它們互相定義。"這句話的深刻含義在于，時間和運動是不可分割的兩個概念。當我們看到一滴水珠從屋檐落下時，僅憑這個動作本身，我們就能大致判斷出這個過程應該持續多長時間。

研究團隊將這一哲學思想轉化為具體的技術實現。他們訓練了一個專門的神經網絡，這個網絡就像一個極其敏感的時間偵探，能夠從視頻的每一幀畫面中提取運動信息，然后推斷出這些運動在真實世界中應該對應的時間尺度。

為了訓練這樣一個精確的時間感知器，研究團隊構建了一個特殊的數據集。他們收集了大量確保時間標注絕對準確的高質量視頻，包括學術研究用的高速攝像資料、未經任何后期處理的原始廣播素材、傳感器同步的自動駕駛數據，以及在嚴格控制條件下拍攝的人體運動記錄。這些視頻的共同特點是，它們的播放速度與拍攝時的真實時間完全一致，沒有任何人為的加速或減速處理。

但僅僅有準確的基礎數據還不夠。為了讓視覺時間計能夠應對各種真實世界的拍攝條件，研究團隊進行了巧妙的數據增強處理。他們將所有源視頻都上采樣到240幀每秒的超高幀率，然后模擬三種不同的相機拍攝機制來生成訓練樣本。

第一種是"快門拍攝"模式，模擬使用極快快門速度的相機拍攝效果。這種拍攝方式能夠捕捉到物體運動的清晰瞬間，但也會產生運動過程中的不連續感，就像看頻閃燈下的舞者，動作顯得有些跳躍。第二種是"運動模糊"模式，模擬真實相機在曝光過程中產生的運動模糊效果。這種模糊不是缺陷，而是重要的視覺線索，它告訴我們物體運動的速度和方向。第三種是"滾動快門"模式，模擬現代數碼相機常見的逐行掃描效果，這會在拍攝快速運動物體時產生特殊的幾何畸變。

通過這種全方位的訓練，視覺時間計學會了從各種細微的視覺線索中提取時間信息。它不僅能識別明顯的運動模式，還能從模糊、畸變等看似"缺陷"的圖像特征中讀取時間信息。這就像訓練一個偵探，不僅要教會他識別明顯的證據，還要讓他學會從蛛絲馬跡中推斷真相。

研究團隊開發了兩個版本的視覺時間計。第一個是"寬范圍版本"，能夠處理從極慢動作到高速攝影的各種時間尺度，涵蓋每秒2幀到240幀的廣泛范圍。第二個是"常用版本"，專門針對日常視頻的常見幀率進行優化，主要處理每秒12幀到60幀的范圍，這覆蓋了絕大多數網絡視頻和消費級內容的需求。

**三、揭露AI視頻的時間盲區：全面體檢報告震撼登場**

為了系統性地評估當前AI視頻生成技術的時間感知能力，研究團隊建立了兩套完整的測試體系。第一套叫做"PhyFPS-Bench-Gen"，專門用來檢查AI生成視頻的時間準確性；第二套叫做"PhyFPS-Bench-Real"，用來驗證他們開發的視覺時間計本身是否準確可靠。

在AI模型的全面體檢過程中，研究團隊選擇了當今最具代表性的視頻生成模型作為測試對象。這些模型既包括任何人都可以下載使用的開源版本，如Wan系列、LTX系列、CogVideoX系列等，也包括只能通過API接口訪問的商業化模型，如Sora-2、Veo-3.1等。這種全覆蓋的測試確保了研究結果的代表性和說服力。

為了確保測試的公平性和準確性，研究團隊精心設計了100個文本提示詞。這些提示詞涵蓋了各種不同的場景和動作類型，從人類的日常活動到動物的自然行為，從交通工具的運行到自然現象的展現。特別重要的是，所有提示詞都嚴格避免使用任何與速度相關的描述詞匯，比如"慢動作"、"延時攝影"、"加速"等，確保AI模型生成的是它們理解的"正常速度"視頻。

測試結果令人震驚。幾乎所有被測試的AI模型都存在嚴重的時間感知偏差，而且這種偏差表現出明顯的規律性：絕大多數模型傾向于生成比正常速度更慢的視頻。這就像所有的AI都戴上了同一副"慢鏡頭眼鏡"，看世界的節奏都比真實世界慢了一拍。

具體來說，一個標稱為24幀每秒的AI生成視頻，經過視覺時間計的分析，其真實的物理時間對應關系可能需要30幀、35幀甚至更高的播放速度才能顯得自然。這意味著，如果按照標準速度播放這些AI生成的視頻，觀眾看到的實際上是一個被人為減速的世界。

更讓人擔憂的是時間一致性問題。理想情況下，同一個AI模型生成的不同視頻應該具有相對一致的時間尺度，同一個視頻內部的不同片段也應該保持時間的連貫性。但測試結果顯示，大多數AI模型在這方面表現糟糕。同一個模型在處理相似場景時可能產生完全不同的時間尺度，甚至在一個短視頻內部，不同時間段的動作速度都可能出現明顯波動。

這種時間不一致性就像看一部剪輯混亂的電影，有時角色動作正常，有時突然變成慢動作，有時又莫名其妙地加速。這種不可預測的時間變化嚴重影響了觀看體驗，也暴露了當前AI技術在時間建模方面的根本缺陷。

有趣的是，在所有測試的模型中，表現相對較好的往往不是那些在視覺質量上最出色的模型。一些在畫面精美度上略遜一籌的模型，反而在時間一致性方面表現更加穩定。這個發現提醒我們，在評估AI視頻生成技術時，不能僅僅關注視覺效果，時間準確性同樣重要。

研究團隊還發現了一個有趣的現象：商業化的閉源模型在時間準確性方面略好于開源模型，但在時間一致性方面并沒有顯著優勢。這表明，即使是投入了大量資源的商業團隊，在解決時間感知問題方面仍然沒有找到根本性的解決方案。

**四、視覺語言模型的時間感知測試：AI界的"時間盲人"現象**

在驗證視覺時間計準確性的過程中，研究團隊還進行了一項有趣的對比實驗：他們測試了當前最先進的視覺語言模型（VLM）在時間感知方面的能力。這些模型包括Google的Gemini系列、ByteDance的Seed系列，以及阿里巴巴的Qwen系列等業界頂尖產品。

這個測試的目的是回答一個實際問題：既然現在的大語言模型已經如此強大，能夠理解圖像、回答問題、甚至進行復雜推理，那么它們是否也能準確判斷視頻的時間尺度呢？如果可以的話，我們是否還需要專門開發像視覺時間計這樣的專用工具呢？

測試結果讓人大跌眼鏡。這些在其他任務上表現卓越的視覺語言模型，在時間感知方面的表現可以用"災難性"來形容。它們的預測準確度遠遠低于專門訓練的視覺時間計，誤差大到幾乎沒有參考價值。

更令人哭笑不得的是，一些模型出現了嚴重的"刻板印象"問題。比如，某個模型無論輸入什么視頻，都堅持認為幀率是30fps，就像一個固執的老人，不管別人說什么，都堅持自己的觀點。這種現象在技術上叫做"模式崩塌"，說明模型沒有真正理解時間概念，而是簡單地記住了一個"標準答案"。

研究團隊嘗試了兩種不同的測試方式。第一種是直接將完整視頻輸入給視覺語言模型，讓它判斷幀率。但這種方式面臨一個技術限制：為了處理視頻，這些模型通常會自動抽取關鍵幀，這個預處理過程本身就破壞了原始的時間信息，就像讓人戴著有色眼鏡去判斷物體的真實顏色。

第二種方式更加巧妙：研究團隊將視頻的每一幀都作為獨立圖片按順序輸入給模型，讓模型根據這個圖片序列來判斷時間尺度。這種方式保留了完整的時間信息，但結果仍然不理想。即使擁有完整信息，這些通用模型在時間感知方面的表現依然遠遜于專門設計的視覺時間計。

這個發現具有重要的啟示意義。它說明，盡管大型語言模型在許多任務上展現出了接近人類的能力，但在某些專業領域，專門設計的工具仍然不可替代。時間感知顯然是這樣一個需要專業化處理的領域，通用模型的"萬金油"approach在這里并不適用。

更深層的問題在于，這些視覺語言模型的訓練數據主要來自靜態圖像和文本，它們缺乏對真實物理運動的深度理解。雖然它們能夠識別圖像中的物體、理解場景內容，但對于運動的時間特性卻沒有形成準確的內部表示。這就像一個只見過照片而從未見過真實動物的人，可能能夠準確識別照片中的獅子，但無法判斷真實獅子的奔跑速度是否自然。

**五、時間校正的神奇效果：讓AI視頻重獲自然感**

發現問題只是第一步，更重要的是如何解決問題。研究團隊提出了一個簡單而有效的解決方案：使用視覺時間計對AI生成的視頻進行后期時間校正。這個過程就像給一部播放速度不對的老電影重新調整播放速度，讓它恢復應有的自然節奏。

為了驗證這種校正方法的效果，研究團隊設計了一個嚴格的人類感知實驗。他們招募了15名志愿者，讓他們對三個版本的同一視頻進行比較：原始AI生成版本、全局校正版本和動態校正版本。

原始版本就是AI模型直接輸出的結果，保持其原有的時間問題。全局校正版本是使用視覺時間計分析整個視頻后，按照平均的理想播放速度重新調整的版本。動態校正版本則更加精細，它將視頻分成若干小段，每一段都根據其具體內容進行獨立的時間校正。

實驗采用了心理學研究中常用的配對比較方法。志愿者不知道哪個版本是原始版本，他們只需要根據自己的直覺判斷哪個版本看起來更自然、更舒適。為了確保結果的統計可靠性，研究團隊收集了總共1490次配對比較數據。

結果令人振奮。經過時間校正的版本在人類觀感上明顯優于原始版本。特別是全局校正版本，獲得了44.2%的偏好率，遠遠超過原始版本的19.0%。這意味著，當人們在不知情的情況下進行比較時，有近一半的人認為校正后的版本更自然。

更有趣的是，全局校正版本的表現甚至超過了理論上更精確的動態校正版本（36.9%偏好率）。研究團隊分析認為，這可能是因為動態校正在一個短視頻內部產生了多次速度變化，這種變化雖然在技術上更準確，但可能會給觀眾帶來不適感。相比之下，全局校正保持了整個視頻的時間一致性，觀看體驗更加流暢。

這個發現具有重要的實踐意義。它告訴我們，在追求技術精確性的同時，也要考慮人類的感知特點。有時候，一個稍微簡化但更一致的解決方案，可能比一個技術上完美但感知上復雜的方案更受歡迎。

實驗還揭示了一個有趣的現象：大多數人在觀看原始AI生成視頻時，雖然說不出具體哪里不對，但總覺得"不太舒服"或"不夠自然"。經過時間校正后，這種不適感明顯減輕了。這說明時間感知對于視頻觀看體驗的影響比我們想象的更加重要，即使是微小的時間偏差也會在潛意識層面影響我們的感受。

這項人類感知實驗不僅驗證了視覺時間計的實用價值，也為未來AI視頻生成技術的發展指明了方向。它證明了，僅僅追求視覺真實是不夠的，時間真實性同樣重要。一個完美的AI視頻生成系統必須在空間和時間兩個維度上都達到高度的真實性。

**六、訓練數據的精心準備：構建時間感知的基石**

視覺時間計之所以能夠準確感知時間，關鍵在于訓練數據的精心準備。這個過程就像培養一個時間鑒定專家，需要給他提供大量絕對準確的時間參考樣本。

研究團隊面臨的第一個挑戰是尋找時間標注完全可靠的視頻數據。在互聯網上，絕大多數視頻都經過了某種形式的后期處理，它們的播放速度可能已經偏離了拍攝時的真實時間。因此，研究團隊只能從特定來源收集數據，確保每一個樣本的時間信息都絕對準確。

他們的數據來源包括幾個特殊類別。首先是學術研究用的高幀率數據集，這些數據通常用于精確的時間分析和幀插值研究，時間標注的準確性有嚴格保證。其次是未經壓縮的原始廣播素材，這些4K YUV格式的視頻保持了從攝像頭傳感器到存儲設備的完整時間鏈條。還有自動駕駛研究中的多傳感器同步數據，其中攝像頭、激光雷達和慣性測量單元的時間戳都經過精確校準。

但是，僅僅有準確的原始數據還不夠。現實世界中的視頻拍攝條件千變萬化，不同的相機設置和環境條件都會在視頻中留下獨特的時間印記。為了讓視覺時間計能夠應對這種復雜性，研究團隊進行了巧妙的數據合成。

他們將所有源視頻都上采樣到240幀每秒的超高分辨率，然后通過三種不同的方式生成低幀率版本，每種方式都模擬了真實世界中的一種拍攝機制。這個過程就像一個高級的電影制作工坊，能夠精確控制每一個技術細節。

快門模擬是其中最直觀的一種。當攝像機使用極快的快門速度時，它能夠"凍結"高速運動的瞬間，產生清晰但略顯跳躍的畫面效果。這種效果在體育攝影中很常見，每一幀都像一張高速攝影作品。研究團隊通過均勻采樣高幀率視頻來模擬這種效果，讓AI學會從這種"頻閃式"的畫面中提取時間信息。

運動模糊模擬則復雜得多。真實攝像機在曝光過程中，如果被攝物體在運動，就會產生方向性的模糊效果。這種模糊不是缺陷，而是重要的時間信息載體。通過分析模糊的程度和方向，我們可以推斷出物體的運動速度。研究團隊通過對多個連續幀進行加權平均來模擬這種效果，權重的分布模擬了不同的曝光時間設置。

滾動快門模擬最為技術化。現代數碼相機大多采用CMOS傳感器，這種傳感器不是同時讀取整個畫面，而是逐行或逐列進行掃描。當拍攝高速運動物體時，這種掃描延遲會產生特殊的幾何畸變，比如高速行駛的汽車可能會顯得傾斜。這種畸變雖然看起來像是技術缺陷，但實際上包含了豐富的運動信息。

通過這種全方位的數據增強，研究團隊創建了一個包含465,535個視頻片段的大型數據集，涵蓋了18個不同的物理幀率等級。這個數據集就像一個完整的時間感知訓練營，讓視覺時間計能夠在各種條件下都保持準確的判斷能力。

更重要的是，所有的訓練視頻都被標準化為128幀的長度，確保了不同樣本之間的平衡性。這種標準化就像給所有訓練材料統一了"分量"，避免了某些特殊長度的視頻對訓練過程產生偏倚影響。

**七、技術架構的精妙設計：打造AI的時間感知大腦**

視覺時間計的技術架構設計體現了研究團隊對時間感知問題的深刻理解。整個系統就像一個專門的時間分析實驗室，每個組件都有其獨特的功能和作用。

系統的基礎是一個名為VideoVAE+的視頻編碼器，這個組件就像一個視頻翻譯官，能夠將原始的像素信息轉換成AI更容易理解的抽象表示。VideoVAE+的特殊之處在于它專門針對視頻的時空特性進行了優化，不僅能夠理解每一幀的空間內容，還能夠捕捉幀與幀之間的時間關系。

在VideoVAE+之上，研究團隊設計了一個基于注意力機制的預測頭。這個組件的工作方式很有意思，它不像傳統方法那樣簡單地對所有信息求平均，而是使用了一種叫做"查詢注意力"的機制。這就像派遣一個專門的偵探去分析證據，這個偵探知道應該重點關注哪些線索，而不是被大量無關信息干擾。

這種設計的巧妙之處在于它的長度無關性。無論輸入的視頻是16幀、32幀還是128幀，這個注意力機制都能夠自動調整，提取出最相關的時間特征。這種靈活性對于實際應用非常重要，因為現實中的視頻長度千變萬化，一個好的時間感知系統必須能夠適應這種變化。

在訓練目標的設計上，研究團隊選擇了對數空間的回歸方法。這個選擇背后有深刻的數學考慮。幀率本身是一個跨越幾個數量級的概念，從每秒幾幀的延時攝影到每秒數百幀的高速攝影，線性空間的預測很容易被極值影響。通過在對數空間進行回歸，系統能夠更好地處理這種尺度差異，同時確保預測誤差在相對意義上是均勻的。

研究團隊實際上開發了兩個版本的視覺時間計，每個版本都針對特定的應用場景進行了優化。寬范圍版本覆蓋了從每秒2幀到240幀的完整光譜，主要用于研究和技術評估。常用版本則聚焦于每秒12幀到60幀的常見范圍，這涵蓋了絕大多數消費級視頻內容，在實際應用中更加實用。

訓練過程采用了端到端的方式，這意味著VideoVAE+編碼器和注意力預測頭是同時進行優化的。這種聯合訓練確保了整個系統的各個部分能夠協調工作，就像訓練一個交響樂團，每個樂手不僅要演奏好自己的部分，還要與其他人保持完美的協調。

在具體的訓練實施上，研究團隊使用了滑動窗口的采樣策略。訓練時，每個樣本包含32幀連續的視頻片段，但在實際應用中，系統可以處理更長的視頻。這種設計平衡了訓練效率和應用靈活性，既確保了訓練過程的穩定性，又保證了系統的實用性。

整個訓練過程在配備四塊NVIDIA RTX A6000 GPU的工作站上進行，總共需要125,000次迭代。這種計算密集型的訓練過程雖然耗時較長，但確保了模型能夠從大量數據中學習到穩定可靠的時間感知能力。優化器使用了Adam算法，學習率設置為1×10^-5，這些超參數都經過了仔細調試，以確保訓練過程的穩定性和收斂性。

說到底，這項由德克薩斯農工大學完成的研究為我們揭示了當前AI視頻生成技術的一個根本性盲點，同時也提供了切實可行的解決方案。研究團隊不僅識別出了"時間刻度錯亂"這個普遍存在但此前被忽視的問題，還開發出了視覺時間計這樣的專業工具來解決它。

更重要的是，這項研究改變了我們評估AI視頻質量的標準。以往我們只關注畫面是否清晰、內容是否合理，現在我們知道了時間準確性同樣重要。一個動作再逼真，如果時間節奏不對，整個視頻就會給人不舒服的感覺。

從技術發展的角度來看，這項研究為未來的AI視頻生成技術指明了新的方向。單純追求視覺真實已經不夠，時間真實性將成為下一個重要戰場。只有在空間和時間兩個維度上都達到高度真實性，AI才能真正成為可靠的世界模擬器。

對于普通用戶而言，這項研究的成果很快就會體現在日常使用的AI視頻工具中。當你使用AI生成一段寵物玩耍的視頻時，小貓的動作不僅會看起來真實，時間節奏也會恰到好處，讓整個畫面充滿自然的生命力。當你制作商業廣告或教育內容時，AI生成的素材將具備更高的專業水準，不再需要大量的后期調整。

這項研究也提醒我們，在追求技術進步的道路上，有時候最重要的突破來自于對基礎問題的深入思考。時間感知看似簡單，實際上卻是一個極其復雜的問題，它涉及物理學、心理學、計算機科學等多個領域的知識。只有跨學科的深入合作，才能真正解決這樣的根本性挑戰。

展望未來，隨著視覺時間計技術的進一步發展和普及，我們可能會看到一個全新的AI視頻時代的到來。在那個時代，AI生成的視頻不僅在視覺上無法區分真假，在時間感受上也會完全符合人類的直覺。那時候，AI將真正成為我們創作和表達的得力助手，幫助我們構建更加豐富、自然的數字世界。

Q&A

Q1：什么是"時間刻度錯亂"現象？

A：時間刻度錯亂是指AI視頻生成模型無法準確把握真實世界的時間流逝速度，導致生成的視頻中動作過慢或過快，就像蜂鳥飛行變成慢鏡頭，或者人的正常動作像夢游一樣緩慢，讓觀眾感覺不自然。

Q2：視覺時間計是如何工作的？

A：視覺時間計就像一個經驗豐富的電影剪輯師，通過觀察視頻中的動作細節，比如運動模糊、物體位移等視覺線索，來推斷這些動作在真實世界中應該對應的播放速度，從而判斷視頻的真實時間尺度。

Q3：這項研究對普通用戶有什么實際意義？

A：研究成果將讓AI生成的視頻更加自然真實，不再出現動作時間不對的問題。未來使用AI制作視頻時，無論是寵物玩耍還是人物活動，時間節奏都會更符合真實感受，大大提升觀看體驗和視頻質量。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.