337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

別被「更像真的視頻」騙了,AI視頻生成,還遠未真正學會物理世界

0
分享至



這兩年,視頻生成模型進步很快。清晰度更高了,鏡頭更穩了,人物和場景看上去也越來越自然。很多時候,我們判斷一個模型強不強,看的就是它 “像不像真的”。但這其實只回答了一半的問題:它看起來像真的,不代表它真的符合現實世界的物理規律。這件事放在短視頻生成里,也許只是 “偶爾有點怪”;但如果視頻模型真的要往 world model、仿真系統、具身智能這些方向走,問題就不一樣了。一個模型如果連物體怎么接觸、狀態怎么變化、事件怎么按因果順序發生都搞不清楚,那它再像,也只是像。



現在的視頻評測,更像是在比 “好不好看”

目前,視頻生成領域常見的評測方式,要么看自動指標,要么讓人直接選 “哪個視頻更好”。這種方式當然有意義,它能比較清晰度、流暢度、觀感這些東西,但它很難告訴你:視頻里到底有沒有違反基本物理常識

比如,一個物體是不是無緣無故消失了;兩個東西是不是明明沒接觸卻發生了交互;一個動作的結果是不是和前面的過程根本對不上。這些問題,才真正關系到模型是在 “生成一個像真的畫面”,還是在 “模擬一個可信的世界”。

Physion-Eval:從 “視覺真實” 走向 “物理真實” 的新 benchmark

這篇工作提出了Physion-Eval。它不是再做一個 “誰的視頻更好看” 的排行榜,而是想認真回答一個更關鍵的問題:AI 生成的視頻,在物理層面到底有多真實



  • 論文標題: Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning
  • 作者: Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, and Bing Shuai
  • 作者單位:Physion Labs,斯坦福大學,MIT,哈佛大學,Character AI
  • 論文鏈接: https://arxiv.org/abs/2603.19607
  • 數據集鏈接: https://huggingface.co/datasets/PhysionLabs/Physion-Eval
  • 視頻鏈接:https://www.youtube.com/watch?v=Vbn_W3WNUHw

這個 benchmark 同時覆蓋第一人稱和第三人稱場景,包含10,990 條專家推理軌跡,覆蓋22 類細粒度物理現象。和常見評測不太一樣的地方在于,這里的每條樣本不只是簡單打個分,而是會標出錯誤發生在什么時候、屬于哪一類問題,以及為什么不對

數據上,第三人稱部分來自WISA-80K,第一人稱部分基于EPIC-KITCHENS構建。為了保證標注質量,論文組織了90 位具有 STEM 背景并接受過本科物理訓練的專家標注者,采用雙人標注和資深專家裁決的流程,最后得到的是帶時間戳、錯誤類別和文字解釋的高質量標注。

在這一過程中,人類智能所展現出的優勢尤為明顯:人類不僅能夠識別視覺上的異常,更能夠基于物理直覺與因果理解,對復雜的動態過程進行推理和解釋。相比之下,即使是當前最先進的多模態模型,在時序一致性、交互合理性以及隱含物理規律的判斷上,仍存在明顯不足。





最直接的結論:現在的模型,還遠談不上 “物理一致”

這篇工作的主結論其實很簡單,也很扎眼:在物理過程敏感的場景里,83.3% 的第三人稱生成視頻和 93.5% 的第一人稱生成視頻,都至少包含一個人類可以明確識別的物理錯誤。這說明什么?說明今天的視頻模型確實越來越會制造 “真實感” 了,但離 “真正符合物理規律” 還有很遠。



而且這些錯誤不是零零散散的小毛病,而是系統性的。論文里總結的典型問題包括:接觸或交互失敗、對象突然出現或消失、時間連貫性崩塌、因果順序錯亂、材料或狀態變化異常、幾何碰撞不合理等等。換句話說,問題不只是 “畫面有點假”,而是模型對物體、接觸、運動和結果之間最基本的關系,還經常搞錯。



很多錯誤不是粗糙,而是 “看著像,但其實完全不對”

Physion-Eval 里最有意思的地方,其實是那些具體例子。它們不是那種一眼就看出來的低級 bug,而是第一眼好像還行,仔細一想卻明顯不符合常識。

比如,桌面上突然多出一把本來不存在的刀;瓶口朝下,液體卻不往下流;水直接穿過鍋底;又或者一個鍋被兩根手指以幾乎不可能的方式拎起來。它們的問題不在于 “渲染不精細”,而在于直接違背了物體守恒、重力、不可穿透性和穩定接觸這些最基本的物理規律。

這也是為什么我們覺得,這項工作不只是 “又多了一個 benchmark”。它更像是在提醒大家:今天很多模型也許已經很會生成 “像真的視頻”,但還遠沒有學會 “世界為什么會這樣動”。





更麻煩的是,連最強的多模態模型也不太會看這些錯誤

論文還問了另一個很現實的問題:那能不能讓現在的大模型來當 “自動評委”,替人判斷一個視頻有沒有物理問題?

答案是,暫時還不行。

文章評估了10 個開源和閉源的 MLLM critic,結果顯示,它們和人類判斷之間還有明顯差距。以Gemini 3.0 Pro為例,它會漏掉超過74.4% 的第三人稱錯誤視頻和 90.1% 的第一人稱錯誤視頻。而且它們不只是漏檢,還會把錯誤發生的時間說錯,甚至編出根本不存在的原因。

這點其實很關鍵。因為如果以后大家真想靠自動 critic 去評估 world model 或視頻生成系統,那 critic 本身至少得先真的看懂視頻里的物理過程。就目前來看,人類判斷依然是最可靠的標準。









越是高動態的物理過程,越容易暴露當前模型的短板

論文進一步從physical intensitydynamics兩個維度分析了生成模型與市面上已有的 MLLM critic 的表現。結果表明,相比強度大小,過程本身的動態性和復雜性更容易暴露視頻生成模型的物理建模缺陷。對 MLLM critic 來說也是如此:只有當錯誤足夠明顯時,它們才會表現出有限的判斷能力,但整體仍明顯落后于人類。







總結

Physion-Eval 想指出的,不只是 “現在的視頻生成模型還不夠強”,而是一個更根本的問題:當行業越來越關注視頻 “看起來有多真” 的時候,我們可能忽略了它 “實際上對不對”

對于真正想做 world model、機器人、具身智能和仿真的人來說,這個問題繞不過去。畫面更清晰、動作更順滑,當然重要;但如果物體會無故出現,液體不會往下流,動作結果和前因對不上,那模型就還沒有真正學會世界的運行方式。

視頻生成下一階段,也許不該只繼續卷觀感,而應該更認真地去解決物體持續性、接觸關系、狀態變化、時序一致性和因果結構這些更本質的問題。“看起來對”,從來不等于 “實際上對”

作者介紹

本文由來自美國頂級科技公司與世界一流高校的豪華作者陣容共同完成,集結 Physion Labs、斯坦福大學、MIT、哈佛大學及 Character AI 的核心研究者。其中,Physion Labs 團隊(Qin Zhang、Peiyu Jing、Bing Shuai)長期專注于生成式視頻與世界模型中的物理一致性問題,構建了面向行業的評估基礎設施與數據閉環,致力于成為下一代生成模型的 “物理可信層”。其余作者包括斯坦福大學的 Hong-Xing Yu、Fan Nie、James Zou、Jiajun Wu,麻省理工學院的 Fangqiang Ding,哈佛大學的 Yilun Du,以及 Character AI 的 Weimin Wang 等業內頂尖學者。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
排隊一個半小時仍無法進入景區,游客大喊“退票”!湖州龍之夢景區回應

排隊一個半小時仍無法進入景區,游客大喊“退票”!湖州龍之夢景區回應

齊魯壹點
2026-04-02 19:13:29
女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

女子赴發小婚禮穿瑜伽褲,打扮過于火辣,網友直呼跟沒穿似的

一盅情懷
2026-03-16 17:28:45
38歲已婚女與37歲情人,在石凳子上發生關系,溫存后被殘忍殺害

38歲已婚女與37歲情人,在石凳子上發生關系,溫存后被殘忍殺害

胖胖侃咖
2024-06-08 08:00:08
汪峰吐露離婚真相:我厭倦的根本不是章子怡!

汪峰吐露離婚真相:我厭倦的根本不是章子怡!

情感大頭說說
2026-04-03 13:58:29
特斯拉中國:FSD 轉移政策結束!

特斯拉中國:FSD 轉移政策結束!

新浪財經
2026-04-03 20:29:35
3月銷量"慘案":長城汽車,已被"四座大山"壓成第二梯隊?

3月銷量"慘案":長城汽車,已被"四座大山"壓成第二梯隊?

沙雕小琳琳
2026-04-03 15:28:47
南通一家動物園內一女子表演時被火圈燒著裙子,其迅速跑向身后水池跳水自救,園區工作人員回應

南通一家動物園內一女子表演時被火圈燒著裙子,其迅速跑向身后水池跳水自救,園區工作人員回應

極目新聞
2026-04-03 12:59:27
酒精含量從50變為221,包頭這杯“司法特調”究竟有多上頭?

酒精含量從50變為221,包頭這杯“司法特調”究竟有多上頭?

有戲
2026-04-01 21:55:35
5-1!4輪轟14球 新貴強勢領跑中超 34歲神鋒生日夜替補17分鐘戴帽

5-1!4輪轟14球 新貴強勢領跑中超 34歲神鋒生日夜替補17分鐘戴帽

狍子歪解體壇
2026-04-03 21:41:36
過于較真、操心太多,不是性格問題,是一種心理缺陷。別不信

過于較真、操心太多,不是性格問題,是一種心理缺陷。別不信

清風拂心
2026-04-02 08:15:03
1964年毛主席得知楊育才僅是副連長,憤怒詢問為何11年只升一級?

1964年毛主席得知楊育才僅是副連長,憤怒詢問為何11年只升一級?

我不是沃神
2026-04-02 15:05:03
貓咪去世10年后,小主人終于找到它藏了10年的鈴鐺,瞬間淚目…貓:恭喜你找到18歲的我!

貓咪去世10年后,小主人終于找到它藏了10年的鈴鐺,瞬間淚目…貓:恭喜你找到18歲的我!

拜見喵主子
2026-04-03 11:23:01
以軍全線崩潰,老巢將被掀翻,內塔安排“后事”,必須要綁死美國

以軍全線崩潰,老巢將被掀翻,內塔安排“后事”,必須要綁死美國

寄星夜幕星河
2026-04-02 10:03:45
拜合拉木,補齊技術短板,有望登陸英超

拜合拉木,補齊技術短板,有望登陸英超

林子說事
2026-04-03 09:48:57
烏軍3月從俄軍手中奪回27平方公里土地,總司令稱戰勢已扭轉

烏軍3月從俄軍手中奪回27平方公里土地,總司令稱戰勢已扭轉

探索新高度
2026-04-03 22:46:08
暴跌437%,巨虧234億,又一巨頭爆雷!

暴跌437%,巨虧234億,又一巨頭爆雷!

蔣東文
2026-04-03 20:40:07
長沙一蛋糕店被寶媽舉報后意外爆火,老顧客主動站出來為她說話,店長稱暫時不打算擴店

長沙一蛋糕店被寶媽舉報后意外爆火,老顧客主動站出來為她說話,店長稱暫時不打算擴店

瀟湘晨報
2026-04-03 20:22:14
西班牙宣布與以色列斷絕外交關系。

西班牙宣布與以色列斷絕外交關系。

阿七說史
2026-04-01 15:51:46
張雪峰走后,他的博士妻子曝光,老公有錢從來不是女人的底牌

張雪峰走后,他的博士妻子曝光,老公有錢從來不是女人的底牌

老黯談娛
2026-04-02 19:04:07
小眼睛歌手被報復了

小眼睛歌手被報復了

毒舌扒姨太
2026-04-03 22:38:23
2026-04-03 23:39:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12677文章數 142605關注度
往期回顧 全部

科技要聞

5萬輛庫存車,給了特斯拉一記重拳

頭條要聞

伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

頭條要聞

伊朗:美飛行員跳傘在伊境內落地 美方曾試圖營救未果

體育要聞

被NBA選中20年后,他重新回到籃球場

娛樂要聞

夏克立官宣再婚當爸?否認婚內出軌

財經要聞

專家稱長期攝入“飄香劑”存在健康隱患

汽車要聞

你介意和遠房親戚長得很像嗎?

態度原創

健康
藝術
數碼
教育
游戲

干細胞抗衰4大誤區,90%的人都中招

藝術要聞

吳昌碩『扇畫』老辣古拙

數碼要聞

消息稱三星顯示器部門面臨巨大危機,最壞結果將退出中國大陸市場

教育要聞

流失中國學生率最多的幾所英國大學!

《死亡擱淺2》PC版新補丁上線 性能進一步優化

無障礙瀏覽 進入關懷版