337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

頭號玩家照進現(xiàn)實!NTU發(fā)布世界模型交互新范式,攻克主動操作難題

0
分享至


新智元報道

編輯:LRST

【新智元導(dǎo)讀】南洋理工大學(xué)MMLab團隊推出Hand2World,讓AI世界模型真正「伸手」互動。只需在空中比劃手勢,模型就能生成逼真第一人稱交互視頻,實時響應(yīng)調(diào)整。它摒棄舊有遮擋誤導(dǎo),用3D手部結(jié)構(gòu)與射線編碼解耦手與頭運動,首次實現(xiàn)閉環(huán)持續(xù)交互。基于單目視頻全自動標(biāo)注,為AR、機器人交互鋪路。世界模型不再只是「 看」,而是能「觸」。

Sora能生成逼真的視覺世界,Genie 3能讓你在3D場景中自由探索——但你始終只能「看」,沒法伸手進去抓一下桌上的杯子。

當(dāng)下的世界模型已經(jīng)擁有了「眼睛」和「腿」——能感知環(huán)境、能移動視角,卻始終缺少一雙「手」。

能看能動但不能交互,是世界模型從被動觀察邁向主動操控的最后一道坎。而人類與物理世界交互的最原生接口,就是手勢。

南洋理工大學(xué)MMLab團隊提出了Hand2World[1]——給一張場景照片,用戶只需在空中做出手勢動作,AI 就能生成手伸進場景里抓杯子、翻書、開盒子的逼真第一人稱視頻。而且這不是一次性生成:用戶可以邊看生成結(jié)果邊調(diào)整手勢,模型實時跟進——形成真正的閉環(huán)交互。


論文地址:https://arxiv.org/abs/2602.09600

項目主頁:https://hand2world.github.io

為什么現(xiàn)有方法搞不定?

想象你訓(xùn)練了一個 AI,讓它看了上萬段人手抓杯子的視頻?,F(xiàn)在給它一只在空氣中揮舞的手——它就無所適從了。因為訓(xùn)練數(shù)據(jù)里手永遠被杯子、書本擋著一半,AI 從沒見過「完整的手」長什么樣。結(jié)果面對完整手形,它反而憑空生出了不存在的遮擋物。

這就是所有基于 2D 手部 mask 方法的致命傷——訓(xùn)練時看到的是殘缺的手,推理時卻收到完整的手,分布直接錯配。下圖清楚地展示了這一點:上排訓(xùn)練場景中 mask 被物體截斷,下排憑空手勢中 mask 完整,現(xiàn)有方法(如 CosHand)因此產(chǎn)生嚴重偽影。


mask分布錯配 vs Hand2World的遮擋不變條件信號

雪上加霜的是,第一人稱視頻中手部運動和佩戴者的頭部轉(zhuǎn)動在畫面上完全糾纏——模型分不清「是手在動還是頭在動」,背景就會跟著手一起漂移。

近期也有工作嘗試推進第一人稱世界模型——如PlayerOne[2]通過第一人稱與第三人稱相機同步配對來建模自我運動,取得了重要進展。

但這一路線既限制了數(shù)據(jù)的可擴展性,也使實際應(yīng)用受限。能否僅從單目視頻出發(fā),同時解決上述所有問題?這正是Hand2World的研究出發(fā)點。

Hand2World怎么做到的?


方法流程圖

讓模型「看見」完整的手

Hand2World徹底拋棄了2D mask。它從單目視頻中恢復(fù)完整的 3D 手部 mesh(MANO 模型),投影到圖像平面,渲染為「填充輪廓 + 線框疊層」的復(fù)合信號。無論手是否被物體遮擋,這個控制信號的格式始終一致。

關(guān)鍵 insight:遮擋關(guān)系不是硬編碼在輸入信號里的,而是交給生成模型根據(jù)場景上下文自行推斷。線框疊層還能在手掌朝向相機、手指相互遮擋時提供額外的關(guān)節(jié)結(jié)構(gòu)信息——這是純輪廓做不到的。

分清「手在動」還是「頭在動」

移除相機建模模塊后,F(xiàn)VD從218直接飆到815——背景開始跟著手一起漂移。

Hand2World 用逐像素的 Plücker 射線嵌入顯式編碼相機運動,通過一個輕量級adapter以加法方式注入擴散模型。這一招將手部關(guān)節(jié)運動和頭部自運動徹底解耦。


相機控制消融對比。無相機條件時(上排)背景嚴重漂移,加入Plücker射線后(中排)與真實視頻(下排)高度一致。

閉環(huán)交互,無限續(xù)寫

Hand2World將雙向擴散教師模型蒸餾為因果自回歸生成器,通過 KV cache 維持時序連貫,支持流式輸出。這使得整個系統(tǒng)形成閉環(huán)——用戶邊看邊調(diào)整手勢,模型持續(xù)響應(yīng),交互可以無限進行下去。

實驗結(jié)果

三個數(shù)據(jù)集全面領(lǐng)先

在ARCTIC、HOT3D、HOI4D三個第一人稱交互數(shù)據(jù)集上均取得最優(yōu)結(jié)果。以 ARCTIC 為例:

  • FVD:908 →218(降幅76%

  • 相機軌跡誤差:0.13 →0.07(降幅42%

  • DINO 語義相似度:0.80 →0.88

  • 深度一致性:Depth-ERR 從 22.51 降至16.14

蒸餾后的Hand2World-AR性能接近教師模型(FVD 232),單卡A100達8.9FPS。

具身智能的數(shù)據(jù)飛輪:全自動單目標(biāo)注

Hand2World 的訓(xùn)練數(shù)據(jù)從哪來?與 PlayerOne等依賴多目同步采集的方案不同,團隊開發(fā)了一套全自動的單目標(biāo)注流水線——不需要多目相機陣列,不需要人工標(biāo)注,直接從普通的第一人稱視頻中自動提取手部 mesh、相機軌跡和訓(xùn)練數(shù)據(jù)對。這意味著任何一段現(xiàn)成的 egocentric 視頻都可以被轉(zhuǎn)化為訓(xùn)練信號——為具身智能的大規(guī)模數(shù)據(jù)收集提供了真正可擴展的方案。

從「看見世界」到「觸碰世界」

作為將手勢交互引入世界模型的一次初步嘗試,Hand2World 構(gòu)建了一套從數(shù)據(jù)標(biāo)注到閉環(huán)生成的完整系統(tǒng)。在視頻生成能力快速提升的當(dāng)下,這套系統(tǒng)有望應(yīng)用于 AR/MR 眼鏡手勢交互、機器人手-物交互數(shù)據(jù)合成、以及從單張照片構(gòu)建可交互虛擬環(huán)境。

當(dāng)世界模型不再只是被動地生成畫面,而是能響應(yīng)用戶的每一個手勢并持續(xù)演化——從「看見世界」到「觸碰世界」的距離,或許比我們想象的更近。

參考資料:

[1] Wang et al., "Hand2World: Autoregressive Egocentric Interaction Generation via Free-Space Hand Gestures," arXiv:2602.09600, 2026.

[2] Tu et al., "PlayerOne: Egocentric World Simulator," Advances in Neural Information Processing Systems (NeurIPS), 2025.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
小流氓遇見大流氓,美國正式封鎖霍爾木茲海峽

小流氓遇見大流氓,美國正式封鎖霍爾木茲海峽

海子侃生活
2026-04-14 10:10:15
福州一河道涌現(xiàn)大量羅非魚,居民:目測有幾千條,整個河段都這樣

福州一河道涌現(xiàn)大量羅非魚,居民:目測有幾千條,整個河段都這樣

新京報
2026-04-14 21:11:38
出生39天,生母陳寶蓮就自殺,如今戴耳釘、紋紋身走上“不歸路”

出生39天,生母陳寶蓮就自殺,如今戴耳釘、紋紋身走上“不歸路”

林輕吟
2026-04-13 19:48:49
足壇慘案!弗林蓬生涯上升期不幸離世,加納足球圈陷入巨大震動

足壇慘案!弗林蓬生涯上升期不幸離世,加納足球圈陷入巨大震動

誮惜顏a
2026-04-14 21:12:50
何超瓊妹妹去世細節(jié):手握冰冷的手站了半小時,豪門背后全是眼淚

何超瓊妹妹去世細節(jié):手握冰冷的手站了半小時,豪門背后全是眼淚

感恩每一刻
2026-04-14 11:33:41
設(shè)計院中層年薪曝光,網(wǎng)友說:建筑行業(yè)壓根用不著救日子好著呢!

設(shè)計院中層年薪曝光,網(wǎng)友說:建筑行業(yè)壓根用不著救日子好著呢!

黯泉
2026-04-14 21:52:17
演員文章開面館引關(guān)注,代排隊價格被炒到500元

演員文章開面館引關(guān)注,代排隊價格被炒到500元

界面新聞
2026-04-14 10:04:47
內(nèi)心強大到可怕的12種境界,讀完一身冷汗,建議收藏

內(nèi)心強大到可怕的12種境界,讀完一身冷汗,建議收藏

金沛的國學(xué)筆記
2026-04-12 20:56:09
張本智和:我放心讓實力變強的松島當(dāng)主力,世乒賽和中國隊五五開

張本智和:我放心讓實力變強的松島當(dāng)主力,世乒賽和中國隊五五開

懂球帝
2026-04-14 13:46:04
美股上漲,納指十連陽,中概股爆發(fā),半導(dǎo)體指數(shù)創(chuàng)新高,原油暴跌7%

美股上漲,納指十連陽,中概股爆發(fā),半導(dǎo)體指數(shù)創(chuàng)新高,原油暴跌7%

第一財經(jīng)資訊
2026-04-15 07:23:33
業(yè)界轉(zhuǎn)商界?她憑什么能跨越階級?

業(yè)界轉(zhuǎn)商界?她憑什么能跨越階級?

吃瓜黨二號頭目
2026-04-14 08:15:16
谷愛凌曬泳裝照,網(wǎng)友吵翻天,她到底做錯了什么?

谷愛凌曬泳裝照,網(wǎng)友吵翻天,她到底做錯了什么?

陳意小可愛
2026-04-15 00:38:42
胖東來回應(yīng)多寶魚被指吃出標(biāo)簽:二維碼專利溯源標(biāo)簽可隨食材一同烹制,但本身不可食用

胖東來回應(yīng)多寶魚被指吃出標(biāo)簽:二維碼專利溯源標(biāo)簽可隨食材一同烹制,但本身不可食用

財經(jīng)網(wǎng)
2026-04-14 21:32:10
橙色的無痕褲子,才是街頭最靚麗的風(fēng)景吧?

橙色的無痕褲子,才是街頭最靚麗的風(fēng)景吧?

只要高興就好
2026-04-07 14:00:16
小寶與王某雷,誰探訪花的數(shù)量更多?

小寶與王某雷,誰探訪花的數(shù)量更多?

挪威森林
2026-01-31 12:15:26
美專家:中國簡直“反人類”!居然在地下900米處,開工新煤礦

美專家:中國簡直“反人類”!居然在地下900米處,開工新煤礦

點燃好奇心
2026-04-13 10:44:00
4月15日起,四川第二波春假開放!

4月15日起,四川第二波春假開放!

綿學(xué)堂
2026-04-14 19:56:44
這個開源神器絕了!AI 編程Token成本直降 89%,Claude Code等開發(fā)者必裝

這個開源神器絕了!AI 編程Token成本直降 89%,Claude Code等開發(fā)者必裝

星哥說事
2026-04-14 19:31:26
海關(guān)總署點名“張雪機車”:我國每出口10臺內(nèi)燃機摩托車中,有4臺來自中西部地區(qū)

海關(guān)總署點名“張雪機車”:我國每出口10臺內(nèi)燃機摩托車中,有4臺來自中西部地區(qū)

紅星新聞
2026-04-14 12:31:12
文章開面館爆火!回應(yīng)開店原因:我是陜西人,為自己能有一口吃的

文章開面館爆火!回應(yīng)開店原因:我是陜西人,為自己能有一口吃的

觀魚聽雨
2026-04-14 22:35:00
2026-04-15 08:24:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
14968文章數(shù) 66769關(guān)注度
往期回顧 全部

科技要聞

離職同事"煉化"成AI?這屆公司不需要活人了

頭條要聞

與伊朗談判破裂后 特朗普最新表態(tài)

頭條要聞

與伊朗談判破裂后 特朗普最新表態(tài)

體育要聞

帶出中超最大黑馬!他讓球迷們“排隊道歉”

娛樂要聞

網(wǎng)曝鐘麗緹代孕要了個男孩 備孕近10年

財經(jīng)要聞

許家印認罪,他和恒大還有多少欠債?

汽車要聞

售12.99萬起/續(xù)航2000km 風(fēng)云T9L上市

態(tài)度原創(chuàng)

本地
家居
游戲
教育
數(shù)碼

本地新聞

12噸巧克力有難,全網(wǎng)化身超級偵探添亂

家居要聞

現(xiàn)代融合 自然靈動

差評不斷、頻繁爆雷的國產(chǎn)Gal,被妮姬一個活動小游戲按著打

教育要聞

武昌工學(xué)院牽手澳大利亞皇家墨爾本理工大學(xué)共筑國際化育人平臺

數(shù)碼要聞

小米REDMI Buds 8無線耳機官方超前開箱,新增防丟查找功能

無障礙瀏覽 進入關(guān)懷版