網易首頁 > 網易號 > 正文申請入駐

世界模型WoW發布，200萬次真實交互讓AI真正懂物理

2025-12-30 18:38:58　來源: wisemodel開源社區

北京舉報

分享至

始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在，歡迎加入共同成長。

人類對世界的認知，源于親手觸摸、嘗試與探索，而非被動觀察。但當前主流視頻生成模型如 Sora，僅靠海量視頻數據學習，缺乏真實世界交互體驗，常常出現違背物理常識的 “幻覺”。近日，由北京人形機器人創新中心與香港科技大學等機構聯合推出的 WoW 世界模型，憑借 200 萬條真實機器人交互數據，打通 “感知 - 想象 - 反思 - 行動” 閉環，讓 AI 真正具備物理直覺，為 embodied intelligence 發展奠定關鍵基礎！已上線始智AI-wisemodel開源社區，歡迎體驗。

模型地址

https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-14B-2M/intro

https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-1.3B-2M

01.

行業痛點：

傳統世界模型的三大致命缺陷

現有世界模型雖能生成逼真視頻，卻難以適配真實世界交互需求：

物理認知薄弱：僅通過被動觀察學習，缺乏因果關聯理解，生成內容常出現物體穿透、重力異常等物理謬誤；
想象與行動脫節：能 “想象” 未來場景，卻無法將其轉化為可執行的機器人動作，難以落地應用；
泛化能力不足：在未見過的場景、機器人形態或任務中表現糟糕，難以適應真實世界的多樣性。

這些問題導致 AI 始終無法真正 “理解” 世界，只能做表面的模式復刻。

02.

技術革新：

WoW的四大核心突破

WoW以 “真實交互數據 + 閉環優化框架” 為核心，實現四大關鍵創新，讓 AI 從 “看世界” 升級為 “懂世界、控世界”：

1. 200 萬次真實交互：筑牢物理直覺根基

摒棄互聯網視頻數據，WoW 采用 203 萬條真實機器人交互軌跡訓練，涵蓋 5275 個任務、12 種不同機器人形態，累計時長超 7300 小時。數據經過嚴格篩選，剔除無效交互，保留高質量、因果關系明確的操作記錄，包括單臂 / 雙臂 manipulation、剛性 / 柔性物體交互等場景，讓模型在真實物理反饋中學習規律，而非死記硬背視頻模式。

2. SOPHIA 閉環框架：讓 AI 學會 “反思優化”

創新提出 SOPHIA 自優化框架，模擬人類 “嘗試 - 反饋 - 修正” 的認知過程：

生成器（Solver）：基于擴散 Transformer（DiT）生成符合物理規律的未來視頻，融合 3D 小波變換與 RoPE 位置編碼，保證時空一致性；
評論家（Critic）：由視覺語言模型（VLM）組成動態評估團隊，從任務完成度、物理合理性、運動流暢度等維度打分；
優化器（Refiner）：根據評估反饋迭代優化文本指令，引導生成器修正錯誤，逐步提升物理一致性。

這種 “生成 - 評估 - 優化” 的閉環，讓模型不斷反思改進，避免單一生成的局限性。

3. Flow-Mask 逆動力學模型：打通 “想象到行動” 最后一公里

設計 FM-IDM 模塊，能將生成的視頻軌跡轉化為 7 自由度機械臂可執行的動作指令。通過分析相鄰幀的光流變化與場景掩碼，精準推斷機器人末端執行器的平移、旋轉及夾爪控制信號，實現 “想象場景→動作落地” 的完整閉環。在真實機器人測試中，該模塊在簡單任務上成功率達 94.5%，中等難度任務達 75.2%，大幅超越傳統方法。

4. WoWBench 基準：量化物理與因果推理能力

構建首個聚焦物理一致性的評估基準 WoWBench，包含 606 個樣本、20 個子任務，從四大維度全面測試模型：

感知理解（物體識別、空間關系等）
預測推理（碰撞動力學、物體恒存性等）
決策規劃（長時任務分解、因果依賴等）
泛化執行（未見場景、機器人形態等）

采用多維度評估指標，既包括視頻質量、軌跡一致性等量化指標，也涵蓋人類主觀評分，全面衡量模型的真實世界適配能力。

03.

性能驗證：

多項指標刷新紀錄，真實場景表現亮眼

WoW 在實驗中展現出遠超傳統模型的綜合能力：

基準測試霸榜：在 WoWBench 上實現 96.53% 的指令理解準確率和 80.16% 的物理規律符合率，人類評估與自動評估均排名第一；
物理一致性卓越：能準確模擬碰撞、形變、流體等復雜物理現象，在剛性物體交互、柔性材料操作等場景中無明顯物理謬誤；
泛化能力突出：無需微調即可適配 12 種不同機器人形態，在素描、油畫等風格化場景，以及 “物體超重”“重力偏移” 等反事實場景中，仍能生成合理結果；
真實落地可行：成功控制物理機器人完成取放面包、關閉抽屜、按鈕按壓等任務，動作流暢且精準。

04.

適用場景：

賦能多領域智能升級

WoW 的技術特性使其在多個場景具備極高應用價值：

機器人操控：為工業機械臂、服務機器人提供高精度動作規劃，適配多樣化任務與環境；
物理模擬：替代傳統物理引擎，高效生成復雜場景模擬視頻，助力游戲開發、仿真測試；
多視圖生成：支持從有限視角重建完整 3D 場景，生成幾何一致的新穎視圖；
VLM 能力增強：作為認知沙盒，幫助視覺語言模型調試規劃邏輯，將復雜任務成功率從 30% 提升至 89%。

無論是工業自動化、智能家居，還是虛擬仿真、AI 助手升級，WoW 都能憑借其強大的物理理解與行動能力提供核心支撐。

WoW 的推出，打破了傳統世界模型 “只懂想象、不會行動” 的局限，證明了 “真實交互是 AI 習得物理直覺的關鍵”。其 200 萬條真實交互數據、SOPHIA 閉環優化框架與 FM-IDM 動作轉化模塊的有機結合，讓 AI 首次實現 “感知世界 - 想象未來 - 反思優化 - 操控物理” 的完整閉環。

隨著技術的進一步迭代，未來的 AI 將具備更強的環境適應能力與自主決策能力，在工業生產、家庭服務、科研探索等領域發揮更大價值。

----- END -----

wisemodel相關：

系列模型：

關于wisemodel更多

歡迎持續關注和支持

開源社區建設需要長期堅持和投入，更需要廣大用戶的積極參與、貢獻和維護，歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果，包括模型、數據集和代碼等發布到 wisemodel.cn 社區，共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續關注wisemodel.cn開源社區動態。

歡迎加盟wisemodel開源社區

始智AI wisemodel社區自2023年9月上線以來，逐漸成為影響力日益擴大的中立開放的AI開源社區，為了加快公司發展，我們長期需要技術、運營等人才加盟，技術側重在AI infra、后端開發，熟悉K8S、模型訓練和推理等技術，以及熟悉開發者生態運營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優質內容

歡迎投稿分享人工智能領域相關的優秀研究成果，鼓勵高校實驗室、大企業研究團隊、個人等，在wisemodel平臺上分享各類優質內容，可以是AI領域最新論文解讀、最新開源成果介紹，也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關于wisemodel開源社區

始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立，旨在打造和建設中立開放的AI開源創新社區，將打造成“HuggingFace”之外最活躍的AI開源社區，匯聚主要AI開源模型、數據集和代碼等，歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者，以及政府部門、學會協會、聯盟、基金會等，還有投資機構、科技媒體等，共同參與建設AI開源創新生態。

向上滑動查看

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.