![]()
始智AI wisemodel.cn社區是源自中國的中立開放的AI開源社區。正在,歡迎加入共同成長。
人類對世界的認知,源于親手觸摸、嘗試與探索,而非被動觀察。但當前主流視頻生成模型如 Sora,僅靠海量視頻數據學習,缺乏真實世界交互體驗,常常出現違背物理常識的 “幻覺”。近日,由北京人形機器人創新中心與香港科技大學等機構聯合推出的 WoW 世界模型,憑借 200 萬條真實機器人交互數據,打通 “感知 - 想象 - 反思 - 行動” 閉環,讓 AI 真正具備物理直覺,為 embodied intelligence 發展奠定關鍵基礎!已上線始智AI-wisemodel開源社區,歡迎體驗。
![]()
模型地址
https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-14B-2M/intro
https://wisemodel.cn/models/WoWworldmodel/WoW-1-Wan-1.3B-2M
01.
行業痛點:
傳統世界模型的三大致命缺陷
![]()
現有世界模型雖能生成逼真視頻,卻難以適配真實世界交互需求:
- 物理認知薄弱:僅通過被動觀察學習,缺乏因果關聯理解,生成內容常出現物體穿透、重力異常等物理謬誤;
- 想象與行動脫節:能 “想象” 未來場景,卻無法將其轉化為可執行的機器人動作,難以落地應用;
- 泛化能力不足:在未見過的場景、機器人形態或任務中表現糟糕,難以適應真實世界的多樣性。
這些問題導致 AI 始終無法真正 “理解” 世界,只能做表面的模式復刻。
02.
技術革新:
WoW的四大核心突破
WoW以 “真實交互數據 + 閉環優化框架” 為核心,實現四大關鍵創新,讓 AI 從 “看世界” 升級為 “懂世界、控世界”:
![]()
1. 200 萬次真實交互:筑牢物理直覺根基
摒棄互聯網視頻數據,WoW 采用 203 萬條真實機器人交互軌跡訓練,涵蓋 5275 個任務、12 種不同機器人形態,累計時長超 7300 小時。數據經過嚴格篩選,剔除無效交互,保留高質量、因果關系明確的操作記錄,包括單臂 / 雙臂 manipulation、剛性 / 柔性物體交互等場景,讓模型在真實物理反饋中學習規律,而非死記硬背視頻模式。
2. SOPHIA 閉環框架:讓 AI 學會 “反思優化”
創新提出 SOPHIA 自優化框架,模擬人類 “嘗試 - 反饋 - 修正” 的認知過程:
- 生成器(Solver):基于擴散 Transformer(DiT)生成符合物理規律的未來視頻,融合 3D 小波變換與 RoPE 位置編碼,保證時空一致性;
- 評論家(Critic):由視覺語言模型(VLM)組成動態評估團隊,從任務完成度、物理合理性、運動流暢度等維度打分;
- 優化器(Refiner):根據評估反饋迭代優化文本指令,引導生成器修正錯誤,逐步提升物理一致性。
這種 “生成 - 評估 - 優化” 的閉環,讓模型不斷反思改進,避免單一生成的局限性。
3. Flow-Mask 逆動力學模型:打通 “想象到行動” 最后一公里
設計 FM-IDM 模塊,能將生成的視頻軌跡轉化為 7 自由度機械臂可執行的動作指令。通過分析相鄰幀的光流變化與場景掩碼,精準推斷機器人末端執行器的平移、旋轉及夾爪控制信號,實現 “想象場景→動作落地” 的完整閉環。在真實機器人測試中,該模塊在簡單任務上成功率達 94.5%,中等難度任務達 75.2%,大幅超越傳統方法。
4. WoWBench 基準:量化物理與因果推理能力
構建首個聚焦物理一致性的評估基準 WoWBench,包含 606 個樣本、20 個子任務,從四大維度全面測試模型:
感知理解(物體識別、空間關系等)
預測推理(碰撞動力學、物體恒存性等)
決策規劃(長時任務分解、因果依賴等)
泛化執行(未見場景、機器人形態等)
采用多維度評估指標,既包括視頻質量、軌跡一致性等量化指標,也涵蓋人類主觀評分,全面衡量模型的真實世界適配能力。
![]()
03.
性能驗證:
多項指標刷新紀錄,真實場景表現亮眼
WoW 在實驗中展現出遠超傳統模型的綜合能力:
- 基準測試霸榜:在 WoWBench 上實現 96.53% 的指令理解準確率和 80.16% 的物理規律符合率,人類評估與自動評估均排名第一;
- 物理一致性卓越:能準確模擬碰撞、形變、流體等復雜物理現象,在剛性物體交互、柔性材料操作等場景中無明顯物理謬誤;
- 泛化能力突出:無需微調即可適配 12 種不同機器人形態,在素描、油畫等風格化場景,以及 “物體超重”“重力偏移” 等反事實場景中,仍能生成合理結果;
- 真實落地可行:成功控制物理機器人完成取放面包、關閉抽屜、按鈕按壓等任務,動作流暢且精準。
04.
適用場景:
賦能多領域智能升級
WoW 的技術特性使其在多個場景具備極高應用價值:
- 機器人操控:為工業機械臂、服務機器人提供高精度動作規劃,適配多樣化任務與環境;
- 物理模擬:替代傳統物理引擎,高效生成復雜場景模擬視頻,助力游戲開發、仿真測試;
- 多視圖生成:支持從有限視角重建完整 3D 場景,生成幾何一致的新穎視圖;
- VLM 能力增強:作為認知沙盒,幫助視覺語言模型調試規劃邏輯,將復雜任務成功率從 30% 提升至 89%。
![]()
無論是工業自動化、智能家居,還是虛擬仿真、AI 助手升級,WoW 都能憑借其強大的物理理解與行動能力提供核心支撐。
WoW 的推出,打破了傳統世界模型 “只懂想象、不會行動” 的局限,證明了 “真實交互是 AI 習得物理直覺的關鍵”。其 200 萬條真實交互數據、SOPHIA 閉環優化框架與 FM-IDM 動作轉化模塊的有機結合,讓 AI 首次實現 “感知世界 - 想象未來 - 反思優化 - 操控物理” 的完整閉環。
隨著技術的進一步迭代,未來的 AI 將具備更強的環境適應能力與自主決策能力,在工業生產、家庭服務、科研探索等領域發揮更大價值。
----- END -----
![]()
wisemodel相關:
系列模型:
關于wisemodel更多
1
歡迎持續關注和支持
開源社區建設需要長期堅持和投入,更需要廣大用戶的積極參與、貢獻和維護,歡迎大家加入wisemodel開源社區的志愿者計劃和開源共創計劃。期待更多開發者將開源成果,包括模型、數據集和代碼等發布到 wisemodel.cn 社區,共建中立、開放的AI開源社區生態。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續關注wisemodel.cn開源社區動態。
2
歡迎加盟wisemodel開源社區
始智AI wisemodel社區自2023年9月上線以來,逐漸成為影響力日益擴大的中立開放的AI開源社區,為了加快公司發展,我們長期需要技術、運營等人才加盟,技術側重在AI infra、后端開發,熟悉K8S、模型訓練和推理等技術, 以及熟悉開發者生態運營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優質內容
歡迎投稿分享人工智能領域相關的優秀研究成果,鼓勵高校實驗室、大企業研究團隊、個人等,在wisemodel平臺上分享各類優質內容,可以是AI領域最新論文解讀、最新開源成果介紹,也可以是關于AI技術實踐、應用和總結等。投稿可以發郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關于wisemodel開源社區
始智AI wisemodel.cn開源社區由清華校友總會AI大數據專委會副秘書長劉道全創立,旨在打造和建設中立開放的AI開源創新社區,將打造成“HuggingFace”之外最活躍的AI開源社區,匯聚主要AI開源模型、數據集和代碼等,歡迎高校科研院所、大型互聯網公司、創新創業企業、廣大個人開發者,以及政府部門、學會協會、聯盟、基金會等,還有投資機構、科技媒體等,共同參與建設AI開源創新生態。
向上滑動查看
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.