網易首頁 > 網易號 > 正文申請入駐

李飛飛萬字長文解讀：AI真正的下一站是“空間智能” | 前沿在線

2025-11-29 16:38:02　來源: 前沿在線

北京舉報

分享至

大模型會寫詩寫代碼，卻不會倒水開門。李飛飛萬字長文指出：AI真正的下一站，不是語言智能，而是空間智能——理解世界、預測變化、參與行動，才是真正的智能革命。

編輯：前沿在線編輯部

為什么我們在討論“空間智能”？

過去幾年，大模型的快速演化讓我們習慣了一個“說得越來越像人”的AI世界。它能寫文案、能畫圖、能編代碼、能演講、能陪聊，仿佛進入了智能的黃金時代。

但當我們真正問自己一個問題：“這些AI，能走進現實世界嗎？”答案依然是——還遠著呢。

它能寫出十種喝水的方式，卻倒不好一杯水。它能生成極美的臥室圖，卻連“開門進房間”的物理結構都不理解。它能模擬醫生問診，卻不會扶老人過馬路。

這并不是AI不夠聰明，而是它的“聰明”停留在一種語言層面：理解句子、預測詞語、生成符號。這種“認知智能”，其實是一種“屏幕里的智能”。

李飛飛這篇萬字長文中反復強調一點：AI 革命走到了一個被語言“封印”的天花板上。

現在的 AI，看起來能言善道，但實際上像“黑暗中的文豪”，對世界毫無經驗。她直言：“AI 只會描述世界，但它不會生活在世界里。”

而要讓 AI 真正走進物理世界，具備“行動力”，空間智能（Spatial Intelligence）就是我們必須跨過的下一個臺階。

人類智能的起點：不是語言，而是空間

我們通常以為，語言是人類智能的起點。

但李飛飛提醒我們，事實剛好相反。一個嬰兒在學會說話之前，就已經會做很多事了：抓玩具、摸輪廓、扔東西、摔東西，甚至盯著水滴滾落發呆。

表面上看，這只是好奇心，實際上，這是空間智能在生長——通過觀察與試錯，嬰兒在“身體力行”地理解世界的規則。

空間智能，不是用來說話的，而是用來活著的。

在日常生活中，我們每一項動作，幾乎都建立在對空間的直覺理解上：停車靠邊，要判斷輪胎與馬路牙子的距離；接住飛來的鑰匙，需要估算速度與軌跡；

不看杯子倒水，依賴的是對物體形狀和位置的記憶。這些事情我們做得毫不費力，但背后都涉及復雜的空間計算。

更重要的是，人類文明的重大躍遷，往往就靠這類“空間感”觸發靈感。古希臘的埃拉托色尼通過觀察太陽影子的角度，測出了地球的圓周；

18世紀的哈格里夫斯將多個紡錘并列排布，創造出紡織效率提升八倍的“珍妮紡織機”；沃森與克里克則在擺弄鐵絲模型中，摸索出 DNA 的雙螺旋結構——這些偉大發現，不是“算”出來的，是“看”出來、是“擺”出來的，是靠空間理解而非語言邏輯建構的。

李飛飛說得直接：空間智能是行動的基礎，而不是表達的產物。語言幫助我們溝通，但空間理解才幫助我們生存、創造和進步。

為什么當前AI不具備空間智能？

盡管我們已經擁有了令人驚嘆的AI語言能力、圖像生成能力和代碼編寫能力，但在“理解世界”這件事上，它依然像個紙上談兵的孩子。

李飛飛指出，今天的大模型，學到的是“語言的皮膚”，不是“世界的骨架”。

這是因為當前AI的主流學習方式，都是基于“符號”——文字、標簽、像素，它們學習的是詞與詞的關系、圖與圖的相似度，而不是物體與空間之間的真實互動關系。

它們并不知道“水會流下來”、“影子在光照下會變形”、“玻璃是透明的”，它們只是根據訓練數據生成“看起來像的東西”。

于是你會發現，AI生成的圖像雖然精美，但常出現奇怪的物理錯誤：水從杯子外流出來、影子方向反了、手有六根指頭。這不是算力的問題，而是“沒有物理常識”的問題。

再看機器人，表面上已經能抓取、能行走，甚至能“裝配零件”，但這些行為大多建立在“高度定制”的環境里——比如專用軌道、特定參數、腳本控制。換個場景，它就“手忙腳亂”。

機器人無法像人類那樣在復雜環境中做出泛化判斷，更無法真正理解“物體之間的關系”和“下一步該怎么做”。

AI在屏幕里看起來很聰明，一旦進入現實世界，就會暴露“空間盲點”：不會判斷距離、不會識別障礙、不會預測結果。

李飛飛說，這是因為它們沒有“住在世界里”，它們只是“讀取了關于世界的描述”。而要讓AI真正走出“屏幕邊界”，它需要的不只是看圖說話，而是“參與世界”的能力。

這，正是空間智能的起點。

世界模型：讓 AI 走出屏幕，進入現實

如果說語言智能讓AI學會“說話”，那么世界模型（World Models），就是讓AI開始“做事”的關鍵。

李飛飛在文章中提出，空間智能的核心載體，不是多模態大模型，而是具備世界建模能力的生成模型——這是一種全新的AI范式，它不再只生成文本、圖片或視頻，而是生成一個“可以持續存在、可以交互變化”的世界。

AI第一次從“語言描述”走向“物理構建”。

她將世界模型的核心能力，拆解為三大要素，我們可以用一張“人類類比表”來幫助理解：

這背后的轉變非常關鍵：傳統大模型訓練的是“下一句文本”，世界模型訓練的則是“下一幀世界狀態”。

這意味著，AI不再是復述者、描述者，而是變成了一個“參與者”、“構建者”，甚至是“行動者”。

想象一下：你告訴AI“請幫我布置一個適合8人聚會的客廳”，它不僅生成圖紙，而是直接生成一個完整、可交互的3D場景；

你說“把水壺拿給我”，它不是理解“語言”，而是理解你與水壺的空間關系，預測路徑、避障、抓取、遞交——這一切依賴的不是語言，而是具身感知+空間推理+行為預測的整體智能。

李飛飛創立的 World Labs 正是在做這件事。

他們開發的 Marble 系統，正是一個能接收多模態輸入（語言、圖像、動作指令），并生成一致的3D交互場景的世界模型系統。

Marble 不再只是“生成畫面”，而是能“維持一個世界”，讓用戶在里面走動、探索、建構。

世界模型，是讓AI走出屏幕、進入現實的通道。它將AI從“會講故事”進化為“能創造世界”的新物種。

空間智能會重做哪些行業？

當AI擁有空間智能，它就不再是一個“內容生成器”，而變成一個“現實世界的協作伙伴”。李飛飛認為，這種能力的落地將帶來四個最重要的行業變革方向：

1）創意產業：從“畫畫”到“構建世界”

過去的AI創作，是生成圖像、生成音樂、生成短片——它們都停留在二維屏幕里。空間智能的加入，讓創作從“表現”走向“構建”。

導演可以直接生成一個可進入、可漫游的虛擬電影場景，而不是靠綠幕加后期；

游戲開發者可以快速模擬多種物理互動機制，加速劇情與環境的迭代；

建筑師可以提前“走進”尚未建成的空間，對結構與流線做出更人性化的優化。

這一切的前提是：AI能理解空間邏輯、構建三維世界，并支持與人互動。

李飛飛舉了一個生動的例子：過去我們是用圖紙“想象房子”，未來我們是“在AI生成的房子里走一圈再決定改哪里”。

2）機器人：從工具，走向協作伙伴

如果說空間智能是AI的核心感知能力，那么機器人就是其行動延伸。

未來的機器人，不再是機械臂、倉儲搬運、流水線操作員，而是具備空間理解力的“行動者”與“助手”。

比如家庭助手：它能理解你“剛喝完水”的動作，就去廚房拿水壺補滿杯子，而不是等你下指令；

比如實驗室助手：它能自主協作實驗流程，把研究者從重復性的操作中解放出來。

這種“看懂人+理解空間+預測行動”的協作能力，正是空間智能帶來的躍遷。

AI不是拿來“替你做事”的，而是“跟你一起做事”的。

3）科學與醫療：多維模擬，加速突破

很多科學突破依賴的是空間結構的直覺。

例如藥物開發，研究者需要理解分子的三維結合機制；材料設計，需要評估結構變化對性能的影響；醫療影像，需要醫生在腦海中重建器官與病變位置。

空間智能 AI，可以在這些環節中扮演關鍵角色：它可以模擬無數可能的空間組合，加速推演，縮短試錯周期。甚至在手術前，AI可以基于患者CT/MRI影像生成全息模型，讓醫生“預演手術”，提升成功率。

這是“從理解語言，到理解物體”的跨越，也是AI真正參與到“理解世界結構”的開始。

4）教育：抽象知識，沉浸式體驗

空間智能，還會深刻改變教育方式。過去我們靠想象力“理解原子結構”“看懂地球公轉”“學習電磁場的方向”。

但對于很多學生來說，這些“看不到、摸不著”的知識，始終停留在記憶層面。

而擁有空間智能的AI，可以構建沉浸式教學場景：讓你走進細胞內部、繞著DNA結構飛一圈、在古戰場上穿梭、在數學幾何中旋轉。

知識不再是講述的，而是“進入”的。

教育變成一場“空間旅程”，不僅提升理解，更激發好奇心。

李飛飛總結得很清晰：空間智能不是炫技，而是真正的“新型生產力”。它重構的不只是工具，而是重塑“人如何與世界互動”的方式。

為什么李飛飛強調“增強人，而不是替代人”？

當“AI會說話”這件事變得越來越自然，我們開始焦慮“它是不是要搶我的工作”。

而李飛飛在這篇萬字長文中反復強調一個基本立場：“AI不是來替代人類的，而是來增強人類的。”

語言模型的崛起，讓不少職業變得不安全——寫PPT、寫郵件、寫腳本似乎都可以被AI代勞。

但這正是“語言智能”的局限：它只能處理符號，無法理解動機、情境與人本身。

而空間智能帶來的AI，則走向了另一個方向：從“替代”走向“協作”。李飛飛舉了許多例子：

在護理機構中，AI可以協助照護人員進行環境監控、搬運、提醒等操作，但不會剝奪老人的生活自主權。

在科研實驗室中，AI機器人可以代替人類完成高度重復、標準化的操作，但發現科學規律的核心思考，依然由人來完成。

在設計創作中，AI可以幫助快速生成空間草圖與可交互場景，但真正有情感、有文化語義的“表達”，仍然需要人類的靈感點燃。

這是一個本質性的理念差異：語言AI是“你說我做”，而空間AI是“你做我幫”。

后者強調配合、補位與增強——正如她所說的：“AI 的價值，不是取代人類的勞動，而是讓我們做到原本做不到的事。”

這種“人機協作”的價值觀，不僅是李飛飛20多年AI研究者身份的總結，也是她在創業中親自實踐的底層信念。

她不談AGI神話，也不渲染AI末日，她只關心一件事：AI要如何為人類賦能，為人的尊嚴、能力與選擇，留出更大的空間。

AI 的未來不是更好說話，而是更會做事

我們已經見證了語言智能帶來的“認知革命”——從GPT-3到GPT-4，再到多模態模型如GPT-4V、Claude 2、Gemini Ultra，AI變得越來越能說、越來越能寫。

但李飛飛在這篇文章中提醒我們：真正的智能，不止于“說得漂亮”，更要“做得正確”。

空間智能，將開啟另一場“行動革命”。它讓AI不再是坐在屏幕后講道理的“語文課代表”，而是走到現實中和人協同的“實習工程師”、”助理科學家“、”家庭照護員“、”創意導演“。

我們可以這樣描繪未來AI的三重躍遷：

從閱讀世界：AI能理解人類語言、圖像、視頻等符號信息；
到理解世界：AI能建立空間模型、推理物理關系、預測動態；
再到建設世界：AI能創造、操作、協同，成為現實行動的參與者。

這正是從“Words”走向“Worlds”的進化。

而這場進化，也正是李飛飛提出的下一站AI：空間智能的意義所在。

不是為了打造另一個神一樣的AGI，而是為了讓人類更自由地生活、創造與關懷；不是為了更快地替代人類，而是更深地增強人類。

真正的智能，不是能背多少書，而是能用知識去觸碰現實。

真正的未來，不是更好說話，而是更會做事。

真正的AI，不是造一個語言的宇宙，而是建一個理解世界、參與世界的“新物種”。

這，就是李飛飛心中，AI的下一站。

完整原文：

空間智能：人工智能的下一個前沿

1950 年，當計算機還僅能完成自動化算術運算和簡單邏輯處理時，艾倫?圖靈提出了一個至今仍發人深省的問題：機器能思考嗎？他憑借非凡的想象力預見了一個未來 —— 智能或許并非天生，而是可以被創造出來。

這一洞見隨后催生了一場名為人工智能（AI）的不懈科學探索。

在我投身人工智能領域的 25 年間，圖靈的愿景始終激勵著我。但我們究竟離這個目標有多近？答案并非簡單一句話能概括。

如今，大型語言模型（LLMs）等領先 AI 技術已開始改變我們獲取和運用抽象知識的方式。

然而，它們就像 “黑暗中的文字大師”—— 言辭流利卻缺乏經驗，學識淵博卻脫離現實根基。

而空間智能將徹底重塑我們創造和交互真實與虛擬世界的方式，為敘事、創意、機器人技術、科學發現等領域帶來革命性變革。

這正是人工智能的下一個前沿陣地。

自進入該領域以來，對視覺和空間智能的追求一直是指引我的北極星。

這也是我為何花費數年時間構建 ImageNet 的原因 ——它是首個大規模視覺學習與基準測試數據集，與神經網絡算法、圖形處理器（GPUs）等現代計算技術共同構成了現代人工智能誕生的三大核心支柱。

這也是我在斯坦福大學的學術實驗室過去十年間致力于將計算機視覺與機器人學習相結合的初衷。

更重要的是，這正是我與聯合創始人賈斯汀?約翰遜、克里斯托夫?拉斯納、本?米爾登霍爾在一年多前創立 World Labs 的核心使命：首次全面實現這一可能性。

在本文中，我將闡釋空間智能的定義、其核心價值，以及我們如何構建能夠解鎖空間智能的世界模型 ——這些模型將重塑創意表達、具身智能與人類進步的軌跡。

空間智能：人類認知的基石

人工智能從未如此令人振奮。以大型語言模型為代表的生成式 AI 已從研究實驗室走進日常生活，成為數十億人用于創意創作、提升效率和溝通交流的工具。

它們展現出了曾被認為不可能實現的能力，能夠輕松生成連貫文本、海量代碼、照片級逼真圖像，甚至短視頻片段。

人工智能是否會改變世界已不再是疑問 ——無論以何種合理標準衡量，它已然做到了。

然而，仍有諸多目標遠未達成。自主機器人的愿景雖引人遐想，卻仍停留在推測階段，與未來學家長期承諾的 “日常必備品” 相去甚遠；在疾病治療、新材料發現、粒子物理等領域實現大規模加速研究的夢想，多半尚未實現；

而真正理解并賦能人類創造者的 AI—— 無論是學習復雜分子化學概念的學生、可視化空間設計的建筑師、構建虛擬世界的電影人，還是追求沉浸式虛擬體驗的普通人 —— 仍遙不可及。

要弄清為何這些能力難以實現，我們需要先審視空間智能的進化歷程，以及它如何塑造我們對世界的理解。

視覺長期以來一直是人類智能的基石，但其力量源自更為根本的能力。

早在動物學會筑巢、撫育后代、語言溝通或建立文明之前，這種從外部世界獲取信息的簡單行為（無論是一絲光線還是一種觸感），就搭建起了感知與生存之間的橋梁。

隨著世代更迭，這座橋梁不斷強化和完善，層層神經元在此基礎上形成了神經系統，用于解讀世界并協調有機體與環境的互動。

因此，許多科學家推測，感知與行動構成了驅動智能進化的核心循環，也是自然界創造人類這一“感知、學習、思考、行動”終極載體的基礎。

空間智能在定義人類與物理世界的交互方式中扮演著基礎性角色。

我們每天的普通行為都離不開它：通過想象保險杠與路沿之間逐漸縮小的間距來停車、接住從房間另一頭扔來的鑰匙、在擁擠的人行道上穿梭而不發生碰撞、或是閉著眼睛就能熟練地把咖啡倒進杯子里。

在更極端的情況下，消防員在濃煙彌漫的坍塌建筑中導航，憑借對結構穩定性和生存概率的瞬間判斷，通過手勢、肢體語言以及無法用語言替代的專業直覺進行溝通；

而嬰兒在學會說話前的數月甚至數年里，正是通過與環境的嬉戲互動來認識世界。

這一切都源于直覺，自然而然地發生 —— 而這種熟練度，機器至今尚未掌握。

空間智能也是人類想象力與創造力的基礎。從遠古洞穴壁畫到現代電影，再到沉浸式電子游戲，敘事者在腦海中構建出獨特而豐富的世界，并通過多種視覺媒介將其呈現給他人。

無論是孩子們在沙灘上堆沙堡，還是在電腦上玩《我的世界》，基于空間的想象力都是真實或虛擬世界中交互體驗的核心。

在眾多行業應用中，對物體、場景和動態交互環境的模擬，支撐著從工業設計、數字孿生到機器人訓練等無數關鍵業務場景。

歷史上諸多定義文明進程的時刻，空間智能都發揮了核心作用。

古希臘時期，埃拉托色尼將影子轉化為幾何工具 —— 在賽伊尼的太陽直射無影之時，測量亞歷山大城的日影角度為 7 度 —— 從而計算出地球周長；

哈格里夫斯的 “珍妮紡紗機” 通過一項空間洞察革新了紡織業：將多個紡錘并排安裝在一個機架上，使一名工人能同時紡多根線，生產力提升了 8 倍；沃森和克里克通過搭建三維分子模型，不斷調整金屬片和金屬絲的位置，最終找到了堿基對的空間排列方式，從而發現了 DNA 的雙螺旋結構。

在這些案例中，當科學家和發明家需要操控物體、可視化結構并對物理空間進行推理時，空間智能成為推動文明前進的動力——而這些能力，僅靠文本是無法實現的。

空間智能是人類認知構建的基石。無論是被動觀察還是主動創造，它都在發揮作用；它驅動著我們的推理和規劃，即便面對最抽象的議題亦是如此；它對于我們與他人、與環境的交互（無論是語言交流還是物理接觸）至關重要。

雖然大多數人并非每天都能像埃拉托色尼那樣揭示新的真理，但我們的思考方式本質上是相通的 —— 通過感官感知復雜世界，再利用對其物理空間規律的直覺理解來賦予世界意義。

遺憾的是，如今的人工智能尚未具備這樣的思考能力。

過去幾年，AI 領域確實取得了巨大進步。多模態大型語言模型（MLLMs）通過海量文本數據與多媒體數據的聯合訓練，已具備初步的空間感知能力，如今的 AI 能夠分析圖像、回答相關問題，并生成超逼真的圖像和短視頻。

借助傳感器和觸覺技術的突破，最先進的機器人已能在高度受限的環境中操控物體和工具。

但坦誠而言，AI 的空間能力與人類水平仍相去甚遠，其局限性也暴露無遺。

最先進的多模態大型語言模型在估計距離、方位和尺寸，或是通過從新角度重建物體來實現 “心理旋轉” 等任務上，表現幾乎與隨機猜測無異；

它們無法導航迷宮、識別捷徑，也無法預測基本的物理現象；AI 生成的視頻雖尚處萌芽階段且極具吸引力，但往往在幾秒后就會失去連貫性。

盡管當前最先進的 AI 在閱讀、寫作、研究和數據模式識別等方面表現出色，但這些模型在表征或交互物理世界時，仍存在根本性局限。

人類對世界的認知是整體性的—— 不僅包括我們所看到的事物，還包括萬物之間的空間關系、其內在意義及重要性。

通過想象、推理、創造和交互（而非僅僅通過描述）來理解世界，這正是空間智能的力量所在。缺乏空間智能，AI 便與它試圖理解的物理現實脫節，無法有效駕駛汽車、在家庭和醫院中引導機器人、創造全新的沉浸式學習和娛樂交互方式，也無法加速材料科學和醫學領域的發現進程。

哲學家維特根斯坦曾寫道：“我的語言的界限，意味著我的世界的界限。”我并非哲學家，但我深知，至少對于人工智能而言，世界遠不止于文字。

空間智能代表著語言之外的前沿領域 —— 它連接想象力、感知與行動，為機器真正改善人類生活開辟了可能性，從醫療健康到創意創作，從科學發現到日常輔助，無所不包。

人工智能的下一個十年：構建真正具備空間智能的機器

那么，我們該如何構建具備空間智能的人工智能？通往能夠像埃拉托色尼那樣洞察、像工業設計師那樣精準設計、像敘事者那樣富有想象力、像急救人員那樣熟練與環境交互的模型，路徑何在？

構建空間智能 AI 需要比大型語言模型更宏大的目標：世界模型（world models）。

這是一種新型生成式模型，其理解、推理、生成和交互語義、物理、幾何及動態復雜世界（無論是虛擬還是真實）的能力，遠超當前的大型語言模型。

該領域尚處萌芽階段，現有方法涵蓋從抽象推理模型到視頻生成系統等多個方向。World Labs 于 2024 年初成立，正是基于這樣一種信念：基礎方法仍在建立之中，這將是未來十年人工智能領域的核心挑戰。

在這一新興領域，最重要的是確立指導發展的原則。對于空間智能，我將世界模型定義為具備以下三項核心能力：

生成性：能夠生成具備感知、幾何和物理一致性的世界

解鎖空間理解與推理能力的世界模型，必須能夠自主生成模擬世界。它們需要能夠根據語義或感知指令，生成無限多樣的模擬世界，同時保持幾何、物理和動態的一致性 ——無論所表征的是真實空間還是虛擬空間。

研究界正在積極探索，這些世界是否應該基于內在幾何結構進行隱式或顯式表征。此外，除了強大的潛在表征能力，我認為通用世界模型的輸出還應能夠為多種應用場景生成明確、可觀測的世界狀態。

特別是，它對當前狀態的理解必須與過去（即導致當前狀態的先前世界狀態）保持連貫。

多模態：天生具備多模態處理能力

與動物和人類一樣，世界模型應能夠處理多種形式的輸入（在生成式 AI 領域被稱為 “提示詞”）。給定部分信息 ——無論是圖像、視頻、深度圖、文本指令、手勢還是動作—— 世界模型都應能預測或生成盡可能完整的世界狀態。

這需要模型既能以真實視覺的保真度處理視覺輸入，又能同等熟練地解讀語義指令。這使得智能體和人類都能通過多樣化輸入與模型進行關于世界的溝通，并獲得多樣化輸出。

交互性：能夠根據輸入動作輸出下一狀態

最后，如果動作和 / 或目標是世界模型提示詞的一部分，其輸出必須包括世界的下一狀態（無論是隱式還是顯式表征）。

當僅輸入動作（無論是否包含目標狀態）時，世界模型應生成與世界先前狀態、預期目標狀態（如有）、語義意義、物理定律和動態行為一致的輸出。

隨著具備空間智能的世界模型在推理和生成能力上變得更加強大和穩健，未來當給定目標時，世界模型或許不僅能預測世界的下一狀態，還能基于新狀態預測后續動作。

這一挑戰的規模遠超人工智能以往面臨的任何任務。

語言是人類認知中一種純粹的生成現象，但世界的運行遵循著復雜得多的規則。例如，在地球上，重力支配著運動，原子結構決定了光線如何產生顏色和亮度，無數物理定律約束著每一次交互。

即便是最奇幻、最具創意的世界，其構成的空間物體和智能體也必須遵循定義它們的物理定律和動態行為。

要始終如一地協調語義、幾何、動態和物理等多方面因素，需要全新的方法。

表征一個世界的維度復雜度，遠高于語言這種一維序列信號。

要實現具備人類級通用能力的世界模型，需要克服多個嚴峻的技術障礙。在 World Labs，我們的研究團隊正致力于朝著這一目標取得基礎性進展。

以下是我們當前的部分研究方向：

一種新的通用訓練任務函數

定義一種像大型語言模型中的下一個詞預測那樣簡單優雅的通用任務函數，長期以來一直是世界模型研究的核心目標。

其輸入和輸出空間的復雜性使得這種函數的設計本身極具挑戰性。盡管仍有大量探索空間，但這一目標函數及相應表征必須反映幾何和物理定律，彰顯世界模型作為想象力與現實基礎表征的本質。

大規模訓練數據

訓練世界模型需要比文本數據復雜得多的數據集。好消息是，海量數據來源已經存在：互聯網規模的圖像和視頻集合構成了豐富且易于獲取的訓練材料——關鍵挑戰在于開發算法，能夠從這些二維圖像或視頻幀信號（即 RGB）中提取更深層次的空間信息。

過去十年的研究已經證明了語言模型中數據量與模型規模之間的縮放定律；而世界模型的關鍵突破，在于構建能夠以相當規模利用現有視覺數據的架構。

此外，高質量合成數據以及深度、觸覺等額外模態數據的潛力也不容小覷。它們在訓練過程的關鍵階段對互聯網規模數據起到補充作用。

但前進的道路取決于更先進的傳感器系統、更穩健的信號提取算法，以及更強大的神經模擬方法。

新的模型架構與表征學習

世界模型研究必將推動模型架構和學習算法的進步，尤其是突破當前多模態大型語言模型和視頻擴散模型的范式。

這兩種模型通常將數據 token 化為一維或二維序列，這使得簡單的空間任務（如統計短視頻中獨特椅子的數量，或記住一小時前房間的樣子）變得不必要地復雜。

替代架構可能會有所幫助，例如用于 token 化、上下文處理和記憶的三維或四維感知方法。

例如，在 World Labs，我們最近推出的實時生成式幀基模型（RTFM）就體現了這一轉變 —— 它利用基于空間的幀作為空間記憶形式，實現高效的實時生成，同時保持生成世界的連續性。

顯然，要通過世界模型完全解鎖空間智能，我們仍面臨巨大挑戰。但這項研究并非純理論探索，它是新型創意和生產力工具的核心引擎。而 World Labs 取得的進展令人鼓舞。

我們最近向少數用戶展示了 Marble——首個能夠通過多模態輸入提示，生成并維持一致的三維環境，供用戶和敘事者在創意工作流中探索、交互和進一步構建的世界模型。我們正努力盡快將其向公眾開放！

Marble 只是我們構建真正具備空間智能世界模型的第一步。隨著進展加速，研究人員、工程師、用戶和企業領導者都開始認識到其非凡潛力。

下一代世界模型將使機器在空間智能方面達到全新高度 —— 這一成就將解鎖當前 AI 系統中仍大量缺失的關鍵能力。

利用世界模型構建更美好的人類世界

人工智能的發展動力至關重要。

作為助力開啟現代人工智能時代的科學家之一，我的動機始終明確：人工智能必須增強人類能力，而非取代人類。多年來，我一直致力于使人工智能的開發、部署和治理與人類需求保持一致。

如今，技術烏托邦和世界末日的極端敘事層出不窮，但我依然秉持更務實的觀點：人工智能由人類開發、供人類使用、受人類監管。

它必須始終尊重人類的能動性和尊嚴。其魅力在于拓展我們的能力邊界，讓我們更具創造力、更緊密相連、更高效且更有成就感。

空間智能正是這一愿景的體現：人工智能賦能人類創造者、護理人員、科學家和夢想家，實現曾經看似不可能的目標。

這一信念驅動著我將空間智能視為人工智能的下一個偉大前沿。

空間智能的應用跨越不同時間維度。

創意工具已嶄露頭角——World Labs 的 Marble 已將這些能力交付給創造者和敘事者；

機器人技術代表著中期的宏大愿景，我們正在完善感知與行動之間的循環；而最具變革性的科學應用雖需更長時間，但有望對人類福祉產生深遠影響。

在所有這些時間維度中，有幾個領域尤其有望重塑人類能力。這需要集體的巨大努力，遠非單個團隊或公司所能獨立完成。

它需要整個人工智能生態系統的參與，研究人員、創新者、企業家、企業乃至政策制定者，朝著共同的愿景努力。

但這一愿景值得我們追求。

以下是未來的發展圖景：

創意領域：賦能敘事與沉浸式體驗

“創造力是智能在享受樂趣。”這是我個人偶像阿爾伯特?愛因斯坦的名言之一。

早在文字出現之前，人類就開始講故事 —— 將其繪制在洞穴墻壁上、代代相傳、在共同敘事的基礎上構建整個文化。

故事是我們理解世界、跨越時空連接彼此、探索人性意義的方式，更重要的是，它讓我們在生活和愛中找到歸屬感。

如今，空間智能有望以尊重故事核心價值的方式，重塑我們創造和體驗敘事的方式，并將其影響從娛樂拓展至教育、設計和建筑等領域。

World Labs的Marble平臺將前所未有的空間能力和編輯可控性交付給電影人、游戲設計師、建筑師和各類敘事者，使他們能夠快速創建和迭代可完全探索的三維世界，而無需承擔傳統三維設計軟件的高昂成本。

創意行為本身仍然保持著人類特有的生命力和核心地位；AI 工具只是放大和加速了創造者的成就。

這包括：

多維度敘事體驗

電影人和游戲設計師正利用 Marble 擺脫預算和地理限制，自由構建整個世界，探索在傳統制作流程中難以實現的場景和視角。

隨著不同媒體和娛樂形式的界限逐漸模糊，我們正邁向一種融合藝術、模擬和游戲的全新交互式體驗 —— 個性化世界，讓任何人（而非僅僅是工作室）都能創造和棲息于自己的故事中。

隨著將概念和故事板快速轉化為完整體驗的方法不斷涌現，敘事將不再局限于單一媒介，創造者可以自由構建跨越多種平臺和載體、擁有共同主線的世界。

設計中的空間敘事

本質上，幾乎所有人造物體或建筑空間在物理創建之前，都需要在虛擬三維環境中進行設計。

這一過程具有高度迭代性，且在時間和金錢上成本高昂。借助具備空間智能的模型，建筑師可以在投入數月設計時間之前快速可視化結構，在尚未存在的空間中漫步 ——本質上是講述我們可能如何生活、工作和聚集的故事。

工業設計師和時裝設計師可以將想象力瞬間轉化為實體形態，探索物體與人體和空間的交互方式。

全新的沉浸式交互體驗

體驗本身是人類創造意義的最深刻方式之一。

在整個人類歷史中，我們只有一個統一的三維世界：我們共同生活的物理世界。

直到最近幾十年，通過游戲和早期虛擬現實（VR）技術，我們才開始瞥見共享自己創造的替代世界的可能性。

如今，空間智能與虛擬現實（VR）、擴展現實（XR）頭顯和沉浸式顯示器等新型設備相結合，以前所未有的方式提升了這些體驗。

我們正邁向一個未來。

前沿動態
前沿大會

前沿人物

點「在看」，給前前加雞腿

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

前沿在線

前沿在線官方賬號，關注AI、機器人、智能車等前沿領域；

131文章數 1235關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

游戲

親子

旅游

軍事航空

手機 / 數碼

房產 / 家居

李飛飛萬字長文解讀：AI真正的下一站是“空間智能” | 前沿在線

遭中國學界"拉黑"后，這家AI頂會低頭道歉

美媒：和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

美媒：和歐盟"外長"發生激烈交鋒 魯比奧"顯然很惱火"

“我是全家最差勁的運動員”

王一博改名上熱搜！個人時代正式開啟！

用AI來“增效”，大廠打錯了算盤

置換補貼價4.28萬起 第五代宏光MINIEV正式上市

態度原創

6.8萬方！天河員村再征地，金融城西區開發全面提速

重大翻車!知名3A游戲PS5光盤貨不對板 玩家集體踩坑

愛玩沙子是孩子的天性，這套#太空沙玩具 在家就能實現玩沙子的快樂，關鍵比去游樂場玩干凈衛生。#兒童玩...

視點｜2026首屆梨花藝術節植樹節啟幕

美軍中東基地損失最新披露

美媒：和歐盟"外長"發生激烈交鋒魯比奧"顯然很惱火"

美媒：和歐盟"外長"發生激烈交鋒魯比奧"顯然很惱火"

置換補貼價4.28萬起第五代宏光MINIEV正式上市

重大翻車!知名3A游戲PS5光盤貨不對板玩家集體踩坑

愛玩沙子是孩子的天性，這套#太空沙玩具在家就能實現玩沙子的快樂，關鍵比去游樂場玩干凈衛生。#兒童玩...