網易首頁 > 網易號 > 正文申請入駐

清華、上海AI實驗室團隊讓大模型獲得空間感

2026-04-02 20:45:04　來源: 科技行者

北京舉報

分享至

這項由清華大學人工智能學院聯合上海人工智能實驗室和東京大學團隊完成的研究發表于2026年3月24日，論文編號為arXiv:2603.23404v1。研究者們發現了一個讓人工智能系統更好理解空間關系的巧妙方法，有興趣了解詳細技術細節的讀者可以通過該論文編號查詢完整研究內容。

當你看著一段室內環境的視頻，被問到"垃圾桶在電話的哪個方向"時，你的大腦會自動構建出整個房間的空間布局圖，然后輕松給出答案。但對于目前的多模態大語言模型來說，這樣看似簡單的空間推理卻是個巨大的挑戰。它們往往像只能看到眼前畫面的人一樣，無法形成對整體空間的理解。

研究團隊發現，現有的人工智能模型在處理視頻中的3D空間問題時，經常會像迷路的人一樣，過度依賴眼前看到的2D視覺信息，而無法建立起對整個3D環境的完整認知。這就像讓一個人蒙著眼睛摸象，只能感知到局部信息，卻無法理解大象的整體形狀。

為了解決這個問題，研究團隊從人類認知科學中獲得啟發，開發了一種叫做TRACE（Textual Representation of Allocentric Context from Egocentric Video）的創新方法。這種方法的核心思想是讓AI系統像人類一樣，先在腦海中構建出一個完整的空間地圖，然后基于這個地圖進行推理。

一、從人類空間認知中獲得的啟發

人類在進行空間推理時有一個非常有趣的特點。當我們面對復雜的空間問題時，大腦并不是簡單地在視覺畫面中尋找答案，而是會自動構建出一個"上帝視角"的空間表征。比如當你在酒店房間里尋找某個物品時，你的大腦會像建筑師繪制平面圖一樣，在腦海中構建出整個房間的布局，包括床、桌子、椅子等各種家具的相對位置。

更神奇的是，這種空間表征完全可以用文字來描述。你可以輕松地向別人解釋"床在靠窗的那面墻邊，床頭柜在床的右側，垃圾桶在房門附近的角落里"。這種用語言描述空間布局的能力，恰恰是人類空間智能的一個重要特征。

研究團隊意識到，如果能讓AI模型也學會這種"先構建空間地圖，再進行推理"的方式，就有可能大幅提升它們的空間理解能力。傳統的方法讓AI直接從視頻片段中尋找答案，就像讓人在黑暗中摸索一樣效率低下。而新方法則是先讓AI"開燈"，看清整個房間的布局，然后再回答問題。

認知科學研究表明，人類處理空間信息時會使用兩套不同的坐標系統：以自己為中心的"自我中心坐標系"和以環境為中心的"環境中心坐標系"。當你剛進入一個房間時，你會說"床在我的右邊"，這是自我中心的描述。但當你熟悉了房間布局后，你會說"床在靠窗的墻邊"，這就轉換為了環境中心的描述。后一種描述方式更穩定，不會因為觀察者位置的改變而改變，因此更適合進行復雜的空間推理。

二、TRACE方法的巧妙設計

TRACE方法就像給AI配備了一個專業的"空間記錄員"。這個記錄員會一邊觀看視頻，一邊詳細記錄下三個關鍵信息：房間的基本情況、攝像機的移動軌跡，以及看到的所有物品的詳細信息。

首先是"房間檔案"的建立。就像房產中介制作房源介紹一樣，AI需要先確定房間的基本形狀和方向。比如這是一個長方形的辦公室，還是L型的客廳，以及如何確定"東南西北"的方向。這個步驟非常重要，因為它為后續的所有空間描述提供了統一的參考框架。研究團隊設計的方法會讓AI自動找到房間中最明顯的結構特征，比如最長的墻面或主要的通道方向，然后以此為基準建立坐標系。

接下來是"行進路線圖"的繪制。AI會像導游一樣，詳細記錄攝像機在房間中的移動軌跡。每當攝像機有明顯的位置或朝向變化時，AI就會記錄下當前的時間、估算的位置坐標、面朝的方向，以及正在進行的動作描述。比如"第3秒時，位置在房間中央偏左，面朝北偏西45度，正在向床邊移動并觀察床頭柜"。這種記錄方式讓AI能夠理解視頻中不同畫面之間的空間關系。

最后是"物品清單"的整理。這是TRACE方法最精細的部分。AI需要為每個觀察到的物品建立詳細的檔案，包括物品的類別、首次看到的時間、估算的位置坐標、大小尺寸、外觀特征，以及與其他物品的空間關系。比如對于一把椅子，AI會記錄："椅子01，辦公椅類型，第5秒首次看到，位置坐標[1.1, 1.0]，尺寸約60×60×110厘米，黑色皮質座椅，位于桌子前方，靠近房間的東南角"。

這種詳細記錄的好處是顯而易見的。當AI需要回答"哪個物品離門最近"這樣的問題時，它可以通過比較物品清單中所有物品的坐標位置，精確計算出各自到門的距離，而不需要在視頻畫面中進行模糊的視覺估算。

三、讓AI學會"畫地圖"的訓練過程

要讓AI學會使用TRACE方法，關鍵在于設計合適的提示詞來引導它的思維過程。這就像教一個新手駕駛員學會看地圖一樣，需要step by step的詳細指導。

研究團隊精心設計了一套"空間記錄手冊"，告訴AI應該如何觀察視頻、如何建立坐標系、如何記錄物品信息等。這個手冊不是簡單的規則列表，而是像老師傅傳授技藝一樣，包含了大量的經驗和技巧。

比如在建立坐標系時，手冊會告訴AI："尋找房間中最明顯的長邊或主要通道方向，將其定義為Y軸正方向，相當于地圖上的'北方'。然后將垂直于該方向的右側定義為X軸正方向，相當于'東方'。攝像機的起始位置就是原點[0,0]。"

在記錄移動軌跡時，手冊要求AI："每當攝像機有明顯移動時都要記錄一個新的步驟，包括時間戳、估算位置、面朝方向和動作描述。位置估算要基于房間中的固定物品作為參照，比如'距離桌子約1.5米，距離墻面約2米'這樣的描述。"

在整理物品清單時，手冊強調："每個物品都要單獨記錄，不能合并。即使有6把相同的椅子，也要分別記錄為椅子01到椅子06。每個物品的位置坐標要盡可能精確，并且要描述它與其他明顯標志物的相對位置關系。"

這種訓練方式的效果是漸進式的。AI最初可能只能粗略地描述"房間里有桌子和椅子"，但經過TRACE方法的訓練后，它能生成詳細的空間描述："長方形辦公室，主軸沿東西方向，辦公桌位于房間中央偏北[0.5, 2.0]位置，黑色皮質辦公椅位于桌子南側[0.5, 1.5]，椅子背靠南墻，垃圾桶位于房間西南角[-1.5, 1.5]，緊鄰墻角位置。"

四、在實際測試中的驚人表現

為了驗證TRACE方法的有效性，研究團隊在兩個專業的空間智能測試平臺上進行了大規模實驗：VSI-Bench和OST-Bench。這兩個測試平臺就像空間智能的"高考"，包含了各種復雜的3D空間推理題目。

VSI-Bench包含了5130道題目和288個真實室內環境視頻，涵蓋物體計數、距離測量、空間關系判斷等八大類任務。OST-Bench則有1386個場景和10165道題目，專門測試AI在動態環境中的空間理解能力。這些測試就像讓AI參加一場空間感知的奧林匹克競賽。

測試結果令人印象深刻。在最強大的Gemini 3 Pro模型上，TRACE方法將平均性能從52.61%提升到60.15%，提升幅度達到7.54個百分點。這相當于一個原本只能答對一半題目的學生，在使用新方法后能答對60%的題目。更重要的是，這種提升在各種不同規模和類型的AI模型上都能穩定實現。

在開源模型Qwen2.5-VL-72B上，TRACE方法將性能從36.28%提升到39.38%，提升了3.1個百分點。在更小的MiMo-VL-7B模型上，也實現了從39.79%到41.42%的穩步提升。這說明TRACE方法不是只對某種特定模型有效，而是具有廣泛的適用性。

更細致的分析顯示，TRACE方法在不同類型的空間任務上都有改進。在物體計數任務上，Gemini 3 Pro的準確率從33.77%提升到47.55%。在距離估算任務上，從32.57%提升到38.82%。在相對方向判斷任務上，從50.52%提升到61.70%。這種全面的性能提升表明，TRACE方法確實幫助AI建立了更好的空間理解能力。

研究團隊還進行了一項有趣的對比實驗：讓AI先生成TRACE描述，然后僅基于這個文字描述來回答空間問題，完全不看原始視頻。結果發現，僅基于TRACE描述的答題準確率與直接觀看視頻的準確率相當，這證明TRACE確實捕捉了視頻中的關鍵空間信息。

五、與其他方法的深度比較

為了更好地理解TRACE方法的優勢，研究團隊將其與多種現有的AI推理方法進行了詳細比較。這些對比方法包括思維鏈（Chain-of-Thought）、思維樹（Tree-of-Thought）、從簡到難（Least-to-Most）以及認知地圖（Cognitive Map）等經典方法。

思維鏈方法鼓勵AI一步步思考問題，就像學生解題時寫出詳細的解題過程。在一般的邏輯推理任務上，這種方法通常很有效。但在空間推理任務上，僅僅是步驟化思考還不夠，因為空間關系本身就是復雜的多維信息。

思維樹方法讓AI同時考慮多種可能的推理路徑，然后選擇最可靠的那一條。這就像在迷宮中同時嘗試多條路線，然后選擇最短的那條。雖然這種方法在某些復雜推理任務上表現出色，但在空間推理中，關鍵不是有多少種思考路徑，而是是否建立了正確的空間表征。

認知地圖方法與TRACE最為相似，它也試圖讓AI構建空間表征。但認知地圖使用的是簡化的10×10網格系統，就像用馬賽克拼圖來表示復雜的畫面。這種粗糙的表示方法在處理精確空間關系時就顯得力不從心。

相比之下，TRACE方法使用連續的坐標系統和詳細的物品描述，就像用高分辨率照片替代了馬賽克拼圖。比如在回答"哪把椅子離洗碗機最近"這樣的問題時，認知地圖方法只能粗略地判斷椅子和洗碗機在不同的網格中，而TRACE方法可以記錄每把椅子的精確坐標，比如"椅子01位于[1.1, 1.0]，椅子02位于[1.1, 1.5]"，然后精確計算距離。

實驗結果清晰地展示了這種差異的影響。在使用相同的測試條件下，TRACE方法比認知地圖方法的性能高出9.7個百分點，比空間描述方法高出3.53個百分點。這種顯著的性能差異驗證了精細化空間表征的重要性。

六、深入分析AI空間理解的瓶頸

為了更好地理解TRACE方法為什么有效，研究團隊還進行了一項深入的分解分析。他們將3D空間理解任務分解為兩個子任務：3D視覺感知和語言空間推理，然后分別測試不同AI模型在這兩個子任務上的能力。

這就像測試一個人的數學能力時，分別考察他的計算能力和邏輯推理能力一樣。3D視覺感知相當于"看懂空間布局"的能力，而語言空間推理相當于"基于空間信息進行邏輯推理"的能力。

分析結果揭示了一個有趣的現象：不同AI模型的瓶頸不同。Gemini 3 Pro在兩個子任務上都表現出色，這解釋了為什么它的整體空間推理能力最強。而Qwen系列模型在3D視覺感知上相對較弱，但在語言推理上的能力相對較好。這就像一個人的眼睛度數較高，但邏輯思維很清晰一樣。

更有趣的是，研究團隊發現，即使使用同樣的空間描述，專門的語言模型（Qwen2.5-72B）在空間推理上的表現竟然超過了多模態模型（Qwen2.5-VL-72B）。這個發現表明，當前的多模態訓練可能在某種程度上削弱了模型的空間推理能力，這是一個值得業界關注的重要發現。

研究團隊還測試了TRACE方法在不同復雜程度環境中的表現。他們使用了來自ARKitScenes、ScanNet和ScanNetPP三個不同數據集的室內環境，這些數據集代表了不同的掃描質量、環境復雜度和空間特征。結果顯示，TRACE方法在所有三種環境類型中都能穩定提升性能，證明了其良好的泛化能力。

在計算效率方面，TRACE方法的令牌使用量確實比簡單方法更高。在Gemini 3 Pro上，TRACE方法平均使用843.91個令牌，而直接方法只使用334.35個令牌。但考慮到性能的顯著提升，這種額外的計算成本是值得的。而且在較小的模型上，TRACE方法的令牌效率實際上比一些復雜的推理方法（如思維樹）更好。

七、方法的局限性和未來展望

研究團隊非常誠實地承認了TRACE方法目前的一些局限性。最主要的限制是，TRACE生成的是靜態的空間表征，就像拍攝了房間的一張快照，而不是實時的動態地圖。這在處理需要實時更新空間狀態的任務時可能會遇到困難。

比如在多輪對話的場景中，如果環境中的物品位置發生了變化，或者觀察者需要實時更新對自己位置的理解，靜態的TRACE表征就可能跟不上變化的步伐。這就像使用一張過時的地圖在不斷變化的城市中導航一樣。

另一個限制是，目前的TRACE方法依賴于AI模型自身來生成空間描述，而不是使用專門的視覺專家模型。這意味著生成的空間描述的質量完全依賴于底層模型的視覺理解能力。如果底層模型在3D視覺感知上有弱點，那么生成的TRACE描述質量也會受到影響。

研究團隊提出了幾個有希望的改進方向。首先是開發動態流式TRACE框架，能夠實時更新物品位置和攝像機軌跡，同時遞歸地調整觀察者在空間中的位置估計。這就像給TRACE配備一個實時更新的GPS系統。

其次是探索將TRACE與專門的視覺專家模型結合，比如使用專業的3D物體檢測和位姿估計模型來提供更準確的空間信息。這種結合可能會進一步提升TRACE描述的質量和可靠性。

研究團隊還計劃研究TRACE是否能作為一個通用的數據引擎，用于構建高質量的3D空間推理訓練數據。如果這個想法成功，TRACE不僅是一個推理方法，還可能成為訓練更好空間智能AI的數據生成工具。

八、對AI發展的深遠意義

TRACE方法的成功不僅僅是一個技術創新，它更代表了AI空間智能發展的一個重要方向轉變。傳統的方法試圖讓AI直接從原始感知數據中學會空間推理，就像讓人蒙著眼睛學習駕駛一樣困難。而TRACE方法則證明了，讓AI先學會構建明確的空間表征，再進行推理，是一條更有效的路徑。

這種思路的轉變具有更廣泛的啟發意義。它表明，在訓練AI處理復雜任務時，我們不應該期望AI能夠直接掌握端到端的能力，而應該借鑒人類認知的成功經驗，為AI構建結構化的中間表征。這就像教孩子數學時，我們不會期望他們直接掌握微積分，而是先教會他們基本的數字概念和運算規則。

TRACE方法的成功也為其他領域的AI研究提供了借鑒。比如在時間推理、因果關系理解、社交互動理解等領域，都可能存在類似的機會，通過構建明確的中間表征來提升AI的推理能力。

從實用角度來看，TRACE方法因為主要依賴文本描述而具有很好的可解釋性。當AI給出一個空間推理的答案時，我們可以查看它生成的TRACE描述，了解它是如何理解空間布局的，這種透明性對于AI的實際應用非常重要。

更重要的是，TRACE方法為現有的AI模型提供了一個即插即用的能力提升方案。它不需要重新訓練模型或修改模型架構，只需要改變提示詞就能獲得性能提升。這種低成本、高效果的改進方式對于AI技術的快速普及和應用具有重要意義。

說到底，這項研究告訴我們一個重要道理：有時候最好的創新不是發明全新的技術，而是找到更聰明的方法來使用現有技術。TRACE方法就是這樣一個例子，它沒有改變AI模型的內部結構，而是改變了AI思考問題的方式，就取得了顯著的效果提升。這種"軟件創新"的思路可能是未來AI發展的一個重要方向，值得研究者們更多關注和探索。

隨著越來越多的AI應用需要處理復雜的空間信息，從自動駕駛汽車到家庭服務機器人，從AR/VR應用到智能建筑管理，TRACE方法及其衍生技術有望在這些領域發揮重要作用。這項研究不僅推進了我們對AI空間智能的理解，也為構建更智能、更可靠的AI系統開辟了新的道路。

Q&A

Q1：TRACE方法是如何幫助AI理解空間關系的？

A：TRACE方法讓AI像人類一樣，先在"腦海"中構建完整的房間布局圖，包括詳細記錄房間形狀、攝像機移動路徑和所有物品的精確位置坐標，然后基于這個完整的空間地圖來回答問題，而不是直接從視頻畫面中尋找答案。

Q2：TRACE方法相比其他AI推理方法有什么優勢？

A：TRACE方法比傳統的思維鏈、思維樹等方法效果更好，在最強的Gemini 3 Pro模型上將空間推理準確率從52.61%提升到60.15%。關鍵優勢是使用精確的坐標系統而不是粗糙的網格，能處理更復雜精確的空間關系。

Q3：普通用戶能否使用TRACE方法提升AI的空間理解能力？

A：TRACE方法主要通過特殊的提示詞來引導AI思考，理論上可以應用于支持視頻輸入的大型AI模型。但目前還需要專業的技術知識來設計合適的提示詞，暫時不是普通用戶可以直接使用的功能。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.