![]()
這項由亞馬遜團隊領導的研究發表于2026年3月19日的計算機視覺會議論文集,論文編號為arXiv:2603.18795v1。感興趣的讀者可以通過該編號查詢完整論文。這項突破性研究首次讓大型視覺語言模型擁有了類似人類的"立體視覺"能力,能夠同時理解圖片中"是什么"和"在哪里"的問題。
當我們看到一張照片時,大腦會自動分析出畫面中有什么物體,這些物體分別在什么位置,哪個離我們更近,哪個更遠。這種能力對人類來說輕而易舉,但對AI來說卻一直是個巨大挑戰。目前的AI視覺模型雖然能夠準確識別出照片中有什么東西,卻很難判斷這些物體的空間位置關系。
亞馬遜研究團隊開發的Perceptio模型就像給AI安裝了一套全新的"視覺系統"。這套系統不僅能識別物體,還能生成詳細的深度圖和分割圖,告訴我們每個物體的精確輪廓和距離信息。這就好比給AI戴上了特殊的眼鏡,讓它既能看清楚"這是什么",又能判斷"這在哪里",甚至能回答"哪個更近"這樣的問題。
研究團隊的創新在于讓AI學會了一種特殊的"思考方式"。當AI看到一張圖片并收到問題時,它不再直接回答,而是先在內部生成一系列特殊的"感知標記"——包括物體輪廓標記和深度標記。這些標記就像是AI的"內心獨白",幫助它理解空間關系后再給出答案。這種方法被稱為"感知增強的思維鏈",讓AI的推理過程更加接近人類的視覺認知過程。
一、AI視覺的"近視眼"問題
現代的大型視覺語言模型就像是非常聰明但有些"近視"的學生。它們在語義理解方面表現出色,能夠準確識別圖片中的各種物體,描述復雜的場景,甚至進行深入的對話。然而,一旦涉及到空間關系的判斷,這些模型就顯得力不從心。
亞馬遜研究團隊通過一個名為BLINK的測試發現了這個問題的嚴重性。BLINK測試包含一些人類"眨眼間"就能完成的簡單空間判斷任務,比如指出照片中哪個物體離相機更近。令人驚訝的是,即使是目前最先進的AI模型,在這些測試中的表現也僅僅比隨機猜測稍好一些。這就像讓一個博學的教授去判斷桌子上哪個杯子離他更近,結果他卻答不上來一樣尷尬。
這種"語義強、空間弱"的現象其實有其深層原因。傳統的AI訓練主要依靠互聯網上的圖片和文字描述,這些描述往往關注的是"是什么"而不是"在哪里"。模型學會了將視覺特征轉換為語言描述,但在這個過程中,精確的空間信息往往被壓縮或丟失了。
更具體來說,目前的模型架構通常將圖片編碼成固定長度的特征向量,然后直接用這些向量來生成文字回答。這個過程就像把一幅立體的油畫壓縮成一行文字描述一樣,雖然能保留主要內容,但空間層次信息卻被抹平了。研究發現,即使是擁有260億參數的InternVL2.5模型,在HardBLINK的"距離判斷"任務中也只能達到33.1%的準確率,遠低于人類的表現水平。
二、給AI裝上"立體眼鏡"
Perceptio的核心創新就像給AI裝上了一副特殊的"立體眼鏡"。這副眼鏡有兩個特殊的鏡片:一個負責看清物體的精確輪廓,另一個負責感知深度距離。這兩個"鏡片"分別對應著語義分割和深度感知兩大核心技術。
語義分割"鏡片"的工作原理類似于給照片中的每個物體描邊。當AI看到一張包含多個物體的復雜場景時,這個功能會自動為每個物體生成精確的輪廓線,就像用不同顏色的筆在透明紙上勾勒出每個物體的邊界一樣。這種精確的輪廓信息幫助AI理解物體的確切形狀和邊界,為后續的空間推理提供了重要基礎。
深度感知"鏡片"則負責構建場景的三維結構。它會為圖片中的每個像素分配一個深度值,生成類似于地形圖的深度圖。在這張"地形圖"中,不同的顏色或亮度代表不同的距離,近處的物體顯示為高地,遠處的物體顯示為低地。通過這種方式,AI能夠理解場景的立體結構,判斷物體之間的前后關系。
研究團隊在實現這兩個功能時采用了一種巧妙的"標記化"策略。他們將復雜的分割圖和深度圖轉換成特殊的標記序列,就像把圖片信息"翻譯"成AI能夠理解的特殊語言。這些標記被直接嵌入到AI的文字生成過程中,形成了"分割標記-深度標記-文字回答"的特殊序列。
這種設計的精妙之處在于它遵循了人類視覺認知的自然規律。當人們看到一個復雜場景并被問及相關問題時,大腦會首先快速分析場景結構,識別物體輪廓,感知空間關系,然后基于這些感知信息來組織語言回答。Perceptio正是模擬了這個過程,讓AI在回答問題之前先"看清楚"場景的詳細結構。
三、深度信息的"數字化翻譯"
將連續的深度信息轉換成AI能理解的離散標記,這個過程就像把一幅連續色彩的油畫轉換成像素畫一樣。研究團隊采用了一種叫做VQ-VAE(矢量量化變分自編碼器)的技術來完成這個"翻譯"工作。
這個翻譯過程分為幾個步驟。首先,研究團隊使用專門的深度估計模型為每張訓練圖片生成高質量的深度圖。這些深度圖就像是場景的"等高線地圖",準確記錄了每個位置到相機的距離。然后,VQ-VAE會學習將這些連續的深度值"打包"成一本特殊的"詞典",這本詞典包含128個不同的深度"詞匯",每個詞匯代表一種特定的深度模式。
當AI需要描述一個場景的深度信息時,它會將深度圖分割成若干小塊,每個小塊都用詞典中最合適的"詞匯"來表示。這就像用有限的顏色塊來拼出一幅復雜的馬賽克畫一樣。雖然丟失了一些連續性的細節,但保留了足夠的信息來重構出原始深度圖的主要結構。
為了讓這個翻譯過程更加穩定可靠,研究團隊設計了三個特殊的訓練目標。第一個叫做"標記損失",確保AI生成正確的深度標記序列。第二個是"計數損失",保證生成的標記數量符合預期。第三個是"定位損失",確保深度標記出現在序列中的正確位置。這三個目標就像三個嚴格的老師,從不同角度監督AI學習正確的深度表達方式。
研究團隊還創新性地引入了"軟融合"技術來解決訓練過程中的一個技術難題。在傳統方法中,從連續深度圖到離散標記的轉換過程是不可微分的,這意味著訓練信號無法有效地傳遞回去改進模型。軟融合技術通過計算加權平均的方式,讓這個轉換過程變得平滑可微,從而實現了端到端的訓練優化。
四、多任務協同訓練的智慧
Perceptio的訓練過程就像培養一個全能型選手,需要在多個不同領域同時練習并達到專業水準。研究團隊設計了一套多任務協同訓練策略,讓AI同時學習語言理解、物體分割和深度感知三項核心技能。
這種訓練方式的挑戰在于平衡不同任務的重要性。研究團隊為每個任務設定了不同的權重,就像調配營養餐一樣精心搭配各種"營養元素"。語言生成任務作為基礎能力保持較高權重,而分割和深度任務的權重則根據實驗結果精心調節。最終的配方是:語言損失權重為1.0,分割重建損失權重為1.0,深度標記損失權重為1.0,深度重建損失權重也為1.0。
訓練數據的準備工作同樣精細入微。研究團隊構建了一個包含110萬樣本的綜合數據集,這個數據集就像一個豐富的"經驗庫",涵蓋了各種不同類型的視覺推理任務。其中包括66.5萬個來自LLaVA-1.5的圖像問答對話樣本,21.4萬個用于圖像級文本驅動分割的對話生成樣本,還有6萬個專門的感知標記數據集樣本。此外,團隊還特別制作了5.6萬個結合了分割、深度和文本的聯合數據集樣本。
在這個聯合數據集中,每個樣本都包含完整的"感知鏈條":原始圖片、對應的分割掩碼、深度信息和自然語言描述。這樣的設計讓AI能夠學習到這些不同模態信息之間的內在聯系,理解它們是如何相互支撐、共同構成完整視覺理解的。
訓練硬件配置也體現了這項研究的規模和復雜性。整個訓練過程在64塊NVIDIA A100 GPU上進行,持續約24小時。研究團隊采用了AdamW優化器,學習率設置為4×10??,有效批次大小為512。這些參數經過精心調試,確保模型能夠穩定地同時學習多個復雜任務。
五、令人矚目的性能突破
Perceptio在各項測試中的表現就像一個突然開竅的學生,在多個維度都實現了顯著提升。在最具挑戰性的referring expression segmentation(指稱表達分割)任務中,Perceptio-8B模型在RefCOCO、RefCOCO+和RefCOCOg三個數據集上分別達到了82.7%、77.9%和80.0%的cIoU得分,相比之前的最佳模型Sa2VA-8B分別提升了1.1、1.7和1.3個百分點。
這種提升的意義可以通過一個具體場景來理解:當你指著一張復雜的街道照片說"找出右邊穿紅衣服的那個人"時,Perceptio能夠更準確地定位并勾勒出該人物的精確輪廓。這種精確性的提升在實際應用中意味著更好的用戶體驗和更可靠的系統性能。
在空間推理能力方面,Perceptio的表現更是令人印象深刻。在HardBLINK的相對深度判斷任務中,當面對包含3個、4個和5個標記點的復雜場景時,Perceptio-8B分別達到了75.8%、71.0%和66.1%的準確率,平均準確率為71.0%。這相比之前的最佳模型LLaVA-Aurora提升了8.9、10.5和11.3個百分點,平均提升達到了10.3個百分點。這種大幅提升表明,顯式的深度感知確實為空間推理帶來了根本性改善。
在通用視覺語言理解任務上,Perceptio也保持了優秀表現。在MME基準測試中,Perceptio-8B在感知和認知兩個維度分別獲得了1654和628分的成績。在MMBench測試中達到了83.4%的準確率,在SEED-Bench中獲得75.7%的分數。這些結果表明,增加感知能力并沒有以犧牲原有語言理解能力為代價,反而在某種程度上增強了模型的綜合表現。
特別值得一提的是,Perceptio-4B這個較小的變體同樣表現出色,在多個測試中的成績甚至超過了一些更大參數量的競爭模型。這表明Perceptio的架構設計是高效的,不僅能在大模型中發揮作用,也能在資源受限的環境中提供良好性能。
六、創新方法的深入剖析
Perceptio的技術創新可以比作一套精密的視覺處理流水線。當一張圖片進入系統時,它會被分發到三個并行的處理通道:標準的圖像編碼通道、專門的分割感知通道和深度量化通道。這三個通道就像三個專業的技師,各自負責提取不同類型的視覺信息。
標準圖像編碼通道負責提取語義外觀特征,這些特征包含了物體的類別、顏色、紋理等基本視覺屬性。分割感知通道則使用凍結的SAM編碼器來生成分割感知的表示,這些表示特別擅長捕捉物體邊界和形狀信息。深度量化通道利用預訓練的VQ-VAE編碼器將圖片轉換成離散的深度標記序列。
這三路信息最終匯聚到核心的大語言模型中,形成一個統一的多模態表示。語言模型學會了如何協調使用這些不同類型的信息,在生成回答時首先輸出特殊的感知控制標記,然后基于這些"內部感知"來生成最終的文字回答。
損失函數的設計體現了研究團隊的深思熟慮。除了標準的語言建模損失外,系統還包含了分割重建損失和一套創新的深度損失函數。深度損失函數由三個組成部分:標記損失確保正確的深度標記被生成,計數損失保證標記序列長度的一致性,定位損失確保標記出現在正確的位置。這種多重約束的設計就像給AI安裝了多個"質量檢查員",從不同角度確保輸出的質量。
軟重建技術是另一個重要創新。傳統的離散化過程會阻斷梯度傳播,使得端到端訓練變得困難。研究團隊通過加權平均的方式創造了一個可微分的"軟"重建過程,讓訓練信號能夠有效地從最終的深度重建損失傳播回語言模型的參數。這種技術細節的創新雖然看似微小,卻是實現整個系統有效訓練的關鍵。
七、全面的實驗驗證與分析
研究團隊進行了詳盡的消融實驗來驗證每個設計組件的作用。這些實驗就像拆解一臺精密機器,逐一檢驗每個零件的功能和重要性。
首先,團隊驗證了雙重感知能力的必要性。當移除深度感知功能只保留2D分割時,模型在HardBLINK深度推理任務上的平均準確率從71.0%暴跌到45.2%,下降了25.8個百分點。這個巨大的性能落差清楚地表明,3D深度信息對于空間推理確實至關重要。
相反,當移除分割功能只保留3D深度感知時,模型在通用VQA任務上的表現出現了普遍下降:MME得分從1654/628下降到1620/585,MMBench準確率下降了1.6個百分點,SEED-Bench得分下降了2.3個百分點。這表明2D語義分割信息對于全面的視覺理解同樣不可或缺。
損失函數組件的消融實驗進一步證實了設計的合理性。移除深度重建損失后,MME得分下降到1625/613,MMBench準確率降至81.9%。移除深度標記生成損失時,MMBench準確率下降到82.4%,SEED-Bench得分從75.7%降至74.3%。這些結果表明,每個損失組件都在系統的整體性能中發揮著重要作用。
有趣的是,實驗還揭示了一個優化權衡的現象。當移除深度標記時,某些通用VQA指標實際上出現了輕微提升(如MMBench提升0.4%)。這表明深度標記生成與純文本任務之間存在一定的優化競爭。不過,考慮到深度感知帶來的巨大空間推理優勢,這種微小的通用任務性能波動是完全可以接受的。
推理效率的測試顯示,盡管Perceptio需要生成額外的感知標記,但實際的計算開銷極其有限。在密集標題生成任務中,Perceptio-8B每100個標記的生成時間為3.52秒,與Sa2VA-8B的3.53秒幾乎相同。浮點運算量對比也顯示了類似的結果(4.06T vs 4.66T FLOPs)。這意味著性能提升是通過更好的架構設計而非更多的計算資源實現的。
八、實際應用場景的廣闊前景
Perceptio的技術突破為多個實際應用領域打開了新的可能性。在自動駕駛領域,這種增強的空間感知能力可以幫助AI更準確地判斷道路上各種物體的距離和位置關系,從而做出更安全的駕駛決策。當AI能夠精確區分前方是一個真實的行人還是廣告牌上的人像時,這對行車安全的意義是不言而喻的。
在機器人導航和操作任務中,Perceptio的能力同樣具有重要價值。家用服務機器人需要準確理解家居環境中物體的空間排列,才能安全有效地完成諸如整理房間、端茶送水等任務。有了精確的深度感知和物體分割能力,機器人就能更好地規劃路徑,避免碰撞,并精確操作各種物品。
在增強現實和虛擬現實應用中,Perceptio技術可以實現更自然的人機交互。用戶可以通過自然語言描述來選擇和操作虛擬環境中的特定物體,而AI能夠準確理解用戶的意圖并定位到相應的虛擬物品。這種精確的空間理解能力將使AR/VR體驗變得更加直觀和沉浸。
醫療影像分析是另一個潛在的應用領域。雖然醫療影像通常需要專門的訓練,但Perceptio展示的空間推理能力為開發更智能的醫療AI助手提供了新思路。能夠準確分割和定位病灶區域的AI系統將為醫生提供更有價值的診斷支持。
在電商和零售領域,這種技術可以改善商品搜索和推薦體驗。消費者可以上傳一張包含多個物品的照片,然后用自然語言描述想要購買的特定物品,AI就能準確識別和定位目標商品。這種精確的視覺理解能力將使購物體驗變得更加便捷。
九、技術局限與未來發展方向
盡管Perceptio取得了顯著進展,但研究團隊也誠實地指出了當前方法的一些局限性。最明顯的是在優化權衡方面,深度標記生成與純文本任務之間存在輕微的競爭關系。這表明在多任務學習中仍需要更精細的平衡策略,可能需要開發任務自適應的課程學習方法來解決這個問題。
當前的系統架構還局限于靜態圖像處理,尚未擴展到視頻理解領域。在視頻場景中,時間一致性的深度標記和物體跟蹤將帶來新的技術挑戰。如何在保持空間精度的同時處理時間維度的復雜性,是一個值得深入探索的研究方向。
另一個重要局限是對教師模型的依賴。Perceptio目前依賴于凍結的專業教師模型(Depth Anything V2和SAM2),這些模型的誤差會傳播到學生模型中。開發更魯棒的學習策略來應對教師模型的噪聲,是提高系統實用性的關鍵。
在更廣闊的視角下,這項研究也啟發了關于通用空間智能的思考。未來的發展方向可能包括將感知標記擴展到編碼表面法線、光流等更豐富的空間信息,朝著統一的空間智能框架發展。這種框架將能夠在單一的自回歸框架內處理各種空間推理任務。
計算效率的進一步優化也是一個重要方向。雖然當前的額外計算開銷很小,但在大規模部署時,任何效率提升都具有重要意義。研究團隊提到了任務自適應課程學習的可能性,這種方法可能在保持性能的同時進一步提高訓練效率。
最后,如何將這種顯式的空間感知能力與更廣泛的常識推理相結合,仍然是一個開放的研究問題。真正的視覺智能不僅需要精確的感知能力,還需要理解物體之間的物理關系、功能關系和因果關系。
說到底,Perceptio的出現標志著AI視覺理解領域的一個重要里程碑。它首次成功地將2D語義分割和3D深度感知統一到了單一的自回歸語言模型中,讓AI獲得了更接近人類的視覺認知能力。這種"先感知,后推理"的設計理念不僅帶來了實質性的性能提升,更重要的是為構建真正智能的視覺系統指明了方向。
雖然還存在一些局限性,但這項研究已經證明了顯式空間感知對于視覺語言模型的重要性。隨著技術的不斷發展和完善,我們有理由期待看到更多能夠真正理解三維世界的AI系統出現。這些系統將不僅能夠看到世界的表面,更能夠理解世界的深層結構,從而為人類提供更智能、更可靠的視覺AI服務。對于有興趣深入了解技術細節的讀者,建議查閱完整的論文原文,論文編號為arXiv:2603.18795v1。
Q&A
Q1:Perceptio和傳統AI視覺模型有什么不同?
A:傳統AI視覺模型只能識別圖片中的物體類別,就像只能回答"這是什么"的問題。而Perceptio能同時理解"是什么"和"在哪里",它會先生成物體輪廓和深度信息的特殊標記,然后基于這些空間感知來回答問題,就像給AI裝上了立體眼鏡。
Q2:Perceptio的深度感知能力有多準確?
A:在HardBLINK空間推理測試中,Perceptio-8B達到了71.0%的平均準確率,相比之前最好的模型提升了10.3個百分點。這意味著它能正確判斷照片中哪個物體離相機更近的概率超過70%,這是一個顯著的突破。
Q3:Perceptio技術什么時候能應用到實際產品中?
A:目前Perceptio還在研究階段,但其技術原理已經為多個應用領域指明了方向,包括自動駕駛中的距離判斷、機器人導航、增強現實交互等。具體的產品化時間表還需要看后續的工程化進展和計算資源優化情況。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.