網易首頁 > 網易號 > 正文申請入駐

首爾大學開發新方法：讓AI更好理解圖像中的"整體與部分"關系

2026-04-01 22:40:13　來源: 科技行者

北京舉報

分享至

這項由首爾大學電子與計算機工程系、INMC及IPAI研究團隊共同完成的研究發表于2026年3月的arXiv預印本平臺，論文編號為arXiv:2603.22042v2。感興趣的讀者可以通過該編號查詢完整論文內容。

當我們看一張照片時，大腦會自然而然地理解整個場景以及場景中各個部分之間的關系。比如看到一張街道照片，我們能同時理解整個街景，也能識別出其中的汽車、行人、交通標志等各個元素，并且明白這些部分是如何組成整體的。然而，讓計算機也具備這種能力卻并不簡單。

目前最先進的視覺-語言模型（比如著名的CLIP）雖然表現出色，但在理解這種"整體與部分"的層次關系時仍然存在明顯不足。這就像一個只會死記硬背的學生，能夠記住很多信息，但不太懂得信息之間的內在聯系和層次結構。

為了解決這個問題，首爾大學的研究團隊提出了一種全新的方法，叫做"不確定性引導的組合式雙曲對齊"（UNCHA）。這個方法的核心思想是教會AI模型理解圖像中不同部分對整體場景的重要性是不同的。就好比在一張餐桌照片中，主菜比餐具更能代表這頓飯的特色，而餐具又比桌布更重要。

一、傳統方法的局限性：為什么現有AI"看不懂"層次關系

要理解這項研究的意義，我們首先需要明白現有AI模型在理解圖像時遇到的困難。傳統的視覺-語言模型通常使用歐幾里得空間來表示和處理信息，這就像在一張平面地圖上標記各種地點。雖然這種方法在很多任務上表現不錯，但在處理具有明顯層次結構的信息時就顯得力不從心了。

以家庭照片為例，當我們看到一張全家福時，我們的大腦會自動建立起層次關系：整張照片代表"家庭聚會"這個概念，而照片中的每個人臉、每個人的服裝、背景中的家具等都是這個大概念下的子概念。這種從整體到部分的層次結構在歐幾里得空間中很難得到準確表達，就像試圖在平面地圖上表示山峰的高度一樣困難。

更糟糕的是，現有模型往往把圖像中的所有部分都一視同仁。回到家庭照片的例子，模型可能把人臉和背景中的花瓶當作同等重要，這顯然與人類的直覺不符。在復雜的多物體場景中，這種問題變得更加突出，模型很容易被不重要的細節干擾，而忽略真正關鍵的信息。

研究團隊發現，CLIP等模型在處理組合關系時經常出現偏差。比如在描述"紅色的汽車在藍色房子前面"這樣的場景時，模型可能會過分關注文本中首先提到的物體（紅色汽車），而對空間關系的理解不夠準確。這種偏差在現實應用中會帶來明顯的問題。

二、雙曲空間：一個更適合表示層次關系的"新世界"

為了解決這些問題，研究團隊轉向了一種叫做雙曲空間的數學概念。如果說歐幾里得空間像一張平坦的紙，那么雙曲空間就像一個向外彎曲的馬鞍面。這種幾何結構有一個非常有趣的特性：越靠近中心，空間越"緊密"，越遠離中心，空間越"寬闊"。

這種特性使得雙曲空間天然適合表示層次結構。我們可以把更抽象、更一般的概念放在靠近中心的位置，把更具體、更詳細的概念放在遠離中心的位置。就像一棵倒置的樹：樹根（最抽象的概念）在中心，樹枝和葉子（具體的細節）向外延伸。

在處理圖像時，這意味著整體場景的表示會位于相對靠近中心的位置，而場景中的各個具體部分會分布在更遠的位置。更重要的是，雙曲空間的幾何特性允許我們自然地定義"包含"關系：如果一個概念包含另一個概念，那么被包含的概念會位于包含它的概念所形成的"錐形區域"內。

這種表示方法已經在一些研究中顯示出優勢。比如MERU模型首次將雙曲幾何引入視覺-語言學習，通過建模文本和圖像之間的"蘊含"關系來改善表示質量。后來的HyCoCLIP進一步擴展了這個思路，不僅考慮文本-圖像之間的關系，還考慮圖像內部部分與整體的關系。

然而，這些先前的方法都有一個重要的缺陷：它們把圖像中的所有部分都當作同等重要來處理。這就好比認為一幅風景畫中的主要山峰和角落里的一朵小花具有相同的重要性。現實中，不同的部分對整體的代表性是截然不同的，這種差異需要在模型中得到體現。

三、不確定性：衡量"代表性"的新尺度

首爾大學研究團隊的核心創新在于引入了"不確定性"這個概念來衡量圖像各部分對整體的代表性。這個想法其實很符合直覺：如果一個部分能夠很好地代表整個場景，那么我們對它的"確定性"就高；如果一個部分對整體場景的代表性較弱，我們的"不確定性"就高。

具體來說，在一張海灘度假照片中，陽光、沙灘、海水這些元素具有很高的代表性，所以模型對它們的不確定性應該較低。而照片角落里的一個飲料瓶，雖然也是場景的一部分，但代表性較弱，所以不確定性應該較高。

研究團隊巧妙地利用雙曲空間的幾何特性來實現這種不確定性的度量。在雙曲空間中，一個點到原點的距離（稱為雙曲半徑）可以自然地反映概念的抽象程度。距離原點越近，概念越抽象；距離越遠，概念越具體。研究團隊將這個距離轉換為不確定性的度量：距離原點較近的部分（更抽象，更有代表性）對應較低的不確定性，距離較遠的部分（更具體，代表性較弱）對應較高的不確定性。

這種設計還有一個重要的理論基礎：在雙曲幾何中，越靠近原點的區域，可利用的"空間"越小，這意味著只有真正重要的、高質量的表示才能占據這些珍貴的位置。就像城市的市中心，只有最重要的建筑才能建在那里。

為了驗證這種不確定性度量的有效性，研究團隊進行了大量實驗。他們發現，模型估計的不確定性與人類對部分-整體語義相似性的判斷有很強的負相關關系（相關系數達到-0.739）。這意味著當人類認為某個部分很能代表整體時，模型的不確定性確實較低；當人類認為某個部分代表性較弱時，模型的不確定性確實較高。

四、三種損失函數：讓AI學會"輕重緩急"

有了不確定性這個度量工具，下一步就是如何在訓練過程中利用它來改善模型性能。研究團隊設計了三種巧妙的損失函數，分別從不同角度引導模型學習合理的部分-整體關系。

第一種是不確定性引導的對比損失。傳統的對比學習方法會同等對待所有的部分，但新方法會根據不確定性來調整學習的"力度"。對于代表性強的部分（不確定性低），模型會給予更多關注，加強它們與整體的關聯；對于代表性弱的部分（不確定性高），模型會適度降低關注度。這就像一個智能的注意力機制，能夠自動聚焦于最重要的內容。

具體實現上，研究團隊通過調整對比學習中的溫度參數來實現這種不確定性引導。溫度參數控制著模型對相似性的敏感度：溫度較低時，模型對微小差異更敏感；溫度較高時，模型更寬容。對于不確定性高的部分，系統會使用較高的溫度，讓模型不要過分糾結于這些不太重要的細節；對于不確定性低的部分，系統使用較低的溫度，讓模型精確學習這些關鍵信息。

第二種是改進的蘊含損失。在雙曲空間中，"包含"關系可以通過幾何上的錐形區域來表示。如果概念A包含概念B，那么B應該位于以A為頂點的錐形區域內。研究團隊對傳統的蘊含損失進行了改進，增加了一個角度項，使得即使當B已經位于A的錐形區域內時，模型仍然會繼續優化它們的關系，追求更精確的對齊。這就像不滿足于"大概正確"，而要追求"精確無誤"。

第三種是不確定性校準損失，這是最具創新性的部分。這個損失函數包含三個組件，共同作用來校準不確定性的估計。首先，當部分與整體的蘊含關系較弱時，系統會鼓勵模型增加不確定性；其次，系統會防止模型為了減少損失而盲目分配過高的不確定性；最后，通過熵正則化項確保不確定性的分布保持多樣化，避免所有部分的不確定性都趨向于相同的值。

這種設計確保了不確定性的估計既準確又穩定。如果沒有這種校準機制，模型可能會學到一些"取巧"的策略，比如給所有部分都分配相同的高不確定性來避免犯錯，這顯然不是我們想要的結果。

五、實驗驗證：全方位的性能提升

為了驗證UNCHA方法的有效性，研究團隊在多個重要任務上進行了全面的實驗評估。這些實驗就像給新方法安排了一系列"考試"，從不同角度檢驗其能力。

在零樣本圖像分類任務中，UNCHA在16個標準數據集上都取得了最佳性能。這就像讓模型看從未見過的圖片類別，然后要求它正確分類。結果顯示，UNCHA在各種類型的數據集上都表現出色，包括通用數據集（如ImageNet）、細粒度數據集（如鳥類、汽車識別）和專業數據集（如醫學圖像）。特別值得注意的是，在一些具有挑戰性的細粒度分類任務上，UNCHA的改善尤為顯著。

在圖像-文本檢索任務中，UNCHA同樣展現出穩定的優勢。這個任務要求模型能夠準確理解圖像和文本之間的對應關系。結果表明，UNCHA不僅在傳統的檢索指標上表現更好，更重要的是在處理復雜的多物體場景時顯示出明顯優勢。這說明新方法確實改善了模型對組合關系的理解能力。

層次分類實驗進一步驗證了UNCHA在處理層次結構方面的優勢。研究團隊使用了基于WordNet層次結構的ImageNet數據集，評估模型是否能夠學到概念之間的層次關系。結果顯示，UNCHA在所有層次相關的指標上都取得了最佳成績，包括樹誘導誤差、最低公共祖先誤差、層次精確度和層次召回率等。

多標簽分類實驗著重測試了模型在復雜多物體場景中的表現。在MS-COCO和VOC數據集上，UNCHA都取得了最高的平均精度。更有說服力的是，在專門設計用于評估組合理解能力的ComCo和SimCo數據集上，UNCHA的優勢更加明顯。這些數據集包含了2-5個物體的復雜場景，要求模型能夠準確識別和理解所有物體及其關系。

研究團隊還進行了一項特別有趣的實驗：部分級別對齊評估。這個實驗使用了來自Densely Captioned Images數據集的精細標注，要求模型在存在"困難負樣本"的情況下正確匹配圖像區域和對應的文本描述。UNCHA在這個極具挑戰性的任務上也取得了最佳表現，證明了其在精細粒度理解方面的能力。

六、深入分析：為什么UNCHA如此有效

為了更好地理解UNCHA為什么如此有效，研究團隊進行了詳細的分析實驗。這些分析就像解剖麻雀一樣，幫助我們理解新方法的內在機制。

首先，研究團隊可視化了雙曲嵌入空間的使用情況。結果顯示，與之前的方法相比，UNCHA能夠更好地利用雙曲空間的特性。在傳統方法中，大部分表示都聚集在靠近原點的狹小區域內，就像所有人都擠在一個小房間里。而UNCHA的表示分布更加合理：整體場景表示位于相對遠離原點的位置，部分表示位于更靠近原點的位置，兩者之間有清晰的分離。這種分布更好地體現了雙曲空間的層次結構特性。

其次，消融實驗驗證了每個組件的必要性。當研究團隊移除不確定性引導的對比損失時，模型在關系對齊方面的表現明顯下降。當移除不確定性校準損失時，嵌入分布變得過于集中，表示能力受到限制。當移除熵正則化項時，不確定性的分布變得不夠多樣化。這些結果表明，UNCHA的每個組件都發揮著不可替代的作用。

梯度分析揭示了各個損失函數之間的相互作用。結果顯示，不確定性校準損失與蘊含損失的梯度方向相反，這表明前者確實起到了正則化的作用，防止表示空間的坍塌。而不確定性引導的對比損失與標準對比損失的梯度方向基本一致，但強度更加合理，這解釋了為什么新方法能夠保持對比學習的優勢同時避免其缺陷。

超參數敏感性分析表明，UNCHA對主要超參數的選擇相對穩健。在較寬的參數范圍內，模型都能保持穩定的性能，這對實際應用來說是一個重要優勢。這說明新方法不是依賴于精細的參數調整來獲得好結果，而是在算法層面就具有良好的特性。

最后，研究團隊還展示了不確定性排序的定性結果。他們將同一張圖像的不同部分按照不確定性從低到高排列，結果與人類的直覺高度一致。代表性強的部分（如主體物件、關鍵特征）確實具有較低的不確定性，而背景噪聲、模糊區域等則具有較高的不確定性。這種一致性進一步驗證了UNCHA的合理性。

七、技術創新的深層意義

UNCHA的成功不僅僅在于性能數字的提升，更重要的是它為視覺-語言理解提供了一種全新的思路。這種思路的核心在于認識到"不是所有的部分都同等重要"這個樸素但深刻的事實。

從技術角度來看，UNCHA實現了三個重要突破。首先，它提供了一種自然而有效的方法來量化部分對整體的代表性。這種量化不是基于人工設計的規則，而是從數據中自動學習得到的，因此更具普適性。其次，它成功地將這種代表性信息整合到模型的學習過程中，實現了"因材施教"式的訓練。最后，它在保持模型復雜度基本不變的情況下顯著提升了性能，這對實際應用具有重要價值。

從更廣闊的視角來看，UNCHA體現了一種重要的設計哲學：讓AI系統的學習過程更接近人類的認知過程。人類在理解復雜場景時，會自然地建立層次結構，區分主次關系。UNCHA通過技術手段模擬了這種認知特性，使AI模型能夠更好地理解世界的復雜性。

這種思路對其他AI領域也有啟發意義。比如在自然語言處理中，句子中的不同詞語對整體語義的貢獻也是不同的；在時間序列分析中，不同時間點的重要性也存在差異。UNCHA提出的不確定性引導學習框架可能在這些領域也有應用潛力。

八、實際應用前景與挑戰

UNCHA的技術優勢為多個實際應用領域帶來了新的可能性。在圖像搜索和內容推薦方面，更準確的層次理解能力意味著系統能夠更好地理解用戶的真實意圖。比如當用戶搜索"海灘度假照片"時，系統不會被照片中的無關細節誤導，而能夠準確聚焦于真正體現度假主題的元素。

在自動駕駛和機器人視覺方面，準確的部分-整體關系理解對安全至關重要。UNCHA能夠幫助系統更好地區分場景中的關鍵要素（如道路、車輛、行人）和次要背景（如路邊的廣告牌、遠處的建筑），從而做出更準確的決策。

在醫學圖像分析領域，UNCHA的層次理解能力可能有助于更準確的疾病診斷。醫學圖像通常包含大量細節，但只有其中一部分與特定疾病相關。UNCHA能夠幫助系統自動識別這些關鍵區域，減少誤診的風險。

不過，UNCHA也面臨一些挑戰。首先是計算復雜度問題。雖然新方法沒有顯著增加模型參數，但雙曲幾何運算比歐幾里得運算更復雜，這可能在大規模應用中帶來效率挑戰。其次是可解釋性問題。雖然不確定性提供了一定的可解釋性，但對于普通用戶來說，理解雙曲空間中的表示仍然有一定難度。

另外，當前的評估主要集中在相對標準化的數據集上，在更復雜、更多樣化的真實世界場景中的表現還需要進一步驗證。特別是在處理一些文化差異、語言差異等方面，模型的泛化能力還有待觀察。

九、未來發展方向

基于UNCHA的成功，研究團隊和整個領域都可以在多個方向繼續探索。首先是將不確定性引導的思想擴展到更多模態。除了視覺和文本，音頻、視頻等其他模態也存在類似的層次結構問題，UNCHA的方法論可能在這些領域也有應用價值。

其次是探索更高效的雙曲幾何運算方法。隨著專門的硬件支持和優化算法的發展，雙曲模型的計算效率有望得到顯著提升。這將為UNCHA在實際應用中的部署掃除技術障礙。

另一個有趣的方向是結合大語言模型的能力。當前的大語言模型在文本理解方面表現出色，如果能夠將UNCHA的視覺理解能力與強大的語言理解能力結合起來，可能會產生更強大的多模態AI系統。

研究團隊還提到了將不確定性概念擴展到時序建模的可能性。在視頻理解、機器人導航等涉及時間序列的任務中，不同時刻的重要性也存在差異，不確定性引導的方法可能在這些領域也能發揮作用。

最后，從更根本的角度來看，UNCHA開啟了一個新的研究方向：如何讓AI系統更好地理解和模擬人類的認知結構。這不僅僅是技術問題，也涉及認知科學、心理學等多個學科的交叉研究。

說到底，UNCHA代表的不僅僅是一種新的技術方法，更是一種新的思考方式：承認復雜性，擁抱不確定性，追求更細致、更人性化的AI理解能力。在AI技術日新月異的今天，這種回歸認知本質的思路顯得尤為珍貴。對于普通用戶而言，這意味著未來的AI系統將能夠更準確地理解我們的圖像和需求，提供更貼心、更精準的服務。對于研究者而言，UNCHA提供了一個新的工具箱和思路，可能催生更多突破性的研究成果。無論從哪個角度來看，這都是一項值得關注和期待的重要進展。

Q&A

Q1：UNCHA是什么技術？

A：UNCHA是首爾大學開發的"不確定性引導的組合式雙曲對齊"技術，它能讓AI更好地理解圖像中整體與部分的關系。這項技術使用雙曲空間而非傳統的平面空間來表示信息，并引入不確定性概念來衡量圖像各部分對整體的代表性，就像教會AI區分一張照片中哪些元素重要、哪些不重要。

Q2：雙曲空間與傳統歐幾里得空間有什么區別？

A：雙曲空間就像一個向外彎曲的馬鞍面，而歐幾里得空間像平坦的紙張。雙曲空間的特殊之處在于越靠近中心空間越緊密，越遠離中心空間越寬闊，這種特性天然適合表示層次關系。在處理圖像時，抽象的整體概念位于中心附近，具體的部分細節分布在外圍，形成清晰的層次結構。

Q3：UNCHA技術能應用在哪些實際場景中？

A：UNCHA在多個領域都有應用潛力。在圖像搜索中，它能更準確理解用戶意圖，不被無關細節誤導；在自動駕駛中，它能幫助系統區分關鍵要素和次要背景，提高安全性；在醫學圖像分析中，它能自動識別與疾病相關的關鍵區域，減少誤診風險；在內容推薦系統中，它能更好地理解圖像內容，提供更精準的推薦。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.