MIPL團隊 投稿
量子位 | 公眾號 QbitAI
一張藍錐嘴雀的圖片,你能認出它是“鳥”,但能認出它是“鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀”嗎?
像大多數人一樣,現在的多模態大模型也認不出來。
![]()
真實世界中的對象通常包含極其豐富的類別層次,形成類別樹結構。比如藍錐嘴雀是:動物界-脊索動物門-鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀(界-門-綱-目-科-屬-種)。
區別于傳統的細粒度視覺識別,分層視覺識別旨在預測所屬的所有類別層次,而不僅僅預測最終的細粒度類別。盡管現有Finedefics、Fine-R1等生成式大模型在細粒度視覺識別任務上表現出色,但由于缺乏類別樹知識,無法從粗到細實現每一層的精準識別。
同時,采用分層類別標簽對比學習得到的判別式大模型(如BioCLIP、BioCLIP2、BioCAP等),其表征空間已能充分編碼類別樹中的類間關系與類內關系。基于上述發現,本文利用判別式大模型的表征指導生成式大模型的學習,為多模態大模型學習類別樹提供了新路徑。
![]()
本文是北京大學彭宇新教授團隊在細粒度多模態大模型領域的最新研究成果,相關論文已被CVPR 2026接收,并已開源。
背景
盡管現有多模態大模型在細粒度視覺識別上的準確率取得明顯提升,但在依賴類別樹知識的分層視覺識別任務上,仍無法從粗到細實現每一層的精準識別。具體地,存在如下3點挑戰:
1. 同層判別性差:對于更粗粒度的類別層次,“類內差異大”更加突出,模型傾向于學習類別共性;對于更細粒度的類別層次,“類間差異小”更加突出,模型傾向于學習類別差異。兩者的矛盾導致模型難以從粗到細區分每一層的相似類別。
2. 跨層一致性差:由于模型缺乏類別樹知識,難以保證任意相鄰層次的預測類別滿足父子節點關系。例如,預測結果為“鸚鵡目-裸鼻雀科”,但兩者不滿足父子節點關系,“裸鼻雀科”應該屬于“雀形目”。
3. 新類泛化性差:現有模型傾向于挖掘不同細粒度子類別的差異,忽略了對其共性的總結(用于識別其父節點的辨識性特征),難以準確識別從未見過的新類別。
![]()
△圖1. 研究背景
針對上述問題,北京大學彭宇新教授團隊提出了分類感知表征對齊方法(Taxonomy-Aware Representation Alignment,TARA),用于將類別樹結構知識注入多模態大模型。通過將大模型與生物基礎模型的視覺表征對齊,促進大模型提取具備完整類別樹結構的視覺表征。同時,通過將大模型輸出答案的首個詞元表征與經生物基礎模型編碼后的真實類別表征對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。
實驗結果表明,本方法不僅能增強現有大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。
技術方案
為向多模態大模型注入類別樹結構知識,本文提出了分類感知表征對齊方法TARA。如圖2所示,TARA包含2個主要部分:
1. 分層視覺表征對齊:通過將大模型中間層與生物基礎模型最后一層的視覺表征對齊,促進大模型提取具備完整類別樹結構的視覺表征。
2. 自由粒度類別表征對齊:通過將大模型輸出答案的首個詞元表征與經生物基礎模型編碼后的真實類別表征對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。
具體如下:
![]()
△圖2. 分類感知表征對齊方法(TARA)框架圖
1. 分層視覺表征對齊。
經分層類別標簽訓練的生物基礎模型(例如, BioCLIP、BioCLIP2、BioCAP等)能提供包含分類學信息的監督信號,促進大模型提取具備完整類別樹結構的視覺表征。具體地,給定輸入圖像I和識別特定層次類別的問題q(例如,“圖中動物屬于什么門/綱/目/科/屬/種?從如下選項中選擇:[真實類別,相似類別1,相似類別2,相似類別3]”),生物基礎模型的視覺編碼器εv(·)輸出目標視覺特征img=εv(I)∈RN×d,其中d表示生物基礎模型的特征維度。大語言模型第?層的視覺表征表示為?img∈RN×D,采用可學習的映射層PV(·)將其映射到生物基礎模型的視覺特征空間,并最小化如下對齊損失:
![]()
2. 自由粒度類別表征對齊。
一張圖像同時對應不同層次的類別標簽,但用戶期望識別的類別層次是不同的。例如,專家可能希望在“種”層次上將對象識別為阿卡迪亞霸鹟,而普通用戶只需要在“綱”層次上將其識別為鳥。通過在同一層次上對齊生物基礎模型和大模型的類別文本表征,促進大模型將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。具體地,生物基礎模型的文本編碼器ET(·)輸出目標文本特征ylabel=ET(C)∈Rd,其中C表示在期望層次上的真實類別名稱。大語言模型第m層的答案表征序列表示為emanswer∈RN′×D,采用可學習的映射層PT(·)將答案的首個詞元表征映射到生物基礎模型的文本特征空間,并最小化如下對齊損失:
![]()
最終,TARA的對齊損失定義為兩者的均值:
3. 模型訓練和推理:
在訓練階段,采用無需思考的強化微調(No Thinking RFT)和TARA交替優化大模型、映射層PV(·)與PT(·),促進大模型適配分層視覺識別指令的同時學習類別樹知識。在推理階段,生物基礎模型和映射層PV(·)與PT(·)均不參與運算,直接由優化后的大模型進行識別。
實驗結果
![]()
△表1. iNaturalist-Plant與iNaturalist-Animal分層視覺識別結果
表1展示了在iNaturalist-Plant與iNaturalist-Animal上的分層視覺識別結果。本方法不僅能增強多種大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。
![]()
△表2. TerraIncognita的新類別(已有類別樹之外的類別)分層視覺識別結果
表2展示了在TerraIncognita的新類別(已有類別樹之外的類別)的分層視覺識別結果。這部分新類別不僅是模型強化微調訓練集中未見類別,更是稀有或記錄極少的物種圖像,在公開數據中幾乎沒有或完全沒有可用樣本,更不可能出現在模型的預訓練數據中。
對于其中許多樣本,很可能是科學界尚未正式描述的新物種,目前只能可靠地確定其較高層次的分類標簽(如“目”和“科”)。本方法通過引入類別樹先驗,促進模型學習子類別的共性,從而總結出用于識別父類別的判別性特征,提升已知類別樹之外的新類別的識別準確率。
![]()
△圖3. 分類感知表征對齊方法(TARA)案例展示
圖3的案例展示表明,相比阿里的Qwen3-VL-2B大模型,本方法能提升同層判別性與跨層一致性,既區分開同一層的相似類別,又確保相鄰層次的預測類別滿足父子節點關系。
項目價值
針對現有多模態大模型缺乏類別樹知識,無法從粗到細實現每一層的精準識別的問題,本文提出了分類感知表征對齊方法TARA,通過對齊大模型與生物基礎模型的中間表征,注入類別樹結構知識,不僅能提升最終的細粒度類別的識別準確率,還能增強大模型的分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。
論文標題:
Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
論文鏈接:
https://arxiv.org/abs/2603.00431
開源代碼:
https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
實驗室網址:
https://www.wict.pku.edu.cn/mipl
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.