337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

精準識別界門綱目科屬種!北大彭宇新團隊用細粒度樹先驗提升泛化

0
分享至

MIPL團隊 投稿
量子位 | 公眾號 QbitAI

一張藍錐嘴雀的圖片,你能認出它是“鳥”,但能認出它是“鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀”嗎?

像大多數人一樣,現在的多模態大模型也認不出來。



真實世界中的對象通常包含極其豐富的類別層次,形成類別樹結構。比如藍錐嘴雀是:動物界-脊索動物門-鳥綱-雀形目-唐納雀科-錐嘴雀屬-藍錐嘴雀(界-門-綱-目-科-屬-種)。

區別于傳統的細粒度視覺識別,分層視覺識別旨在預測所屬的所有類別層次,而不僅僅預測最終的細粒度類別。盡管現有Finedefics、Fine-R1等生成式大模型在細粒度視覺識別任務上表現出色,但由于缺乏類別樹知識,無法從粗到細實現每一層的精準識別

同時,采用分層類別標簽對比學習得到的判別式大模型(如BioCLIP、BioCLIP2、BioCAP等),其表征空間已能充分編碼類別樹中的類間關系與類內關系。基于上述發現,本文利用判別式大模型的表征指導生成式大模型的學習,為多模態大模型學習類別樹提供了新路徑。



本文是北京大學彭宇新教授團隊在細粒度多模態大模型領域的最新研究成果,相關論文已被CVPR 2026接收,并已開源

背景

盡管現有多模態大模型在細粒度視覺識別上的準確率取得明顯提升,但在依賴類別樹知識的分層視覺識別任務上,仍無法從粗到細實現每一層的精準識別。具體地,存在如下3點挑戰:

1. 同層判別性差:對于更粗粒度的類別層次,“類內差異大”更加突出,模型傾向于學習類別共性;對于更細粒度的類別層次,“類間差異小”更加突出,模型傾向于學習類別差異。兩者的矛盾導致模型難以從粗到細區分每一層的相似類別

2. 跨層一致性差:由于模型缺乏類別樹知識,難以保證任意相鄰層次的預測類別滿足父子節點關系。例如,預測結果為“鸚鵡目-裸鼻雀科”,但兩者不滿足父子節點關系,“裸鼻雀科”應該屬于“雀形目”。

3. 新類泛化性差:現有模型傾向于挖掘不同細粒度子類別的差異,忽略了對其共性的總結(用于識別其父節點的辨識性特征),難以準確識別從未見過的新類別



△圖1. 研究背景

針對上述問題,北京大學彭宇新教授團隊提出了分類感知表征對齊方法(Taxonomy-Aware Representation Alignment,TARA),用于將類別樹結構知識注入多模態大模型。通過將大模型與生物基礎模型的視覺表征對齊,促進大模型提取具備完整類別樹結構的視覺表征。同時,通過將大模型輸出答案的首個詞元表征與經生物基礎模型編碼后的真實類別表征對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。

實驗結果表明,本方法不僅能增強現有大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

技術方案

為向多模態大模型注入類別樹結構知識,本文提出了分類感知表征對齊方法TARA。如圖2所示,TARA包含2個主要部分:

1. 分層視覺表征對齊:通過將大模型中間層與生物基礎模型最后一層的視覺表征對齊,促進大模型提取具備完整類別樹結構的視覺表征。

2. 自由粒度類別表征對齊:通過將大模型輸出答案的首個詞元表征與經生物基礎模型編碼后的真實類別表征對齊,促進大模型根據指定的層次,將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。

具體如下:



△圖2. 分類感知表征對齊方法(TARA)框架圖

1. 分層視覺表征對齊。

經分層類別標簽訓練的生物基礎模型(例如, BioCLIP、BioCLIP2、BioCAP等)能提供包含分類學信息的監督信號,促進大模型提取具備完整類別樹結構的視覺表征。具體地,給定輸入圖像I和識別特定層次類別的問題q(例如,“圖中動物屬于什么門/綱/目/科/屬/種?從如下選項中選擇:[真實類別,相似類別1,相似類別2,相似類別3]”),生物基礎模型的視覺編碼器εv(·)輸出目標視覺特征img=εv(I)∈RN×d,其中d表示生物基礎模型的特征維度。大語言模型第?層的視覺表征表示為?img∈RN×D,采用可學習的映射層PV(·)將其映射到生物基礎模型的視覺特征空間,并最小化如下對齊損失:



2. 自由粒度類別表征對齊。

一張圖像同時對應不同層次的類別標簽,但用戶期望識別的類別層次是不同的。例如,專家可能希望在“種”層次上將對象識別為阿卡迪亞霸鹟,而普通用戶只需要在“綱”層次上將其識別為鳥。通過在同一層次上對齊生物基礎模型和大模型的類別文本表征,促進大模型將具備完整類別樹結構的視覺表征映射為對應層次的類別名稱。具體地,生物基礎模型的文本編碼器ET(·)輸出目標文本特征ylabel=ET(C)∈Rd,其中C表示在期望層次上的真實類別名稱。大語言模型第m層的答案表征序列表示為emanswer∈RN′×D,采用可學習的映射層PT(·)將答案的首個詞元表征映射到生物基礎模型的文本特征空間,并最小化如下對齊損失:



最終,TARA的對齊損失定義為兩者的均值:

3. 模型訓練和推理:

在訓練階段,采用無需思考的強化微調(No Thinking RFT)和TARA交替優化大模型、映射層PV(·)與PT(·),促進大模型適配分層視覺識別指令的同時學習類別樹知識。在推理階段,生物基礎模型和映射層PV(·)與PT(·)均不參與運算,直接由優化后的大模型進行識別。

實驗結果



△表1. iNaturalist-Plant與iNaturalist-Animal分層視覺識別結果

表1展示了在iNaturalist-Plant與iNaturalist-Animal上的分層視覺識別結果。本方法不僅能增強多種大模型的細粒度視覺識別能力,提升最終的細粒度類別的識別準確率,還能增強分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。



△表2. TerraIncognita的新類別(已有類別樹之外的類別)分層視覺識別結果

表2展示了在TerraIncognita的新類別(已有類別樹之外的類別)的分層視覺識別結果。這部分新類別不僅是模型強化微調訓練集中未見類別,更是稀有或記錄極少的物種圖像,在公開數據中幾乎沒有或完全沒有可用樣本,更不可能出現在模型的預訓練數據中

對于其中許多樣本,很可能是科學界尚未正式描述的新物種,目前只能可靠地確定其較高層次的分類標簽(如“目”和“科”)。本方法通過引入類別樹先驗,促進模型學習子類別的共性,從而總結出用于識別父類別的判別性特征,提升已知類別樹之外的新類別的識別準確率。



△圖3. 分類感知表征對齊方法(TARA)案例展示

圖3的案例展示表明,相比阿里的Qwen3-VL-2B大模型,本方法能提升同層判別性與跨層一致性,既區分開同一層的相似類別,又確保相鄰層次的預測類別滿足父子節點關系。

項目價值

針對現有多模態大模型缺乏類別樹知識,無法從粗到細實現每一層的精準識別的問題,本文提出了分類感知表征對齊方法TARA,通過對齊大模型與生物基礎模型的中間表征,注入類別樹結構知識,不僅能提升最終的細粒度類別的識別準確率,還能增強大模型的分層視覺識別能力,從粗到細提升類別樹上每一層的識別準確率。

論文標題:
Taxonomy-Aware Representation Alignment for Hierarchical Visual Recognition with Large Multimodal Models
論文鏈接:
https://arxiv.org/abs/2603.00431
開源代碼:
https://github.com/PKU-ICST-MIPL/TARA_CVPR2026
實驗室網址:
https://www.wict.pku.edu.cn/mipl

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
打麻將時,有哪四張牌打死都不能打,一打準輸錢,不是迷信

打麻將時,有哪四張牌打死都不能打,一打準輸錢,不是迷信

云隱南山
2026-03-15 20:51:56
臺灣政壇大地震!民眾黨數百人集體退黨,柯文哲黃國昌遭遇生死劫

臺灣政壇大地震!民眾黨數百人集體退黨,柯文哲黃國昌遭遇生死劫

斜煙風起雨未
2026-03-20 19:58:25
潮汕孕婦被小姑子潑尿,監控曝光,痛斥婆家欺負人,丈夫狠心冷漠

潮汕孕婦被小姑子潑尿,監控曝光,痛斥婆家欺負人,丈夫狠心冷漠

離離言幾許
2026-03-20 17:37:37
2013年,7名美艷少婦自愿與禿頭大爺發生關系,警方調查:不簡單

2013年,7名美艷少婦自愿與禿頭大爺發生關系,警方調查:不簡單

談史論天地
2026-02-26 08:29:54
美媒分析:伊森已打完火箭最后賽季&為追求高薪和首發夏天會離隊

美媒分析:伊森已打完火箭最后賽季&為追求高薪和首發夏天會離隊

春日筆記
2026-03-22 01:58:36
第八波反制來了, 巴方請求中方高抬貴手, 巴方的要求, 中方接受不了

第八波反制來了, 巴方請求中方高抬貴手, 巴方的要求, 中方接受不了

健身狂人
2026-03-20 19:36:26
集團欠薪2年,又通知全員待崗!

集團欠薪2年,又通知全員待崗!

黯泉
2026-03-21 12:11:58
普京:俄羅斯是伊朗艱難時刻的忠實伙伴

普京:俄羅斯是伊朗艱難時刻的忠實伙伴

財聯社
2026-03-21 17:46:06
給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

給人養了7年閑人,廣汽終于要關閉洛杉磯的研發中心

與車同樂
2025-12-04 10:05:02
人不會平白無故患帶狀皰疹!醫生強調:得帶狀皰疹,多半有4共性

人不會平白無故患帶狀皰疹!醫生強調:得帶狀皰疹,多半有4共性

39健康網
2026-03-02 19:50:47
瞞不住了!小S哭癱陳建州家門口,被架進家里過夜,疑與丈夫分居

瞞不住了!小S哭癱陳建州家門口,被架進家里過夜,疑與丈夫分居

老黯談娛
2026-03-20 17:39:56
因為伊朗,萬斯十分痛苦,或放棄2028年大選,讓一個人撿了便宜!

因為伊朗,萬斯十分痛苦,或放棄2028年大選,讓一個人撿了便宜!

阿龍聊軍事
2026-03-21 22:24:56
中國冰壺女隊6勝6負收官,無緣世錦賽淘汰賽

中國冰壺女隊6勝6負收官,無緣世錦賽淘汰賽

懂球帝
2026-03-21 12:36:25
馬斯克語出驚人:“日本若繼續這樣下去,遲早會從世界上消失!”

馬斯克語出驚人:“日本若繼續這樣下去,遲早會從世界上消失!”

忠于法紀
2025-11-29 22:02:53
一場4:1讓國足付出巨大代價,遭遇致命重創,取勝庫拉索基本沒戲

一場4:1讓國足付出巨大代價,遭遇致命重創,取勝庫拉索基本沒戲

零度眼看球
2026-03-21 06:51:59
明確規定來了!機關事業單位職工下班后打牌打麻將,算違紀嗎?

明確規定來了!機關事業單位職工下班后打牌打麻將,算違紀嗎?

長星寄明月
2026-01-24 11:26:06
轟15分11助10板!在場贏32分,球迷:郭士強慧眼識珠

轟15分11助10板!在場贏32分,球迷:郭士強慧眼識珠

體育哲人
2026-03-21 13:30:21
炸裂!東契奇前未婚妻被爆私下約會!還要高額撫養費!

炸裂!東契奇前未婚妻被爆私下約會!還要高額撫養費!

柚子說球
2026-03-21 17:35:42
“梅姨”落網,律師:很可能被判死刑!多名受害者發聲:等這一天等了十多年

“梅姨”落網,律師:很可能被判死刑!多名受害者發聲:等這一天等了十多年

上觀新聞
2026-03-21 15:16:04
反超華為4291億!中國第一大民企狂攬1.3萬億,大佬再次“封神”

反超華為4291億!中國第一大民企狂攬1.3萬億,大佬再次“封神”

毒sir財經
2026-03-21 17:16:45
2026-03-22 05:11:00
量子位 incentive-icons
量子位
追蹤人工智能動態
12320文章數 176418關注度
往期回顧 全部

科技要聞

宇樹招股書拆解,人形機器人出貨量第一!

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

頭條要聞

伊朗發射3800公里射程的導彈 最令美軍戰栗的細節披露

體育要聞

誰在決定字母哥未來?

娛樂要聞

田栩寧終于涼了?出軌風波影響惡劣

財經要聞

通脹警報拉響,加息潮要來了?

汽車要聞

小鵬汽車2025年Q4盈利凈賺3.8億 全年營收767億

態度原創

本地
手機
旅游
公開課
軍事航空

本地新聞

春色滿城關不住|紹興春日頂流,這片櫻花海藏不住了

手機要聞

終端市場集體喊“漲” 手機面板持續走“跌”

旅游要聞

【花Young貴陽】春日限定!十里河灘海棠花盛開引客來

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

特朗普:正考慮逐步降級對伊朗的軍事行動

無障礙瀏覽 進入關懷版