337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

多模態(tài)檢索新突破,用軟標簽打破傳統(tǒng)剛性映射約束,全面超越CLIP

0
分享至

UniME-V2團隊 投稿
量子位 | 公眾號 QbitAI

統(tǒng)一多模態(tài)嵌入模型是眾多任務(wù)的技術(shù)基石。

當前主流方法通常采用批內(nèi)負例挖掘策略,通過計算查詢-候選對的相似度進行訓(xùn)練。

但這類方法存在明顯局限:難以捕捉候選樣本間細微的語義差異,負例樣本多樣性不足,且模型在區(qū)分錯誤負例與困難負例時的判別能力有限。

針對這些問題,團隊提出全新解決方案——基于多模態(tài)大模型語義理解能力的統(tǒng)一多模態(tài)嵌入模型UniME-V2。

該方法首先通過全局檢索構(gòu)建潛在困難負例集,隨后創(chuàng)新性地引入“MLLM-as-a-Judge”機制:利用MLLM對查詢-候選對進行語義對齊評估,生成軟語義匹配分數(shù)。

這一設(shè)計帶來三重突破:

  • 以匹配分數(shù)為依據(jù)實現(xiàn)精準困難負例挖掘,有效規(guī)避錯誤負例干擾
  • 確保篩選出的困難負例兼具多樣性與高質(zhì)量特性
  • 通過軟標簽機制打破傳統(tǒng)一對一的剛性映射約束



通過將模型相似度矩陣與軟語義匹配分數(shù)矩陣對齊,使模型真正學(xué)會辨析候選樣本間的語義差異,顯著提升判別能力。

為進一步提升性能,團隊基于挖掘的困難負例訓(xùn)練出重排序模型UniME-V2-Reranker,采用配對與列表聯(lián)合優(yōu)化策略。



圖1 UniME-V2與以往方法的本質(zhì)不同,在于巧妙利用了多模態(tài)大模型(MLLM)的深層語義理解能力。它不僅能用此能力精準挖掘“困難負例”,更能生成一個軟語義匹配分數(shù),如同一位資深導(dǎo)師,指導(dǎo)模型學(xué)會辨別候選樣本間微妙的語義差異。

方法
MLLM-as-a-Judge 困難負樣本挖掘

過去的研究主要依賴于批內(nèi)硬負樣本挖掘,其中計算查詢-候選嵌入相似性以采樣負樣本。

然而,這種方法通常受到負樣本多樣性有限和嵌入判別能力不足的困擾,難以有效區(qū)分錯誤和困難的負樣本。

為了克服這些挑戰(zhàn),如圖2所示,首先利用全局檢索構(gòu)建一個潛在的困難負樣本集。

之后,利用MLLM的強大理解能力來評估每個查詢-候選對的語義對齊性,并生成軟語義匹配分數(shù)。

這個分數(shù)指導(dǎo)了硬負樣本挖掘,使得能夠識別出多樣化和高質(zhì)量的困難負樣本,同時減少錯誤負樣本的影響。



圖2:基于MLLM-as-a-Judge的困難負樣本挖掘流程。我們首先利用現(xiàn)有的多模態(tài)嵌入模型進行全局檢索,構(gòu)建一個潛在的困難負樣本集。然后,利用MLLM強大的理解能力根據(jù)語義對齊性對查詢-候選對進行評分,從而精確識別困難負樣本。

潛在困難負樣本集合為了從全局樣本中提取更高質(zhì)量的困難負樣本,首先使用VLM2Vec為查詢和候選生成嵌入。

接著,為每個查詢檢索出50個最相關(guān)的候選。

為了應(yīng)對錯誤負樣本并增加多樣性,我們基于查詢-候選相似度分數(shù)設(shè)定一個相似度閾值,并選擇前50名的候選作為潛在的困難負樣本集:

其中 是由VLM2Vec模型計算得出的查詢 與候選 的相似度分數(shù)。

語義匹配分數(shù)在構(gòu)建潛在的困難負樣本集后,我們使用MLLM作為評判,為中的每個查詢-候選對計算語義匹配分數(shù),具體指令如下:



隨后,根據(jù)()和()標記的logits計算語義匹配分數(shù),其中。這里,表示查詢的數(shù)量。利用MLLMs的高級理解能力,語義匹配分數(shù)有效地捕捉了查詢和候選之間的語義對齊程度。

困難負樣本采樣為了提高困難負樣本的質(zhì)量,利用語義匹配分數(shù)對候選進行精煉。

候選樣本的分數(shù)超過閾值(其中表示正樣本,是控制閾值間隔的超參數(shù))則會當作錯誤負樣本并排除。為保持多樣性,采用五步間隔的循環(huán)采樣策略。

如果精煉后的集合包含的候選少于十個,將重復(fù)選擇以確保至少有十個。

在極少數(shù)情況下(<1%),如果沒有候選符合條件,將從最初的五十個候選中隨機選擇10個,并給每個分配1.0的語義匹配分數(shù)。

最后,對于每個查詢,我們獲得困難負樣本集及其相應(yīng)的語義匹配分數(shù)。



圖3:基于MLLM判斷的訓(xùn)練框架結(jié)構(gòu)。UniME-V2使用軟語義匹配分數(shù)作為監(jiān)督信號,以增強候選者間的語義區(qū)分學(xué)習(xí)。UniME-V2-Reranker采用pairwise和listwise聯(lián)合訓(xùn)練以提升重排序性能。

基于MLLM判斷的訓(xùn)練框架

UniME-V2為此提出了一個基于MLLM判斷的分布對齊框架,如圖3所示,利用軟語義匹配分數(shù)作為監(jiān)督信號來提高表征性能。

具體來說,給定一個查詢及其候選集,將它們輸入到MLLM中,并提取最后一個標記作為查詢和候選集的嵌入,其中是目標候選的嵌入,是每個查詢的困難負樣本數(shù)。然后計算查詢嵌入與候選嵌入之間的關(guān)系得分矩陣如下:

基于語義匹配分數(shù),計算由MLLM判斷得出的語義匹配分數(shù)矩陣如下:

為了增強學(xué)習(xí)的穩(wěn)健性并確保矩陣對稱性,采用了JS-Divergence,這是KL-Divergence的一種對稱替代。最終的損失函數(shù)定義為:

除此之外,受前人工作啟發(fā),UniME-V2聯(lián)合pairwise和listwise訓(xùn)練了一個重排序模型UniME-V2-Reranker(如圖3所示)來提高基于初始嵌入的檢索精度。

在成對訓(xùn)練中,為每個查詢構(gòu)造兩對,一對與正候選結(jié)合,另一對與最困難的負候選結(jié)合。然后指導(dǎo)UniME-V2-Reranker對正候選輸出,對負候選輸出。成對損失使用交叉熵損失函數(shù)計算如下:

其中表示UniME-V2-Reranker的自回歸輸出過程。對于列表訓(xùn)練,基于語義匹配分數(shù),從困難負候選中選擇前個候選,隨機插入目標候選并獲取其索引。

然后提示UniME-V2-Reranker輸出真實位置,公式為:

最終的損失函數(shù)定義為。



表1:MMEB基準測試結(jié)果。IND表示在分布內(nèi),OOD表示在分布外。分數(shù)為補充材料中的平均精度結(jié)果。

實驗
多模態(tài)檢索

表1展示了在相同訓(xùn)練數(shù)據(jù)和配置下UniME-V2與現(xiàn)有基線模型在MMEB基準上的性能對比。

UniME-V2在各種基礎(chǔ)模型上均有顯著的性能提升。

具體來說,UniME-V2在Qwen2-VL-2B和7B模型上分別比VLM2Vec高出3.5%和2.2%。

當基于LLaVA-OneVision作為基礎(chǔ)時,UniME-V2比包括QQMM、LLaVE和UniME在內(nèi)的之前的最先進模型提高了0.5%-0.9%。此外,UniME-V2在分布外數(shù)據(jù)集上的得分為66.7,凸顯其魯棒性和卓越的遷移能力。



表2:在短描述(Flickr30K, MS-COCO)、長描述(ShareGPT4V, Urban1K)和組合(SugarCrepe)數(shù)據(jù)集上的零樣本文本-圖像檢索結(jié)果。

跨模態(tài)檢索

如表2所示,在零樣本跨模態(tài)檢索任務(wù)上評估UniME-V2。對于短描述數(shù)據(jù)集,包括Flickr30K和MS-COCO,UniME-V2在圖像到文本檢索中比UniME表現(xiàn)出了2.2%-9.7%的性能提升。

在文本到圖像檢索中,其性能與UniME相當,這主要歸因于兩個因素:

(1)MMEB訓(xùn)練集中文本到圖像數(shù)據(jù)的比例有限;

(2)短描述中的語義信息不足。

對于長描述跨模態(tài)檢索任務(wù),UniME-V2在ShareGPT4V和Urban1K上取得了顯著改進,這得益于其增強的區(qū)分能力和詳細描述提供的豐富語義內(nèi)容。

值得注意的是,與EVA-CLIP-8B相比,UniME-V2展示了更為穩(wěn)健的檢索性能,這主要因為其通用多模態(tài)嵌入能顯著減少模態(tài)間的差距(如圖4所示)。



圖4:EVA-CLIP-8B與UniME-V2(LLaVA-OneVision-7B)之間的表示分布對比。

組合跨模態(tài)檢索

基于SugarCrepe評估UniME-V2模型區(qū)分困難負樣本的能力。

如表2所示,UniME-V2在所有評估指標上均表現(xiàn)出卓越性能。

與UniME相比在使用Qwen2-VL-2B時性能提升了5.3%,6.0%,4.5%。當模型從2B擴展到7B后也實現(xiàn)了9.0%,9.2%,9.2%的性能提升。

此外,與EVA-CLIP-8B相比,UniME-V2還顯示出2.7%,3.4%,和3.8%的改進,凸顯其在區(qū)分困難負樣本上的強大能力。



表3:使用UniME-V2 (Qwen2-VL-7B) 和 UniME-V2 (Qwen2-VL-2B) 比較LamRA與UniME-V2-Reranker的重排序性能。

重排序?qū)Ρ?/h5>

在表3中基于top5檢索結(jié)果對比了LamRA與UniME-V2-Reranker的性能。為確保公平,使用與LamRA相同的訓(xùn)練參數(shù)和基礎(chǔ)模型(Qwen2.5-VL-7B)。

當使用LamRA和UniME-V2-Reranker對UniME-V2 (Qwen2-VL-2B) 檢索結(jié)果進行重排后在四個下游任務(wù)上均提升了性能。

UniME-V2-Reranker在只使用一半數(shù)據(jù)的情況下始終獲得更優(yōu)結(jié)果。類似地,使用UniME-V2 (Qwen2-VL-7B) 進行檢索時,UniME-V2-Reranker的表現(xiàn)也超過了LamRA,在四個任務(wù)中分別獲得了0.5%,0.4%,0.3%,和7.4%的性能提升。

值得注意的是,UniME-V2-Reranker在組合理解檢索任務(wù)中展示了對LamRA的顯著優(yōu)勢,這歸功于其利用MLLM的理解能力提取多樣化和高質(zhì)量的困難樣本,有效增強了模型的區(qū)分能力。

論文:

https://arxiv.org/abs/2510.13515

GitHub:

https://github.com/GaryGuTC/UniME-v2

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

家長注意了!這些全是“假牛奶”!別再整箱往家搬了!花錢還坑娃

觀察鑒娛
2026-03-21 12:39:12
拖垮一個普通家庭,只需要一臺20萬的車。

拖垮一個普通家庭,只需要一臺20萬的車。

老陸不老
2026-03-24 20:20:23
這是目前為止,我見過腰最細的女生,沒有之一

這是目前為止,我見過腰最細的女生,沒有之一

草莓解說體育
2026-03-03 19:15:05
從F杯撲街到H杯封神!篠原伊代:用硬件革命完成的絕地翻盤

從F杯撲街到H杯封神!篠原伊代:用硬件革命完成的絕地翻盤

碧波萬覽
2026-03-20 03:40:03
實錘了!殲10C飛行員明確披露,我軍預(yù)警機可直接制導(dǎo)空空彈

實錘了!殲10C飛行員明確披露,我軍預(yù)警機可直接制導(dǎo)空空彈

Ck的蜜糖
2026-03-24 18:40:46
410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

410次開房記錄流出:央企“女老虎”陶荔芳,背后還有多少同伙

深度報
2025-12-14 22:36:54
回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

回顧“91女神”琪琪:五官出眾,卻因天真讓自己“受傷”

就一點
2025-11-22 10:36:39
官方發(fā)文!李湘風(fēng)波終于迎來結(jié)局,讓她懷二胎的男人,能松口氣了

官方發(fā)文!李湘風(fēng)波終于迎來結(jié)局,讓她懷二胎的男人,能松口氣了

悅君兮君不知
2026-03-25 02:41:14
預(yù)制菜大局已定:不出意外的話,2026年起中國餐飲或迎來3大變化

預(yù)制菜大局已定:不出意外的話,2026年起中國餐飲或迎來3大變化

老謝談史
2026-03-25 04:45:47
金刻羽給特朗普獻計:現(xiàn)有政策全部反過來,就能鎖住中國發(fā)展

金刻羽給特朗普獻計:現(xiàn)有政策全部反過來,就能鎖住中國發(fā)展

福建平子
2026-03-21 09:14:00
OMG!林心如是怎么受得了霍建華穿這條牛仔褲的

OMG!林心如是怎么受得了霍建華穿這條牛仔褲的

書臺小事
2026-03-23 16:57:30
高市回國未滿72小時,日本政府突變臉,730億“保護費”或白交了

高市回國未滿72小時,日本政府突變臉,730億“保護費”或白交了

小影的娛樂
2026-03-25 05:50:30
154億,首富千金要IPO了

154億,首富千金要IPO了

投資家
2026-03-24 20:27:50
美股超2900只個股下跌,阿帕奇石油漲超5%,微軟跌2.77%,谷歌跌2.25%,亞馬遜跌超1%

美股超2900只個股下跌,阿帕奇石油漲超5%,微軟跌2.77%,谷歌跌2.25%,亞馬遜跌超1%

每日經(jīng)濟新聞
2026-03-24 23:02:09
一個男人如果得不到這個女人的身體,他就不會愛這個女人

一個男人如果得不到這個女人的身體,他就不會愛這個女人

加油丁小文
2026-03-25 06:30:09
為新球衣造勢,日本隊將隨機挑選30名球迷贈送新款客場球衣

為新球衣造勢,日本隊將隨機挑選30名球迷贈送新款客場球衣

懂球帝
2026-03-24 22:25:06
穿紙尿褲的14歲少年,不幸離去

穿紙尿褲的14歲少年,不幸離去

新京報
2026-03-24 08:55:55
喪心病狂!河南14歲少年被虐死案:死時穿紙尿褲,胃里空無一物

喪心病狂!河南14歲少年被虐死案:死時穿紙尿褲,胃里空無一物

春日在捕月
2026-03-25 01:00:23
伊朗發(fā)動第78波攻勢 稱主力部隊尚未出動

伊朗發(fā)動第78波攻勢 稱主力部隊尚未出動

新華社
2026-03-24 07:05:01
陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

陳天橋:那一夜梁文鋒拒絕了我的投資,卻讓我決定投入10億美金去做另一件事

獵云網(wǎng)
2026-03-19 15:28:10
2026-03-25 07:04:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12339文章數(shù) 176422關(guān)注度
往期回顧 全部

科技要聞

年僅41歲,教育名師張雪峰猝然離世

頭條要聞

美方擬停火一個月 15點結(jié)束伊朗沖突方案披露

頭條要聞

美方擬停火一個月 15點結(jié)束伊朗沖突方案披露

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

張雪峰經(jīng)搶救無效不幸去世 年僅41歲

財經(jīng)要聞

特朗普再TACO 可以押注伊朗局勢降級?

汽車要聞

尚界Z7雙車預(yù)售22.98萬起 問界M6預(yù)售26.98萬起

態(tài)度原創(chuàng)

教育
房產(chǎn)
游戲
親子
時尚

教育要聞

重慶大學(xué)1死3傷后續(xù):離世者是在讀研究生,原因曝光

房產(chǎn)要聞

北上廣深二手房集體回暖!三月小陽春行情全面兌現(xiàn)

余霜管澤元官宣懷孕!“小隊新成員” 來了

親子要聞

11歲女孩身高僅1.4米,骨齡驚人,她的未來還有多高?

豪門夢破碎后,她居然還能爆紅?

無障礙瀏覽 進入關(guān)懷版