337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

CVPR 2026 | 從視覺Token內在變化量出發,實現VLM無損加速1.87倍

0
分享至



作者介紹:第一作者陳駿杰(四川大學碩士二年級)與共同一作劉旭洋(四川大學碩士三年級)深耕高效視覺語言模型。



  • 論文題目:Variation-aware Vision Token Dropping for Faster Large Vision-Language Models
  • 論文鏈接:https://arxiv.org/abs/2509.01552
  • 代碼鏈接:https://github.com/xuyang-liu16/V2Drop

背景與動機

隨著高分辨率圖像理解與長視頻處理需求的爆發式增長,大型視覺語言模型(LVLMs)所需處理的視覺 Token 數量急劇膨脹,推理效率成為落地部署的核心瓶頸。Token 壓縮是縮短序列、提升吞吐的直接手段,但現有方法普遍依賴注意力權重來判斷 Token 重要性,這一路線暗藏兩個致命缺陷:

一是位置偏差問題(如圖 1 所示),該方法傾向于機械地保留序列末尾的 Token,無論圖像內容如何,注意力得分普遍在序列末尾(對應圖像底部區域)形成峰值(紅色箭頭),導致關鍵的前期 Token 被丟棄,進而加劇多模態幻覺。

二是與高效算子存在根本性的不兼容,計算注意力權重與 FlashAttention 等高效機制之間存在本質沖突。相比之下,右側三列(綠色邊框)展示了基于 L2 Norm 變化量評估方法的顯著優勢 —— 其得分分布均勻、能夠精準聚焦于含有關鍵信息的圖像區域(如綠色框標注的球衣號碼區域),且無需顯式注意力計算,與高效算子天然兼容。



圖 1:注意力引導 vs. 變化量感知的 Token 評估對比

核心發現


發現 1:注意力方法存在系統性末端偏置

研究團隊在 LLaVA-1.5-7B 和 Qwen2-VL-7B 上,對比了 SparseVLM、FastV 與 L2 Norm 變化量評估在相同輸入下的 Token 保留行為。注意力方法的保留概率曲線均呈單調遞增階梯形狀 —— 末端 Token 保留率高達 80%~100%,前端僅 10%~30%,與內容重要性毫無關聯。L2 Norm 則呈近似均勻分布,天然規避位置偏差。



圖 2:兩大模型上視覺 Token 保留位置分布分析 ——L2 Norm 呈現均勻分布,注意力方法呈嚴重末端偏置

發現 2:變化量高的 Token 天然對應語義關鍵區域

針對兩個典型樣本(百事可樂瓶識別、球衣號碼識別),L1 Norm、L2 Norm 和余弦相似度三種指標均在答案相關區域出現顯著峰值,且無論關鍵區域位于序列中段還是后段均能精準捕捉,表明變化量是衡量視覺 Token 重要性的魯棒內在屬性,L2 Norm 綜合性能最優,被 V2Drop 選為默認度量。



圖 3:三種變化量度量指標均精準定位答案相關區域(紅框),驗證變化量與語義重要性的強相關性

解決方案:V2Drop

V2Drop 在 LLM 推理階段采用多階段漸進式剪枝策略,三步實現高效無偏 Token 壓縮:

① 變化量計算(Variation Computation)

在每個預定義剪枝層,計算每個視覺 Token 與上一層表示的 L2 距離作為重要性得分。額外開銷僅為單層注意力計算量的 0.022%,可忽略不計。

② Token 排序與選擇(Token Ranking & Selection)

按變化量得分從高到低排序,保留 Top-K 個 Token,自然過濾惰性 Token,無需引入任何位置偏置。

③ 漸進式壓縮(Progressive Dropping)

在淺層、中層、深層三階段依次執行剪枝,形成 M → Ka → Kb → Kc 漸進壓縮路徑。消融實驗證明,漸進式剪枝比一次性剪枝在 POPE 上高 9.3%、MME 上高 5.9%。



圖 4:V2Drop 整體框架

理論保證

通過一階 Taylor 展開證明,Token 的變化量幅度與其對模型輸出的影響正相關,從理論上驗證了丟棄低變化量 Token 能最小化輸出擾動的核心假設。架構的三大屬性(殘差連接、Layer Norm、平滑激活函數)共同保證了理論假設的合理性。

實驗結果


1、圖像理解(LLaVA-1.5-7B & Qwen2-VL-7B)

在圖像場景的核心表現上,本方法在 LLaVA-1.5-7B 上:壓縮 66.7% Token(保留 192 個)時,綜合性能達 97.6%,超越次優方法 PDrop(96.0%。此外,在 Qwen2-VL-7B 高分辨率場景中,66.7% 和 77.8% 兩檔壓縮率下均全面超越 FastV 和 DART,尤其在 POPE 幻覺抑制指標上表現突出,充分驗證了本方法對原生可變分辨率輸入的強泛化能力。



表 1:基于 LLaVA-1.5-7B 的多圖像理解基準測試對比



表 2:基于 Qwen2-VL-7B 的多圖像理解基準測試對比

2、視頻理解(LLaVA-OV-7B & Qwen2-VL-7B)

在視頻場景中,本方法同樣表現卓越:僅保留 25% 的 Token 時,綜合性能即達 98.6%,超越保留 30% Token 的 DyCoke(97.7%),以更少 Token 實現更優性能;在長視頻任務(VideoMME-Long)上持續領跑,有效緩解了 VideoLLM 普遍存在的末幀偏置問題;在 Qwen2-VL-7B 場景下,僅保留 20% Token 時綜合性能達 93.3%,其中 MVBench 以 62.1 分大幅領先 DART(58.9)和 FastV(50.9),優勢尤為突出。



表 3:基于 Qwen2-VL-7B 的多視頻理解基準測試性能對比



表 4:基于 LLaVA-OV-7B 的多視頻理解基準測試性能對比

3、效率分析(與高效算子完全兼容)

在效率層面,本方法同樣帶來顯著收益:圖文理解任務(LLaVA-1.5-7B)中,LLM 生成延遲降低 31.5%,吞吐量提升至 9.01 items/s(↑1.26×),峰值顯存同步下降 3.3%;視頻理解任務(LLaVA-OV-7B)中,LLM 生成延遲大幅削減 74.2%,吞吐量提升 1.38×,峰值顯存降低 7.8%。與之形成鮮明對比的是,SparseVLM、FastV、PDrop 在視頻場景下峰值顯存分別暴增 54.8%、39.2% 和 37.8%,而本方法無需計算注意力矩陣,真正實現了加速與節存的雙重收益。



表 5:圖像 / 視頻理解任務的效率對比

結論


V2Drop 為視覺語言模型的推理加速開辟了一條全新路徑。研究發現,視覺 Token 在 LLM 各層間的變化量與其任務相關性高度吻合,且這一規律與具體任務無關(task-agnostic)。基于這一洞察,V2Drop 以變化量為核心評估信號,構建了一套輕量、漸進、與高效算子完全兼容的 Token 壓縮框架 —— 無需修改模型權重,無需訪問注意力矩陣,即插即用。在圖像與視頻理解兩條賽道上均實現當前最優性能 - 效率權衡。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
向隊傷無大礙!三大主力怒贊朝鮮節奏快 蓉城新星太強 木塔快廢了

向隊傷無大礙!三大主力怒贊朝鮮節奏快 蓉城新星太強 木塔快廢了

刀鋒體育
2026-03-29 10:38:44
準狀元布澤爾統治瘋三!狂轟22+10帶隊逆轉,助杜克挺進八強!

準狀元布澤爾統治瘋三!狂轟22+10帶隊逆轉,助杜克挺進八強!

田先生籃球
2026-03-28 11:16:46
隨著伊東純也一劍封喉+比分1-0,日本掀翻歐洲勁旅,迎開門紅

隨著伊東純也一劍封喉+比分1-0,日本掀翻歐洲勁旅,迎開門紅

側身凌空斬
2026-03-29 04:38:44
A股:周末3大消息!央行 證監會聯手維穩市場,A股下周要變盤?

A股:周末3大消息!央行 證監會聯手維穩市場,A股下周要變盤?

股市皆大事
2026-03-29 08:51:54
悲哀!婆婆全款購買婚房,表示能住拒絕加名!一女子哭訴沒安全感

悲哀!婆婆全款購買婚房,表示能住拒絕加名!一女子哭訴沒安全感

火山詩話
2026-03-28 17:16:01
U23國足險平朝鮮!媒體人熱議:踢得四不像,亞洲杯后該降溫了

U23國足險平朝鮮!媒體人熱議:踢得四不像,亞洲杯后該降溫了

奧拜爾
2026-03-28 21:46:23
背刺中國,出賣孟晚舟的真兇被挖出來后,如今遭到了哪些報應

背刺中國,出賣孟晚舟的真兇被挖出來后,如今遭到了哪些報應

來科點譜
2026-02-18 07:08:08
女司機踹車后續:褲子被男車主扯下,怒扇對方耳光,關系不一般

女司機踹車后續:褲子被男車主扯下,怒扇對方耳光,關系不一般

探源歷史
2026-03-28 23:39:23
德國總理默茨:美國正在升級中東沖突

德國總理默茨:美國正在升級中東沖突

財聯社
2026-03-28 04:56:11
CBA最新排名出爐!北京殺進前三,遼寧跌入谷底,黑馬逼停廣東

CBA最新排名出爐!北京殺進前三,遼寧跌入谷底,黑馬逼停廣東

老葉評球
2026-03-29 09:59:55
英國一共搶了中國5塊領土,但只有香港還了,其他4個啥時候還?

英國一共搶了中國5塊領土,但只有香港還了,其他4個啥時候還?

全金貓眼
2026-03-28 16:05:03
她曾擔任中紀委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

她曾擔任中紀委副書記,離休16年后仍驕傲的說:我辦的案都是鐵案

明月清風閣
2026-03-28 13:25:06
67年毛主席離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

67年毛主席離開武漢,空軍竟不放行,楊成武:不認我這個代總長?

史之銘
2026-03-28 16:48:50
伊朗伊斯蘭革命衛隊發布公告

伊朗伊斯蘭革命衛隊發布公告

新浪財經
2026-03-29 08:32:06
張雪峰經典名言 100 條(完整版)

張雪峰經典名言 100 條(完整版)

新浪財經
2026-03-25 06:17:25
霍爾木茲海峽大消息!俄羅斯:禁止汽油出口!經濟學家:全球糧價面臨上漲風險

霍爾木茲海峽大消息!俄羅斯:禁止汽油出口!經濟學家:全球糧價面臨上漲風險

中國能源網
2026-03-29 10:59:04
全球沃爾沃新車!曾高攀不起,現只要15.99萬,全系2.0T

全球沃爾沃新車!曾高攀不起,現只要15.99萬,全系2.0T

米粒說車唯一呀
2026-03-28 18:14:21
洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

洛桑去世真相:博林25年后坦白,他其實沒喝多少酒

觀察者海風
2026-03-26 23:12:53
必須給中國個交代,解放軍重磅發聲,航母隨時前出,休想蒙混過關

必須給中國個交代,解放軍重磅發聲,航母隨時前出,休想蒙混過關

李博世財經
2026-03-29 10:12:42
18年沒見過這場面!巴圖姆直呼本賽季快船太離譜,逆襲全靠盧不慌

18年沒見過這場面!巴圖姆直呼本賽季快船太離譜,逆襲全靠盧不慌

仰臥撐FTUer
2026-03-29 10:05:03
2026-03-29 11:48:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12620文章數 142598關注度
往期回顧 全部

科技要聞

馬斯克承認xAI"建錯了",11位創始人均離職

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

頭條要聞

牛彈琴:特朗普親口對沙特說出傲慢的話 全世界不敢相信

體育要聞

全球第二大車企,也救不了這支德甲隊?

娛樂要聞

張凌赫事件持續升級!官方點名怒批

財經要聞

Kimi、Minimax 們的算力荒

汽車要聞

嵐圖泰山X8配置曝光 四激光雷達/華為新一代座艙

態度原創

家居
藝術
數碼
公開課
軍事航空

家居要聞

曲線華爾茲 現代簡約

藝術要聞

2025江南如畫——中國油畫作品展 | 入選作品選刊(二)

數碼要聞

LG電競顯示器預約!1080P 144Hz僅649/799元

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍中東基地損失最新披露

無障礙瀏覽 進入關懷版