VisionThink提出視覺令牌壓縮新范式，驅(qū)動VLM效率革命

2025-11-18 18:51:43　來源: wisemodel開源社區(qū)

北京舉報(bào)

分享至

始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在，歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動，最高可得算力券+token包380元獎勵，歡迎參與和支持！

視覺語言模型（VLM）的性能會隨視覺令牌數(shù)量增加而顯著提升，但多數(shù)實(shí)際場景無需這么多視覺令牌。研究發(fā)現(xiàn)，通用視覺問答任務(wù)中，即便圖像分辨率降至原有的四分之一，模型性能也僅出現(xiàn)輕微下滑；而在涉及細(xì)粒度文字識別的任務(wù)中，性能下降則十分明顯。

針對這一問題，CUHK、HKU和HKUST等機(jī)構(gòu)提出一種全新視覺令牌壓縮范式 VisionThink。該范式先對低分辨率圖像進(jìn)行處理，再智能判斷這類圖像是否足以完成當(dāng)前任務(wù)。若判斷結(jié)果為不足，模型則會輸出特殊的令牌，以此請求高分辨率圖像。

相較于傳統(tǒng)固定壓縮比例的方法，VisionThink 能依據(jù)樣本內(nèi)容動態(tài)決定是否壓縮令牌，既在文字識別任務(wù)中維持了出色性能，又在簡單任務(wù)中大幅降低了計(jì)算量。采用強(qiáng)化學(xué)習(xí)方法，設(shè)計(jì) “大型語言模型作為評判者” 的策略，有效優(yōu)化了模型在通用視覺問答任務(wù)中的表現(xiàn)。同時(shí)，借助精心構(gòu)建的獎勵函數(shù)與懲罰機(jī)制，VisionThink 成功實(shí)現(xiàn)了穩(wěn)定且合理的圖像調(diào)整大小調(diào)用比例，廣泛的實(shí)驗(yàn)表明了本方法的優(yōu)越性、效率和有效性。模型已更新上線始智AI-wisemodel開源社區(qū)，歡迎大家前去體驗(yàn)。

模型地址

https://wisemodel.cn/models/Senqiao/VisionThink-General

01.

瓶頸分析

強(qiáng)化學(xué)習(xí)是提升大型語言模型推理能力的有效方法，本研究采用組相對策略優(yōu)化（GRPO）方法，通過組評分估計(jì)基線降低計(jì)算成本并提高訓(xùn)練穩(wěn)定性，訓(xùn)練中模型將依據(jù)問題構(gòu)建一組輸出，在以 KL 散度約束避免偏離參考模型的同時(shí)優(yōu)化策略以最大化獎勵。

而視覺語言模型的計(jì)算復(fù)雜度主要來自自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)，總計(jì)算量與 Transformer 層數(shù)、序列長度、隱藏層維度及前饋網(wǎng)絡(luò)中間層大小相關(guān)，序列長度由系統(tǒng)提示、圖像令牌和問題令牌組成且圖像令牌占比最大，因此控制圖像令牌數(shù)量是提升模型效率的關(guān)鍵，兩者形成 “痛點(diǎn)定位 - 技術(shù)落地” 的呼應(yīng)，共同服務(wù)于提升視覺語言模型性能與效率的目標(biāo)。

02.

核心技術(shù)框架

VisionThink 旨在開發(fā)一種智能高效的視覺語言模型，能夠自主判斷低分辨率圖像是否足以回答問題，其流程為首先處理低分辨率圖像，若信息不足則輸出特殊令牌請求高分辨率圖像，進(jìn)而降低計(jì)算成本并保持性能。

而實(shí)現(xiàn)這一目標(biāo)需解決兩個(gè)挑戰(zhàn)，一是將強(qiáng)化學(xué)習(xí)有效應(yīng)用于通用視覺問答，二是讓模型準(zhǔn)確判斷何時(shí)需要高分辨率圖像；通用視覺問答任務(wù)的多樣性和復(fù)雜性使得傳統(tǒng)基于規(guī)則的強(qiáng)化學(xué)習(xí)難以適用，為此提出“大型語言模型作為評判者” 策略，利用大型語言模型的語義理解能力評估模型輸出的正確性，評估僅基于文本比較預(yù)測答案與真實(shí)答案以避免視覺內(nèi)容干擾，并采用離散評分（0 或 1）減少誤判，實(shí)驗(yàn)表明該策略顯著提升了模型在通用視覺問答任務(wù)中的表現(xiàn)，且無需預(yù)訓(xùn)練階段即可直接使用 130,000 個(gè)樣本進(jìn)行訓(xùn)練。

VisionThink 通過多輪交互實(shí)現(xiàn)動態(tài)分辨率處理，首先輸入低分辨率圖像和問題，若信息不足則模型輸出特殊令牌請求高分辨率圖像并生成新答案，擴(kuò)展了 GRPO 算法以支持多輪交互，優(yōu)化僅基于模型生成的輸出令牌，同時(shí)采用 Qwen2.5-VL 推薦的代理提示，實(shí)驗(yàn)證明其在零樣本場景下表現(xiàn)最佳，避免了訓(xùn)練初期因梯度缺失導(dǎo)致的優(yōu)化失敗。

獎勵函數(shù)包括準(zhǔn)確性獎勵、格式獎勵和懲罰機(jī)制，準(zhǔn)確性獎勵由 “大型語言模型作為評判者” 提供，正確答案得 1 分、錯(cuò)誤得 0 分，格式獎勵要求模型輸出包含推理過程（標(biāo)簽）、最終答案（標(biāo)簽）及正確格式的工具調(diào)用（JSON 格式），滿分 0.5 分，懲罰機(jī)制則防止模型總是請求高分辨率圖像或總是直接回答，若低分辨率圖像正確回答的概率低則對直接回答施加 0.1 分懲罰，若概率高則對高分辨率請求施加 0.1 分懲罰。

實(shí)驗(yàn)表明適當(dāng)?shù)膽土P閾值（如 0.2）能有效平衡兩種行為；為訓(xùn)練模型判斷何時(shí)需要高分辨率圖像，我們收集了 20,000 個(gè)樣本，包括 10,000 個(gè)需要高分辨率圖像的樣本和 10,000 個(gè)可用低分辨率圖像回答的樣本，使用基線模型 Qwen2.5VL-Instruct 進(jìn)行多次推理，基于正確率分類樣本，確保訓(xùn)練數(shù)據(jù)覆蓋兩種場景。

03.

實(shí)驗(yàn)結(jié)果

我們基于 Qwen2.5-VL-7B-Instruct 模型進(jìn)行實(shí)驗(yàn)，采用 veRL 框架訓(xùn)練，設(shè)置批次大小為 512、學(xué)習(xí)率為 1e-6、生成 16 個(gè)候選響應(yīng)，推理階段使用 vLLM 框架且溫度設(shè)為 0，評估覆蓋 ChartQA、OCRBench、DocVQA、MME、MMVet、RealWorldQA、POPE、MMMU 和 MathVista 等多個(gè)通用視覺問答基準(zhǔn)，其中 ChartQA 和 OCRBench 等涉及細(xì)粒度文字識別。

VisionThink 在這些基準(zhǔn)上表現(xiàn)優(yōu)異，與基線模型 Qwen2.5-VL-7B-Instruct 相比，其在 MathVerse 和 MMVet 上的得分分別提升 3.7% 和 8.9%，達(dá)到 48.0 和 67.1，在 MME 上得分 2400、超越所有閉源模型，在 MathVista 上得分 71.2、優(yōu)于所有開源模型和部分閉源模型，而使用 130,000 個(gè)樣本的 “大型語言模型作為評判者” 策略進(jìn)一步驗(yàn)證了其在通用視覺問答任務(wù)中的有效性。

在效率方面，與使用全分辨率圖像的 QwenRL 和四分之一分辨率的 QwenRL 1/4 相比，VisionThink 的推理時(shí)間接近 QwenRL 1/4、顯著優(yōu)于 QwenRL，在 DocVQA 上其推理速度是 QwenRL 的兩倍以上，在 MME 和 POPE 上推理時(shí)間減少約三分之一，僅在需要文字識別的 ChartQA 上因請求高分辨率圖像而耗時(shí)略多，但此類任務(wù)占比較少，整體效率仍保持較高水平。

與 FastV、SparseVLM 和 VisionZip 等傳統(tǒng)高效視覺語言模型相比，VisionThink 的平均性能更優(yōu)，尤其在 ChartQA 和 OCRBench 上分別提升 9.0% 和 8.3%，這得益于傳統(tǒng)方法依賴固定壓縮比例，而 VisionThink 能根據(jù)樣本內(nèi)容動態(tài)調(diào)整分辨率；同時(shí)，VisionThink 具備智能決策能力，可自主判斷是否需要高分辨率圖像，在 ChartQA 和 OCRBench 等需細(xì)粒度視覺理解的任務(wù)中，高分辨率圖像請求比例分別達(dá) 79.1% 和 62.3%，而在 MME 和 DocVQA 等任務(wù)中，70% 以上樣本可直接使用低分辨率圖像回答，這種自適應(yīng)策略符合直覺，日常問題通常無需高分辨率圖像，而文字識別任務(wù)則依賴細(xì)節(jié)支撐。

04.

結(jié)論

本文介紹了VisionThink，一種用于通用視覺問答（General VQA）的新型范式，旨在提升效率和性能。通過首先處理下采樣圖像，并在需要時(shí)使用強(qiáng)化學(xué)習(xí)選擇性地將其上采樣到更高分辨率，VisionThink優(yōu)化了計(jì)算資源，同時(shí)保持了準(zhǔn)確性。

借助“將大語言模型作為裁判”的策略和定制的 Reward 函數(shù)，VisionThink在多種視覺問答基準(zhǔn)測試中超越了現(xiàn)有的最先進(jìn)模型，特別是在需要細(xì)粒度細(xì)節(jié)的任務(wù)（如OCR）中表現(xiàn)尤為突出。作者相信VisionThink展示了強(qiáng)化學(xué)習(xí)在視覺語言模型中的潛力，并鼓勵開發(fā)更有效率和更高效的AI系統(tǒng)。

在本工作中，作者專注于2倍分辨率提升和最多兩次對話的設(shè)置，并取得了令人滿意的結(jié)果。然而，這一方法尚未擴(kuò)展到靈活分辨率提升的設(shè)置。此外，結(jié)合更多視覺工具（如裁剪）將進(jìn)一步提升效率和性能。再者，多輪（例如，超過5輪）圖像工具調(diào)用在解決復(fù)雜視覺問題方面將獲得更多收益。

----- END -----

wisemodel相關(guān)：

系列模型：

關(guān)于wisemodel更多

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入，更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù)，歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果，包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū)，共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信，申請加入wisemodel社群，持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來，逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū)，為了加快公司發(fā)展，我們長期需要技術(shù)、運(yùn)營等人才加盟，技術(shù)側(cè)重在AI infra、后端開發(fā)，熟悉K8S、模型訓(xùn)練和推理等技術(shù)，以及熟悉開發(fā)者生態(tài)運(yùn)營的成員，歡迎感興趣的朋友加盟，可以通過添加wisemodel微信，或者將簡歷投遞到郵箱：liudaoquan@wisemodel.cn

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果，鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等，在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容，可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹，也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn，也可以掃碼添加wisemodel微信。

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立，旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū)，將打造成“HuggingFace”之外最活躍的AI開源社區(qū)，匯聚主要AI開源模型、數(shù)據(jù)集和代碼等，歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者，以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等，還有投資機(jī)構(gòu)、科技媒體等，共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.