![]()
始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!
視覺語言模型(VLM)的性能會隨視覺令牌數(shù)量增加而顯著提升,但多數(shù)實(shí)際場景無需這么多視覺令牌。研究發(fā)現(xiàn),通用視覺問答任務(wù)中,即便圖像分辨率降至原有的四分之一,模型性能也僅出現(xiàn)輕微下滑;而在涉及細(xì)粒度文字識別的任務(wù)中,性能下降則十分明顯。
針對這一問題,CUHK、HKU和HKUST等機(jī)構(gòu)提出一種全新視覺令牌壓縮范式 VisionThink。該范式先對低分辨率圖像進(jìn)行處理,再智能判斷這類圖像是否足以完成當(dāng)前任務(wù)。若判斷結(jié)果為不足,模型則會輸出特殊的令牌,以此請求高分辨率圖像。
相較于傳統(tǒng)固定壓縮比例的方法,VisionThink 能依據(jù)樣本內(nèi)容動態(tài)決定是否壓縮令牌,既在文字識別任務(wù)中維持了出色性能,又在簡單任務(wù)中大幅降低了計(jì)算量。采用強(qiáng)化學(xué)習(xí)方法,設(shè)計(jì) “大型語言模型作為評判者” 的策略,有效優(yōu)化了模型在通用視覺問答任務(wù)中的表現(xiàn)。同時(shí),借助精心構(gòu)建的獎勵函數(shù)與懲罰機(jī)制,VisionThink 成功實(shí)現(xiàn)了穩(wěn)定且合理的圖像調(diào)整大小調(diào)用比例,廣泛的實(shí)驗(yàn)表明了本方法的優(yōu)越性、效率和有效性。模型已更新上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。
![]()
模型地址
https://wisemodel.cn/models/Senqiao/VisionThink-General
01.
瓶頸分析
強(qiáng)化學(xué)習(xí)是提升大型語言模型推理能力的有效方法,本研究采用組相對策略優(yōu)化(GRPO)方法,通過組評分估計(jì)基線降低計(jì)算成本并提高訓(xùn)練穩(wěn)定性,訓(xùn)練中模型將依據(jù)問題構(gòu)建一組輸出,在以 KL 散度約束避免偏離參考模型的同時(shí)優(yōu)化策略以最大化獎勵。
而視覺語言模型的計(jì)算復(fù)雜度主要來自自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),總計(jì)算量與 Transformer 層數(shù)、序列長度、隱藏層維度及前饋網(wǎng)絡(luò)中間層大小相關(guān),序列長度由系統(tǒng)提示、圖像令牌和問題令牌組成且圖像令牌占比最大,因此控制圖像令牌數(shù)量是提升模型效率的關(guān)鍵,兩者形成 “痛點(diǎn)定位 - 技術(shù)落地” 的呼應(yīng),共同服務(wù)于提升視覺語言模型性能與效率的目標(biāo)。
02.
核心技術(shù)框架
VisionThink 旨在開發(fā)一種智能高效的視覺語言模型,能夠自主判斷低分辨率圖像是否足以回答問題,其流程為首先處理低分辨率圖像,若信息不足則輸出特殊令牌請求高分辨率圖像,進(jìn)而降低計(jì)算成本并保持性能。
![]()
而實(shí)現(xiàn)這一目標(biāo)需解決兩個(gè)挑戰(zhàn),一是將強(qiáng)化學(xué)習(xí)有效應(yīng)用于通用視覺問答,二是讓模型準(zhǔn)確判斷何時(shí)需要高分辨率圖像;通用視覺問答任務(wù)的多樣性和復(fù)雜性使得傳統(tǒng)基于規(guī)則的強(qiáng)化學(xué)習(xí)難以適用,為此提出“大型語言模型作為評判者” 策略,利用大型語言模型的語義理解能力評估模型輸出的正確性,評估僅基于文本比較預(yù)測答案與真實(shí)答案以避免視覺內(nèi)容干擾,并采用離散評分(0 或 1)減少誤判,實(shí)驗(yàn)表明該策略顯著提升了模型在通用視覺問答任務(wù)中的表現(xiàn),且無需預(yù)訓(xùn)練階段即可直接使用 130,000 個(gè)樣本進(jìn)行訓(xùn)練。
VisionThink 通過多輪交互實(shí)現(xiàn)動態(tài)分辨率處理,首先輸入低分辨率圖像和問題,若信息不足則模型輸出特殊令牌請求高分辨率圖像并生成新答案,擴(kuò)展了 GRPO 算法以支持多輪交互,優(yōu)化僅基于模型生成的輸出令牌,同時(shí)采用 Qwen2.5-VL 推薦的代理提示,實(shí)驗(yàn)證明其在零樣本場景下表現(xiàn)最佳,避免了訓(xùn)練初期因梯度缺失導(dǎo)致的優(yōu)化失敗。
獎勵函數(shù)包括準(zhǔn)確性獎勵、格式獎勵和懲罰機(jī)制,準(zhǔn)確性獎勵由 “大型語言模型作為評判者” 提供,正確答案得 1 分、錯(cuò)誤得 0 分,格式獎勵要求模型輸出包含推理過程(標(biāo)簽)、最終答案(標(biāo)簽)及正確格式的工具調(diào)用(JSON 格式),滿分 0.5 分,懲罰機(jī)制則防止模型總是請求高分辨率圖像或總是直接回答,若低分辨率圖像正確回答的概率低則對直接回答施加 0.1 分懲罰,若概率高則對高分辨率請求施加 0.1 分懲罰。
![]()
實(shí)驗(yàn)表明適當(dāng)?shù)膽土P閾值(如 0.2)能有效平衡兩種行為;為訓(xùn)練模型判斷何時(shí)需要高分辨率圖像,我們收集了 20,000 個(gè)樣本,包括 10,000 個(gè)需要高分辨率圖像的樣本和 10,000 個(gè)可用低分辨率圖像回答的樣本,使用基線模型 Qwen2.5VL-Instruct 進(jìn)行多次推理,基于正確率分類樣本,確保訓(xùn)練數(shù)據(jù)覆蓋兩種場景。
03.
實(shí)驗(yàn)結(jié)果
我們基于 Qwen2.5-VL-7B-Instruct 模型進(jìn)行實(shí)驗(yàn),采用 veRL 框架訓(xùn)練,設(shè)置批次大小為 512、學(xué)習(xí)率為 1e-6、生成 16 個(gè)候選響應(yīng),推理階段使用 vLLM 框架且溫度設(shè)為 0,評估覆蓋 ChartQA、OCRBench、DocVQA、MME、MMVet、RealWorldQA、POPE、MMMU 和 MathVista 等多個(gè)通用視覺問答基準(zhǔn),其中 ChartQA 和 OCRBench 等涉及細(xì)粒度文字識別。
VisionThink 在這些基準(zhǔn)上表現(xiàn)優(yōu)異,與基線模型 Qwen2.5-VL-7B-Instruct 相比,其在 MathVerse 和 MMVet 上的得分分別提升 3.7% 和 8.9%,達(dá)到 48.0 和 67.1,在 MME 上得分 2400、超越所有閉源模型,在 MathVista 上得分 71.2、優(yōu)于所有開源模型和部分閉源模型,而使用 130,000 個(gè)樣本的 “大型語言模型作為評判者” 策略進(jìn)一步驗(yàn)證了其在通用視覺問答任務(wù)中的有效性。
![]()
在效率方面,與使用全分辨率圖像的 QwenRL 和四分之一分辨率的 QwenRL 1/4 相比,VisionThink 的推理時(shí)間接近 QwenRL 1/4、顯著優(yōu)于 QwenRL,在 DocVQA 上其推理速度是 QwenRL 的兩倍以上,在 MME 和 POPE 上推理時(shí)間減少約三分之一,僅在需要文字識別的 ChartQA 上因請求高分辨率圖像而耗時(shí)略多,但此類任務(wù)占比較少,整體效率仍保持較高水平。
![]()
與 FastV、SparseVLM 和 VisionZip 等傳統(tǒng)高效視覺語言模型相比,VisionThink 的平均性能更優(yōu),尤其在 ChartQA 和 OCRBench 上分別提升 9.0% 和 8.3%,這得益于傳統(tǒng)方法依賴固定壓縮比例,而 VisionThink 能根據(jù)樣本內(nèi)容動態(tài)調(diào)整分辨率;同時(shí),VisionThink 具備智能決策能力,可自主判斷是否需要高分辨率圖像,在 ChartQA 和 OCRBench 等需細(xì)粒度視覺理解的任務(wù)中,高分辨率圖像請求比例分別達(dá) 79.1% 和 62.3%,而在 MME 和 DocVQA 等任務(wù)中,70% 以上樣本可直接使用低分辨率圖像回答,這種自適應(yīng)策略符合直覺,日常問題通常無需高分辨率圖像,而文字識別任務(wù)則依賴細(xì)節(jié)支撐。
![]()
04.
結(jié)論
本文介紹了VisionThink,一種用于通用視覺問答(General VQA)的新型范式,旨在提升效率和性能。通過首先處理下采樣圖像,并在需要時(shí)使用強(qiáng)化學(xué)習(xí)選擇性地將其上采樣到更高分辨率,VisionThink優(yōu)化了計(jì)算資源,同時(shí)保持了準(zhǔn)確性。
借助“將大語言模型作為裁判”的策略和定制的 Reward 函數(shù),VisionThink在多種視覺問答基準(zhǔn)測試中超越了現(xiàn)有的最先進(jìn)模型,特別是在需要細(xì)粒度細(xì)節(jié)的任務(wù)(如OCR)中表現(xiàn)尤為突出。作者相信VisionThink展示了強(qiáng)化學(xué)習(xí)在視覺語言模型中的潛力,并鼓勵開發(fā)更有效率和更高效的AI系統(tǒng)。
在本工作中,作者專注于2倍分辨率提升和最多兩次對話的設(shè)置,并取得了令人滿意的結(jié)果。然而,這一方法尚未擴(kuò)展到靈活分辨率提升的設(shè)置。此外,結(jié)合更多視覺工具(如裁剪)將進(jìn)一步提升效率和性能。再者,多輪(例如,超過5輪)圖像工具調(diào)用在解決復(fù)雜視覺問題方面將獲得更多收益。
----- END -----
![]()
wisemodel相關(guān):
系列模型:
關(guān)于wisemodel更多
1
歡迎持續(xù)關(guān)注和支持
開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。
2
歡迎加盟wisemodel開源社區(qū)
始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn
3
歡迎投稿優(yōu)質(zhì)內(nèi)容
歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。
4
關(guān)于wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。
向上滑動查看
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.