337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

VisionThink提出視覺令牌壓縮新范式,驅(qū)動VLM效率革命

0
分享至


始智AI wisemodel.cn社區(qū)是源自中國的中立開放的AI開源社區(qū)。正在,歡迎加入共同成長。wisemodel推出邀請注冊獎勵活動,最高可得算力券+token包380元獎勵,歡迎參與和支持!

視覺語言模型(VLM)的性能會隨視覺令牌數(shù)量增加而顯著提升,但多數(shù)實(shí)際場景無需這么多視覺令牌。研究發(fā)現(xiàn),通用視覺問答任務(wù)中,即便圖像分辨率降至原有的四分之一,模型性能也僅出現(xiàn)輕微下滑;而在涉及細(xì)粒度文字識別的任務(wù)中,性能下降則十分明顯。

針對這一問題,CUHK、HKU和HKUST等機(jī)構(gòu)提出一種全新視覺令牌壓縮范式 VisionThink。該范式先對低分辨率圖像進(jìn)行處理,再智能判斷這類圖像是否足以完成當(dāng)前任務(wù)。若判斷結(jié)果為不足,模型則會輸出特殊的令牌,以此請求高分辨率圖像。

相較于傳統(tǒng)固定壓縮比例的方法,VisionThink 能依據(jù)樣本內(nèi)容動態(tài)決定是否壓縮令牌,既在文字識別任務(wù)中維持了出色性能,又在簡單任務(wù)中大幅降低了計(jì)算量。采用強(qiáng)化學(xué)習(xí)方法,設(shè)計(jì) “大型語言模型作為評判者” 的策略,有效優(yōu)化了模型在通用視覺問答任務(wù)中的表現(xiàn)。同時(shí),借助精心構(gòu)建的獎勵函數(shù)與懲罰機(jī)制,VisionThink 成功實(shí)現(xiàn)了穩(wěn)定且合理的圖像調(diào)整大小調(diào)用比例,廣泛的實(shí)驗(yàn)表明了本方法的優(yōu)越性、效率和有效性。模型已更新上線始智AI-wisemodel開源社區(qū),歡迎大家前去體驗(yàn)。


模型地址

https://wisemodel.cn/models/Senqiao/VisionThink-General

01.

瓶頸分析

強(qiáng)化學(xué)習(xí)是提升大型語言模型推理能力的有效方法,本研究采用組相對策略優(yōu)化(GRPO)方法,通過組評分估計(jì)基線降低計(jì)算成本并提高訓(xùn)練穩(wěn)定性,訓(xùn)練中模型將依據(jù)問題構(gòu)建一組輸出,在以 KL 散度約束避免偏離參考模型的同時(shí)優(yōu)化策略以最大化獎勵。

而視覺語言模型的計(jì)算復(fù)雜度主要來自自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò),總計(jì)算量與 Transformer 層數(shù)、序列長度、隱藏層維度及前饋網(wǎng)絡(luò)中間層大小相關(guān),序列長度由系統(tǒng)提示、圖像令牌和問題令牌組成且圖像令牌占比最大,因此控制圖像令牌數(shù)量是提升模型效率的關(guān)鍵,兩者形成 “痛點(diǎn)定位 - 技術(shù)落地” 的呼應(yīng),共同服務(wù)于提升視覺語言模型性能與效率的目標(biāo)。

02.

核心技術(shù)框架

VisionThink 旨在開發(fā)一種智能高效的視覺語言模型,能夠自主判斷低分辨率圖像是否足以回答問題,其流程為首先處理低分辨率圖像,若信息不足則輸出特殊令牌請求高分辨率圖像,進(jìn)而降低計(jì)算成本并保持性能。


而實(shí)現(xiàn)這一目標(biāo)需解決兩個(gè)挑戰(zhàn),一是將強(qiáng)化學(xué)習(xí)有效應(yīng)用于通用視覺問答,二是讓模型準(zhǔn)確判斷何時(shí)需要高分辨率圖像;通用視覺問答任務(wù)的多樣性和復(fù)雜性使得傳統(tǒng)基于規(guī)則的強(qiáng)化學(xué)習(xí)難以適用,為此提出“大型語言模型作為評判者” 策略,利用大型語言模型的語義理解能力評估模型輸出的正確性,評估僅基于文本比較預(yù)測答案與真實(shí)答案以避免視覺內(nèi)容干擾,并采用離散評分(0 或 1)減少誤判,實(shí)驗(yàn)表明該策略顯著提升了模型在通用視覺問答任務(wù)中的表現(xiàn),且無需預(yù)訓(xùn)練階段即可直接使用 130,000 個(gè)樣本進(jìn)行訓(xùn)練。

VisionThink 通過多輪交互實(shí)現(xiàn)動態(tài)分辨率處理,首先輸入低分辨率圖像和問題,若信息不足則模型輸出特殊令牌請求高分辨率圖像并生成新答案,擴(kuò)展了 GRPO 算法以支持多輪交互,優(yōu)化僅基于模型生成的輸出令牌,同時(shí)采用 Qwen2.5-VL 推薦的代理提示,實(shí)驗(yàn)證明其在零樣本場景下表現(xiàn)最佳,避免了訓(xùn)練初期因梯度缺失導(dǎo)致的優(yōu)化失敗。

獎勵函數(shù)包括準(zhǔn)確性獎勵、格式獎勵和懲罰機(jī)制,準(zhǔn)確性獎勵由 “大型語言模型作為評判者” 提供,正確答案得 1 分、錯(cuò)誤得 0 分,格式獎勵要求模型輸出包含推理過程(標(biāo)簽)、最終答案(標(biāo)簽)及正確格式的工具調(diào)用(JSON 格式),滿分 0.5 分,懲罰機(jī)制則防止模型總是請求高分辨率圖像或總是直接回答,若低分辨率圖像正確回答的概率低則對直接回答施加 0.1 分懲罰,若概率高則對高分辨率請求施加 0.1 分懲罰。


實(shí)驗(yàn)表明適當(dāng)?shù)膽土P閾值(如 0.2)能有效平衡兩種行為;為訓(xùn)練模型判斷何時(shí)需要高分辨率圖像,我們收集了 20,000 個(gè)樣本,包括 10,000 個(gè)需要高分辨率圖像的樣本和 10,000 個(gè)可用低分辨率圖像回答的樣本,使用基線模型 Qwen2.5VL-Instruct 進(jìn)行多次推理,基于正確率分類樣本,確保訓(xùn)練數(shù)據(jù)覆蓋兩種場景。

03.

實(shí)驗(yàn)結(jié)果

我們基于 Qwen2.5-VL-7B-Instruct 模型進(jìn)行實(shí)驗(yàn),采用 veRL 框架訓(xùn)練,設(shè)置批次大小為 512、學(xué)習(xí)率為 1e-6、生成 16 個(gè)候選響應(yīng),推理階段使用 vLLM 框架且溫度設(shè)為 0,評估覆蓋 ChartQA、OCRBench、DocVQA、MME、MMVet、RealWorldQA、POPE、MMMU 和 MathVista 等多個(gè)通用視覺問答基準(zhǔn),其中 ChartQA 和 OCRBench 等涉及細(xì)粒度文字識別。

VisionThink 在這些基準(zhǔn)上表現(xiàn)優(yōu)異,與基線模型 Qwen2.5-VL-7B-Instruct 相比,其在 MathVerse 和 MMVet 上的得分分別提升 3.7% 和 8.9%,達(dá)到 48.0 和 67.1,在 MME 上得分 2400、超越所有閉源模型,在 MathVista 上得分 71.2、優(yōu)于所有開源模型和部分閉源模型,而使用 130,000 個(gè)樣本的 “大型語言模型作為評判者” 策略進(jìn)一步驗(yàn)證了其在通用視覺問答任務(wù)中的有效性。


在效率方面,與使用全分辨率圖像的 QwenRL 和四分之一分辨率的 QwenRL 1/4 相比,VisionThink 的推理時(shí)間接近 QwenRL 1/4、顯著優(yōu)于 QwenRL,在 DocVQA 上其推理速度是 QwenRL 的兩倍以上,在 MME 和 POPE 上推理時(shí)間減少約三分之一,僅在需要文字識別的 ChartQA 上因請求高分辨率圖像而耗時(shí)略多,但此類任務(wù)占比較少,整體效率仍保持較高水平。


與 FastV、SparseVLM 和 VisionZip 等傳統(tǒng)高效視覺語言模型相比,VisionThink 的平均性能更優(yōu),尤其在 ChartQA 和 OCRBench 上分別提升 9.0% 和 8.3%,這得益于傳統(tǒng)方法依賴固定壓縮比例,而 VisionThink 能根據(jù)樣本內(nèi)容動態(tài)調(diào)整分辨率;同時(shí),VisionThink 具備智能決策能力,可自主判斷是否需要高分辨率圖像,在 ChartQA 和 OCRBench 等需細(xì)粒度視覺理解的任務(wù)中,高分辨率圖像請求比例分別達(dá) 79.1% 和 62.3%,而在 MME 和 DocVQA 等任務(wù)中,70% 以上樣本可直接使用低分辨率圖像回答,這種自適應(yīng)策略符合直覺,日常問題通常無需高分辨率圖像,而文字識別任務(wù)則依賴細(xì)節(jié)支撐。


04.

結(jié)論

本文介紹了VisionThink,一種用于通用視覺問答(General VQA)的新型范式,旨在提升效率和性能。通過首先處理下采樣圖像,并在需要時(shí)使用強(qiáng)化學(xué)習(xí)選擇性地將其上采樣到更高分辨率,VisionThink優(yōu)化了計(jì)算資源,同時(shí)保持了準(zhǔn)確性。

借助“將大語言模型作為裁判”的策略和定制的 Reward 函數(shù),VisionThink在多種視覺問答基準(zhǔn)測試中超越了現(xiàn)有的最先進(jìn)模型,特別是在需要細(xì)粒度細(xì)節(jié)的任務(wù)(如OCR)中表現(xiàn)尤為突出。作者相信VisionThink展示了強(qiáng)化學(xué)習(xí)在視覺語言模型中的潛力,并鼓勵開發(fā)更有效率和更高效的AI系統(tǒng)。

在本工作中,作者專注于2倍分辨率提升和最多兩次對話的設(shè)置,并取得了令人滿意的結(jié)果。然而,這一方法尚未擴(kuò)展到靈活分辨率提升的設(shè)置。此外,結(jié)合更多視覺工具(如裁剪)將進(jìn)一步提升效率和性能。再者,多輪(例如,超過5輪)圖像工具調(diào)用在解決復(fù)雜視覺問題方面將獲得更多收益。

----- END -----


wisemodel相關(guān):

系列模型:

關(guān)于wisemodel更多

1

歡迎持續(xù)關(guān)注和支持

開源社區(qū)建設(shè)需要長期堅(jiān)持和投入,更需要廣大用戶的積極參與、貢獻(xiàn)和維護(hù),歡迎大家加入wisemodel開源社區(qū)的志愿者計(jì)劃和開源共創(chuàng)計(jì)劃。期待更多開發(fā)者將開源成果,包括模型、數(shù)據(jù)集和代碼等發(fā)布到 wisemodel.cn 社區(qū),共建中立、開放的AI開源社區(qū)生態(tài)。歡迎掃碼添加wisemodel微信,申請加入wisemodel社群,持續(xù)關(guān)注wisemodel.cn開源社區(qū)動態(tài)。

2

歡迎加盟wisemodel開源社區(qū)

始智AI wisemodel社區(qū)自2023年9月上線以來,逐漸成為影響力日益擴(kuò)大的中立開放的AI開源社區(qū),為了加快公司發(fā)展,我們長期需要技術(shù)、運(yùn)營等人才加盟,技術(shù)側(cè)重在AI infra、后端開發(fā),熟悉K8S、模型訓(xùn)練和推理等技術(shù), 以及熟悉開發(fā)者生態(tài)運(yùn)營的成員,歡迎感興趣的朋友加盟,可以通過添加wisemodel微信,或者將簡歷投遞到郵箱:liudaoquan@wisemodel.cn

3

歡迎投稿優(yōu)質(zhì)內(nèi)容

歡迎投稿分享人工智能領(lǐng)域相關(guān)的優(yōu)秀研究成果,鼓勵高校實(shí)驗(yàn)室、大企業(yè)研究團(tuán)隊(duì)、個(gè)人等,在wisemodel平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是AI領(lǐng)域最新論文解讀、最新開源成果介紹,也可以是關(guān)于AI技術(shù)實(shí)踐、應(yīng)用和總結(jié)等。投稿可以發(fā)郵件到liudaoquan@wisemodel.cn,也可以掃碼添加wisemodel微信。

4

關(guān)于wisemodel開源社區(qū)

始智AI wisemodel.cn開源社區(qū)由清華校友總會AI大數(shù)據(jù)專委會副秘書長劉道全創(chuàng)立,旨在打造和建設(shè)中立開放的AI開源創(chuàng)新社區(qū),將打造成“HuggingFace”之外最活躍的AI開源社區(qū),匯聚主要AI開源模型、數(shù)據(jù)集和代碼等,歡迎高校科研院所、大型互聯(lián)網(wǎng)公司、創(chuàng)新創(chuàng)業(yè)企業(yè)、廣大個(gè)人開發(fā)者,以及政府部門、學(xué)會協(xié)會、聯(lián)盟、基金會等,還有投資機(jī)構(gòu)、科技媒體等,共同參與建設(shè)AI開源創(chuàng)新生態(tài)。

向上滑動查看

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
留幾手談張雪峰去世:死者又不是我爹,憑啥為大

留幾手談張雪峰去世:死者又不是我爹,憑啥為大

三言科技
2026-03-25 19:03:05
朝鮮戰(zhàn)場繳獲美軍火箭筒,拆解驚覺技術(shù)差距改寫陸軍征程

朝鮮戰(zhàn)場繳獲美軍火箭筒,拆解驚覺技術(shù)差距改寫陸軍征程

嘮叨說歷史
2026-03-18 13:40:57
越來越多人放棄華為,不是不支持,而是這4點(diǎn)太現(xiàn)實(shí)

越來越多人放棄華為,不是不支持,而是這4點(diǎn)太現(xiàn)實(shí)

番外行
2026-02-26 19:39:15
iPhone半夜自動打電話,蘋果官網(wǎng)發(fā)文回應(yīng)

iPhone半夜自動打電話,蘋果官網(wǎng)發(fā)文回應(yīng)

界面新聞
2026-03-26 15:46:22
俄羅斯人想不明白:為什么強(qiáng)大的中國,幾千年都不要西伯利亞?

俄羅斯人想不明白:為什么強(qiáng)大的中國,幾千年都不要西伯利亞?

賤議你讀史
2026-03-26 00:07:41
全國掛號費(fèi)最貴的專家其中10位

全國掛號費(fèi)最貴的專家其中10位

白宸侃片
2026-03-26 13:58:45
硬核!全省首臺!“抗癌神器”落地福建一醫(yī)院!新門診正式開診……

硬核!全省首臺!“抗癌神器”落地福建一醫(yī)院!新門診正式開診……

福建衛(wèi)生報(bào)
2026-03-26 20:09:44
總投資1129億!兩條時(shí)速350公里高鐵獲批,年內(nèi)開工!

總投資1129億!兩條時(shí)速350公里高鐵獲批,年內(nèi)開工!

新浪財(cái)經(jīng)
2026-03-27 01:41:14
皮克:曼聯(lián)現(xiàn)在的問題在管理;很感謝弗格森500萬鎊放我回巴薩

皮克:曼聯(lián)現(xiàn)在的問題在管理;很感謝弗格森500萬鎊放我回巴薩

懂球帝
2026-03-27 05:26:18
57歲男護(hù)工的勸告:只靠退休金養(yǎng)老的老人,晚年生活都過得很糟糕

57歲男護(hù)工的勸告:只靠退休金養(yǎng)老的老人,晚年生活都過得很糟糕

惟來
2026-03-26 14:46:11
王曼昱悼念張雪峰:曾在逆境中力挺的博主離世,網(wǎng)絡(luò)世界的真摯友誼

王曼昱悼念張雪峰:曾在逆境中力挺的博主離世,網(wǎng)絡(luò)世界的真摯友誼

天光破云來
2026-03-27 00:12:27
張雪峰猝死全過程曝光!知情人發(fā)聲,本來可以活,3次機(jī)會沒抓住

張雪峰猝死全過程曝光!知情人發(fā)聲,本來可以活,3次機(jī)會沒抓住

智慧生活筆記
2026-03-25 18:23:01
袁家軍會見王興興

袁家軍會見王興興

新京報(bào)政事兒
2026-03-26 16:45:34
我和老婆AA制34年,每月工資2萬3全交給我媽,老婆從不插手

我和老婆AA制34年,每月工資2萬3全交給我媽,老婆從不插手

周哥一影視
2026-03-26 16:47:18
生死3點(diǎn)45!意大利救贖之戰(zhàn)凌晨上演!會連續(xù)三屆無緣世界杯?

生死3點(diǎn)45!意大利救贖之戰(zhàn)凌晨上演!會連續(xù)三屆無緣世界杯?

運(yùn)動幫
2026-03-26 17:06:47
洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

洗草莓時(shí),有人放食鹽,有人放面粉,果農(nóng):都不對,教你正確做法

阿龍美食記
2026-02-28 10:49:43
微信直接能用!騰訊這只小龍蝦,幫我找到了最強(qiáng)股市薅羊毛姿勢

微信直接能用!騰訊這只小龍蝦,幫我找到了最強(qiáng)股市薅羊毛姿勢

極客公園
2026-03-25 12:08:53
圈內(nèi)大佬剛內(nèi)涵潛規(guī)則,關(guān)曉彤鹿晗分手原因就上熱搜,真瞞不住了

圈內(nèi)大佬剛內(nèi)涵潛規(guī)則,關(guān)曉彤鹿晗分手原因就上熱搜,真瞞不住了

情感大頭說說
2026-03-26 10:12:47
玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說明3個(gè)問題

玄學(xué)提醒:如果一個(gè)人還在穿著10年前的衣服,只說明3個(gè)問題

洞讀君
2026-03-04 14:30:12
劉曉慶妹妹首發(fā)聲:我們沒吸血,是她親手毀了我們后半生

劉曉慶妹妹首發(fā)聲:我們沒吸血,是她親手毀了我們后半生

TVB的四小花
2026-03-27 03:33:00
2026-03-27 06:15:00
wisemodel開源社區(qū) incentive-icons
wisemodel開源社區(qū)
始智AI wisemodel.cn開源社區(qū),打造中國版“huggingface”
466文章數(shù) 14關(guān)注度
往期回顧 全部

科技要聞

美團(tuán)發(fā)布外賣大戰(zhàn)后成績單:虧損超200億

頭條要聞

特朗普:對伊朗能源設(shè)施空襲再推遲10天

頭條要聞

特朗普:對伊朗能源設(shè)施空襲再推遲10天

體育要聞

申京努力了,然而杜蘭特啊

娛樂要聞

劉曉慶妹妹發(fā)聲!稱姐姐受身邊人挑撥

財(cái)經(jīng)要聞

油價(jià)"馴服"特朗普?一到100美元就TACO

汽車要聞

一汽奧迪A6L e-tron開啟預(yù)售 CLTC最大續(xù)航815km

態(tài)度原創(chuàng)

手機(jī)
教育
游戲
本地
軍事航空

手機(jī)要聞

1499 iQOO Z11系列發(fā)布丨9020mAh電池 165Hz高刷

教育要聞

2026青島要取消高中特色班招生?

PS1大IP游戲藏私貨!成人手繪與盜版馬里奧ROM塞滿

本地新聞

救命,這只醬板鴨已經(jīng)在我手機(jī)復(fù)仇了一萬遍

軍事要聞

擔(dān)心特朗普突然停戰(zhàn) 以總理下令48小時(shí)盡力摧毀伊設(shè)施

無障礙瀏覽 進(jìn)入關(guān)懷版