337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請入駐

Monet:賦予多模態(tài)大模型如人類一般的抽象視覺思考能力

0
分享至



“Think with images”范式,即通過工具調(diào)用或代碼生成等方法來在思考過程的中間步引入輔助圖像(如裁剪、標(biāo)定、作輔助線等),已經(jīng)成為增強(qiáng)多模態(tài)大語言模型(MLLMs)視覺推理能力的重要范式。這類方案雖然取得了不錯(cuò)的效果,但其對外部工具的依賴性也導(dǎo)致了幾個(gè)局限性:

  • 訓(xùn)練和推理復(fù)雜度高:訓(xùn)練時(shí)模型需要額外地學(xué)習(xí)各種工具和函數(shù)接口的使用方式,引入了額外的訓(xùn)練難度;同時(shí),多輪的交互式推理增加了推理延遲。
  • 操作類型受限:模型的能力受限于工具類型,難以泛化到簡單工具無法應(yīng)對的復(fù)雜任務(wù)上。
  • 難以擴(kuò)展為通用能力:每增加一類工具,就要重新標(biāo)注數(shù)據(jù)、設(shè)計(jì)接口,模型更像“工具調(diào)度中心”,而不是在真正“理解和想象”。

Monet實(shí)現(xiàn)了一種訓(xùn)練MLLM直接在連續(xù)的隱空間思考的 Think with image 方法,不再依賴外部工具或代碼,而是通過生成連續(xù)的“隱式視覺嵌入”(latent visual embeddings),像人一樣在腦海中“打草稿、畫草圖、做空間想象”,再給出答案,從而將視覺思考能力真正內(nèi)化。團(tuán)隊(duì)核心成員包括北京大學(xué)博士生王啟迅、史陽以及來自Amazon AGI SF Lab的王一飛。指導(dǎo)老師包括來自快手可靈團(tuán)隊(duì)的張遠(yuǎn)行和北京大學(xué)的英向華、王奕森。該工作已被 CVPR 2026 錄用。



  • 論文標(biāo)題:Monet: Reasoning in Latent Visual Space Beyond Images and Language
  • 論文鏈接:https://arxiv.org/abs/2511.21395
  • 代碼鏈接:https://github.com/NOVAglow646/Monet
  • 模型鏈接:https://huggingface.co/NOVAglow646/Monet-7B
  • 數(shù)據(jù)集鏈接:https://huggingface.co/datasets/NOVAglow646/Monet-SFT-125K

訓(xùn)練多模態(tài)模型進(jìn)行隱式視覺推理的挑戰(zhàn)

多模態(tài)模型的隱式推理的訓(xùn)練存在兩大難點(diǎn):

一、隱式嵌入(latent embedding)的監(jiān)督信號(hào)難以獲取。一種直觀的思路是直接對齊模型生成的隱式嵌入(即模型最后一層的表示)和中間步輔助圖像的表示,來讓隱式嵌入編碼輔助圖像信息(如近期的幾項(xiàng)工作[1-2])。然而,輔助圖像的token數(shù)量往往成百上千,直接對齊會(huì)引入高昂的計(jì)算和存儲(chǔ)開銷,因此現(xiàn)有工作選擇壓縮圖像token為10個(gè)左右,或只取關(guān)鍵區(qū)域的少數(shù)token進(jìn)行對齊。這進(jìn)一步導(dǎo)致了細(xì)粒度視覺信息丟失、只能編碼裁剪區(qū)域的視覺信息而無法編碼全圖操作的信息。

二、隱式嵌入難以被真正優(yōu)化。監(jiān)督微調(diào)(SFT)過程中,常規(guī)的“預(yù)測下一個(gè)詞”(next-token-prediction)的目標(biāo)很容易通過“記住”訓(xùn)練數(shù)據(jù)實(shí)現(xiàn),從而繞過對隱式嵌入的優(yōu)化;此外,強(qiáng)化學(xué)習(xí)(RL)過程中,常規(guī)的GRPO只能在文本token上計(jì)算損失,導(dǎo)致了獎(jiǎng)勵(lì)信號(hào)難以直接施加到隱式嵌入上。

方法概覽:

監(jiān)督微調(diào) + 強(qiáng)化學(xué)習(xí)激發(fā)隱式視覺推理能力

為了讓模型學(xué)會(huì)在隱空間進(jìn)行視覺思考,作者提出了一個(gè)監(jiān)督微調(diào)(SFT)+強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練框架,以Qwen2.5-VL-7B為基模型進(jìn)行訓(xùn)練。訓(xùn)練后的模型Monet-7B能在推理過程中自主決定何時(shí)啟動(dòng)隱式思考,并生成一個(gè)特殊標(biāo)記(如“

”),此后輸出的若干向量,不再對應(yīng)可讀文字,而是被視作一段隱式的視覺嵌入插入思維鏈中。當(dāng)隱式嵌入達(dá)到預(yù)設(shè)的長度后,將回到語言推理模式。上述過程可在一次推理中交替進(jìn)行。



圖1左圖:Monet的推理過程示意。右圖:Monet的三階段SFT和RL(VLPO為作者提出的全新強(qiáng)化學(xué)習(xí)算法)過程示意。

SFT數(shù)據(jù)集構(gòu)建:Monet-SFT-125K

雖然目前已有不少公開的圖文交錯(cuò)的思維鏈數(shù)據(jù)集[3-6],但它們存在如下的局限性:

1.某些輔助圖像缺乏必要性:問題簡單,不用輔助圖像就能做對;

2.某些輔助圖像不準(zhǔn)確:比如裁剪區(qū)域與答案無關(guān);

3.缺少對于真正有價(jià)值的token的標(biāo)注:比如與答案最相關(guān)的少數(shù)關(guān)鍵token等。

為了解決上述缺陷,作者提出了一個(gè)多階段的數(shù)據(jù)集校正流程。如下圖所示,從現(xiàn)有的圖文交錯(cuò)CoT第一階段選出在只給出問題和輸入圖像時(shí)Qwen2.5-VL-7B回答錯(cuò)誤的樣本以保證使用輔助圖像的必要性;

第二階段在第一輪得到的樣本中,篩選出僅給出問題和輔助圖像(沒有問題圖像)時(shí)較強(qiáng)模型(Qwen2.5-VL-72B)能回答對的樣本,以確保輔助圖像的準(zhǔn)確性;

第三階段,使用了閉源模型將對應(yīng)于輔助圖像中的關(guān)鍵視覺信息的文本token標(biāo)注出來,以作為后續(xù)訓(xùn)練的監(jiān)督信號(hào)。

最終得到的Monet-SFT-125K包含多種類型的視覺操作(裁剪、標(biāo)定、做輔助線、生成新的視覺狀態(tài))和任務(wù)(以真實(shí)世界、圖表、OCR任務(wù)為主)。



圖2Monet-SFT-125K數(shù)據(jù)集的構(gòu)建流程

監(jiān)督微調(diào):

讓模型自主將輔助圖像中的有價(jià)值信息編碼進(jìn)隱式嵌入

SFT分成三個(gè)階段。

SFT第一階段:預(yù)熱。先在構(gòu)建的Monet-SFT-125K上進(jìn)行預(yù)熱(warm-up)微調(diào),這一步是為了讓模型適應(yīng)圖文交錯(cuò)的推理模式。若沒有這一過程,模型將容易忽略思維鏈中間的輔助圖像,如圖3所示。該步獲取的模型權(quán)重將用于后續(xù)階段。



圖3 預(yù)熱微調(diào)過程中模型對于訓(xùn)練數(shù)據(jù)中對應(yīng)于關(guān)鍵觀察的token的預(yù)測準(zhǔn)確性。藍(lán)色:給出輔助圖像。灰色虛線:移除輔助圖像。綠色:二者準(zhǔn)確率差值。隨著預(yù)熱的進(jìn)行,使用輔助圖像相比不使用時(shí)準(zhǔn)確率的提升越來越大,說明模型逐步學(xué)會(huì)利用中間步圖像。

SFT第二階段:獲取高質(zhì)量的隱式嵌入。這一階段是為了獲取產(chǎn)生高質(zhì)量的隱式嵌入來作為第三階段的對齊目標(biāo)。為了避免直接對齊隱式嵌入和輔助圖像嵌入所帶來的高額開銷,作者提出了使用兩種監(jiān)督信號(hào)來指導(dǎo)隱式嵌入的生成。首先,為了使隱式嵌入能發(fā)揮與輔助圖像相似的效果,作者提出對齊給定輔助圖像和給定隱式嵌入時(shí)后續(xù)關(guān)鍵token的模型中間層表示(分別對應(yīng)于圖4中的“Teacher CoT”和“Student CoT”),即,采用如下的對齊損失:





另外,為了使對齊損失確確實(shí)實(shí)是通過調(diào)整隱式嵌入而不是被“走捷徑”優(yōu)化的,作者提出讓對齊損失的梯度僅能通過隱式嵌入流向模型參數(shù)。實(shí)現(xiàn)細(xì)節(jié)可見原文。





圖4 SFT第二階段示意。包含對齊損失和next-token-prediction損失兩部分。其中Teacher CoT為包含輔助圖像的圖文交錯(cuò)CoT;Student CoT中輔助圖像后為生成的隱式嵌入,且輔助圖像能且僅能被隱式嵌入可見。

SFT第三階段:讓模型學(xué)會(huì)“從零開始”隱式思考。由于上一階段隱式嵌入的產(chǎn)生是在隱式嵌入直接可見輔助圖像的情況下的,這與實(shí)際應(yīng)用時(shí)存在差異。

為此,在第三階段中,作者將第二階段訓(xùn)練后模型產(chǎn)生的高質(zhì)量隱式嵌入作為目標(biāo),讓模型在不可見輔助圖像情況時(shí)產(chǎn)生的隱式嵌入與之對齊,如圖5所示。

同時(shí)這一階段仍包含next-token-prediction損失,以讓隱式嵌入幫助后續(xù)推理。



圖5 SFT第三階段示意。這一階段的目標(biāo)為對齊無輔助圖像時(shí)產(chǎn)生的隱式嵌入和來自第二階段的高質(zhì)量目標(biāo)隱式嵌入。VLPO:專為隱式思考設(shè)計(jì)的強(qiáng)化學(xué)習(xí)



為此,作者提出了VLPO(Visual-latent policy optimization),通過估計(jì)隱式嵌入的生成概率來將其納入損失函數(shù)的計(jì)算之中。







Monet帶來了分布內(nèi)和分布外視覺推理能力的提升



圖6 分布內(nèi)的感知和推理任務(wù)上的性能(真實(shí)世界、圖表、OCR任務(wù))



圖7 分布外視覺推理任務(wù)上的性能(抽象視覺推理任務(wù))

主要結(jié)果:作者在分布內(nèi)任務(wù)(真實(shí)世界、圖表、OCR)和分布外任務(wù)(抽象視覺推理)上測試了Monet-7B。

結(jié)果如圖6和圖7所示,Monet超過了SFT、SFT+GRPO以及現(xiàn)有的think with images和隱式視覺推理的基線。相比基模型,在分布內(nèi)和分布外任務(wù)分別取得了3%~9.75%和2.31%的提升。



圖8 消融實(shí)驗(yàn)。“Latent-only” BP為SFT階段二中讓對齊損失的梯度僅流向隱式嵌入的設(shè)計(jì);“auxiliary img”為SFT階段二中在student COT中引入輔助圖像的操作。

消融實(shí)驗(yàn):作者通過全面的消融實(shí)驗(yàn)驗(yàn)證了SFT階段各組件的必要性,以及提出的VLPO在SFT模型(Monet-SFT)基礎(chǔ)上帶來的進(jìn)一步提升。

值得注意的是,在Monet-SFT基礎(chǔ)上進(jìn)一步進(jìn)行GRPO并不能帶來穩(wěn)定的提升,印證了GRPO的局限性。

探究隱式嵌入數(shù)量對性能的影響



圖9 橫軸:測試時(shí)隱式嵌入數(shù)量。縱軸:測試準(zhǔn)確率。三條綠色線為Monet-SFT模型,訓(xùn)練時(shí)隱式嵌入數(shù)量分別為8、10、12;藍(lán)色為SFT(K=8)+VLPO(K=10);粉色為SFT(K=8)+GRPO.

作者探究了不同的訓(xùn)練時(shí)和測試時(shí)隱式嵌入數(shù)量K對性能的影響。核心觀察總結(jié)如下:

  • 對于分布內(nèi)任務(wù),使用隱式思考確實(shí)相比純文本思考能帶來提升;對于分布外任務(wù),只有經(jīng)過VLPO訓(xùn)練的模型的隱式思考能相比純文本帶來額外提升。
  • 對于分布內(nèi)任務(wù),Monet-SFT模型展現(xiàn)出了測試時(shí)的縮放定律(test-time scaling law):測試時(shí)隨著隱式嵌入數(shù)量(甚至遠(yuǎn)超訓(xùn)練時(shí)所見到的長度)增加性能上升;對于分布外任務(wù),只有VLPO展現(xiàn)出了這一趨勢;
  • GRPO主要提升非隱式思考的性能(測試時(shí)latent size=0),而對于隱式思考(測試時(shí)latent size>0)提升不明顯。

更多細(xì)節(jié)請參考原文。

參考文獻(xiàn):

[1] Zeyuan Yang, Xueyang Yu, Delin Chen, Maohao Shen, and Chuang Gan. Machine mental imagery: Empower multimodal reasoning with latent visual tokens. arXiv preprint arXiv:2506.17218, 2025.

[2] Bangzheng Li, Ximeng Sun, Jiang Liu, Ze Wang, Jialian Wu, Xiaodong Yu, Hao Chen, Emad Barsoum, Muhao Chen, and Zicheng Liu. Latent visual reasoning. arXiv preprint arXiv:2509.24251, 2025.

[3] Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, and Hongsheng Li. Visual cot: Unleashing chain-of-thought reasoning in multi-modal language models. CoRR, 2024

[4] Ang Li, Charles Wang, Kaiyu Yue, Zikui Cai, Ollie Liu, Deqing Fu, Peng Guo, Wang Bill Zhu, Vatsal Sharan, Robin Jia, et al. Zebra-cot: A dataset for interleaved vision language reasoning. arXiv preprint arXiv:2507.16746, 2025.

[5] Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, and Cha Zhang. Refocus: Visual editing as a chain of thought for structured image understanding. In ICML, 2025

[6] Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, et al. Cogcom: A visual language model with chain-ofmanipulations reasoning. In ICLR, 2025.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
國產(chǎn)大模型集體轉(zhuǎn)身

國產(chǎn)大模型集體轉(zhuǎn)身

智遠(yuǎn)同學(xué)
2026-04-20 08:38:12
騰訊推出“QQ音樂暢聽耳機(jī)”:提供會(huì)員曲庫10年暢聽,399元

騰訊推出“QQ音樂暢聽耳機(jī)”:提供會(huì)員曲庫10年暢聽,399元

IT之家
2026-04-20 16:02:11
蘋果用25年把一個(gè)修顯示器的工程師送上CEO的位置,這不是論資排輩,因?yàn)锳I時(shí)代的競爭最終要回到一個(gè)問題:誰更懂硬件和軟件怎么長在一起

蘋果用25年把一個(gè)修顯示器的工程師送上CEO的位置,這不是論資排輩,因?yàn)锳I時(shí)代的競爭最終要回到一個(gè)問題:誰更懂硬件和軟件怎么長在一起

打破砂鍋看本質(zhì)
2026-04-21 09:52:24
保加利亞親俄候選人贏得議會(huì)選舉,另一個(gè)歐爾班來臨?

保加利亞親俄候選人贏得議會(huì)選舉,另一個(gè)歐爾班來臨?

山河路口
2026-04-20 20:38:41
王行環(huán)坐鎮(zhèn)雷神山,一個(gè)泌尿外科護(hù)士長手冊,后來進(jìn)了10多家方艙

王行環(huán)坐鎮(zhèn)雷神山,一個(gè)泌尿外科護(hù)士長手冊,后來進(jìn)了10多家方艙

寶哥精彩賽事
2026-04-21 11:32:00
1比1平!季后賽19分大逆轉(zhuǎn)!愛德華茲一條腿砍30分

1比1平!季后賽19分大逆轉(zhuǎn)!愛德華茲一條腿砍30分

籃球教學(xué)論壇
2026-04-21 14:03:43
離婚后想找一個(gè)比前夫條件更好的為啥那么難 網(wǎng)友們是一片嘲笑聲

離婚后想找一個(gè)比前夫條件更好的為啥那么難 網(wǎng)友們是一片嘲笑聲

侃神評故事
2026-04-21 07:20:03
酒店窗簾太透明情侶全然不知! 60秒視頻片流出…路人狂拍

酒店窗簾太透明情侶全然不知! 60秒視頻片流出…路人狂拍

環(huán)球趣聞分享
2026-04-20 14:57:07
張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

張子強(qiáng)團(tuán)伙中,唯一聽了李嘉誠建議買28套豪宅的青年,后來如何了

深度報(bào)
2026-04-14 22:45:47
19分逆轉(zhuǎn)!約基奇24+15犯錯(cuò),華子30+10穆雷末節(jié)拉胯,戈貝爾立功

19分逆轉(zhuǎn)!約基奇24+15犯錯(cuò),華子30+10穆雷末節(jié)拉胯,戈貝爾立功

魚崖大話籃球
2026-04-21 13:37:59
張維為:如果中美開戰(zhàn),第2天全世界就發(fā)現(xiàn),美國不再是超級(jí)大國

張維為:如果中美開戰(zhàn),第2天全世界就發(fā)現(xiàn),美國不再是超級(jí)大國

騷年先鋒
2026-04-21 11:24:07
A股:周二突然跳水,原因有兩點(diǎn),行情要變了?

A股:周二突然跳水,原因有兩點(diǎn),行情要變了?

明心
2026-04-21 11:40:13
左小青這狀態(tài),鯊瘋了!明媚動(dòng)人,若隱若現(xiàn)

左小青這狀態(tài),鯊瘋了!明媚動(dòng)人,若隱若現(xiàn)

只要高興就好
2025-12-10 19:09:26
世錦賽今日賽程:中國4人出場,國強(qiáng)硬剛火箭,范爭一再戰(zhàn)墨菲

世錦賽今日賽程:中國4人出場,國強(qiáng)硬剛火箭,范爭一再戰(zhàn)墨菲

老高說體育
2026-04-21 11:05:08
減速機(jī)訂單已排到明年!人形機(jī)器人“物種爆發(fā)” 2030年全球出貨量將超50萬?

減速機(jī)訂單已排到明年!人形機(jī)器人“物種爆發(fā)” 2030年全球出貨量將超50萬?

財(cái)聯(lián)社
2026-04-21 07:54:05
594億打水漂!超60國不參加奧運(yùn)會(huì),運(yùn)動(dòng)員僅5200人,中美未出席

594億打水漂!超60國不參加奧運(yùn)會(huì),運(yùn)動(dòng)員僅5200人,中美未出席

拳擊時(shí)空
2026-04-21 06:22:26
華子真TM硬!一條腿砍30分!1比1,淚目!

華子真TM硬!一條腿砍30分!1比1,淚目!

左右為籃
2026-04-21 13:40:09
梁家輝五次封帝,他與梁朝偉究竟誰是香港演技第一?

梁家輝五次封帝,他與梁朝偉究竟誰是香港演技第一?

手工制作阿殲
2026-04-21 00:38:06
鄭州明確!4月30日截止!錯(cuò)過再等一年

鄭州明確!4月30日截止!錯(cuò)過再等一年

大象新聞
2026-04-21 11:43:03
G2森林狼119-114戰(zhàn)勝掘金 球員評價(jià):4人優(yōu)秀,2人良好,4人低迷

G2森林狼119-114戰(zhàn)勝掘金 球員評價(jià):4人優(yōu)秀,2人良好,4人低迷

籃球資訊達(dá)人
2026-04-21 13:52:26
2026-04-21 14:28:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
12816文章數(shù) 142633關(guān)注度
往期回顧 全部

科技要聞

重磅官宣:庫克卸任,特努斯接任蘋果CEO

頭條要聞

匈牙利當(dāng)選總理毛焦?fàn)枺喝魞?nèi)塔尼亞胡入境 必將被逮捕

頭條要聞

匈牙利當(dāng)選總理毛焦?fàn)枺喝魞?nèi)塔尼亞胡入境 必將被逮捕

體育要聞

“被優(yōu)化”8年后,國乒方博決定換一條路重新上場

娛樂要聞

周潤發(fā)時(shí)隔16年再賣樓,變現(xiàn)數(shù)億資產(chǎn)

財(cái)經(jīng)要聞

減速機(jī)訂單已排到明年!

汽車要聞

把天門山搬進(jìn)廠?開仰望U8沖上45度坡的那刻 我腿軟了

態(tài)度原創(chuàng)

教育
游戲
藝術(shù)
手機(jī)
公開課

教育要聞

全民閱讀大會(huì)少年走心感悟,人生自有方向

猛男必玩國產(chǎn)游戲官宣PSSR2更新!PS5 Pro玩家有福了

藝術(shù)要聞

任伯年寫竹,真帶勁

手機(jī)要聞

Omdia預(yù)測:2026年智能手機(jī)AMOLED面板出貨下滑7%

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版