網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

石溪大學(xué)：狀態(tài)空間模型挑戰(zhàn)Transformer視覺(jué)語(yǔ)言領(lǐng)域主導(dǎo)地位

2026-03-31 16:31:34　來(lái)源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由Stony Brook大學(xué)研究團(tuán)隊(duì)開(kāi)展的前沿研究發(fā)表于2026年3月，論文編號(hào)為arXiv:2603.19209v1，為我們重新審視視覺(jué)語(yǔ)言模型的設(shè)計(jì)理念提供了全新視角。當(dāng)我們談到讓計(jì)算機(jī)同時(shí)理解圖片和文字的技術(shù)時(shí)，就像是在討論如何讓機(jī)器擁有人類般的視覺(jué)與語(yǔ)言協(xié)調(diào)能力。

近年來(lái)，視覺(jué)語(yǔ)言模型已經(jīng)成為人工智能領(lǐng)域的明星技術(shù)，它們能夠看懂圖片、理解文字，甚至回答關(guān)于圖像內(nèi)容的復(fù)雜問(wèn)題。這就好比讓計(jì)算機(jī)擁有了一雙"慧眼"，不僅能看到圖片中有什么，還能用文字準(zhǔn)確描述出來(lái)，甚至回答我們提出的各種問(wèn)題。

然而，目前幾乎所有的視覺(jué)語(yǔ)言模型都依賴于一種叫做Vision Transformer（ViT）的視覺(jué)編碼器，這就像所有的廚師都在使用同一種烹飪工具。Stony Brook大學(xué)的研究團(tuán)隊(duì)開(kāi)始思考：是否還有其他更好的"工具"可以勝任這項(xiàng)工作？他們將目光投向了一種相對(duì)較新的架構(gòu)——狀態(tài)空間模型（State Space Model，SSM），特別是其中的VMamba模型。

這項(xiàng)研究的獨(dú)特之處在于，它首次在嚴(yán)格控制的實(shí)驗(yàn)環(huán)境下系統(tǒng)比較了不同視覺(jué)編碼器的表現(xiàn)。研究團(tuán)隊(duì)就像是在進(jìn)行一場(chǎng)公平的烹飪比賽，讓所有參賽選手使用相同的食材、相同的廚房設(shè)備，唯一不同的就是他們手中的烹飪工具，這樣才能真正看出哪種工具更優(yōu)秀。

研究團(tuán)隊(duì)發(fā)現(xiàn)，VMamba這種基于狀態(tài)空間模型的視覺(jué)編碼器在多項(xiàng)任務(wù)中表現(xiàn)出色，特別是在需要精確定位圖像中特定物體的任務(wù)上，它的表現(xiàn)甚至超過(guò)了規(guī)模更大的Transformer模型。這就像發(fā)現(xiàn)了一種新的烹飪工具，不僅使用起來(lái)更加高效，而且在某些菜系上的表現(xiàn)還要優(yōu)于傳統(tǒng)工具。

一、重新思考視覺(jué)編碼器的選擇

當(dāng)我們討論視覺(jué)語(yǔ)言模型時(shí)，可以把它想象成一個(gè)翻譯官的工作流程。首先，翻譯官需要"看懂"圖片（視覺(jué)編碼器的工作），然后將看到的內(nèi)容轉(zhuǎn)換成一種中間語(yǔ)言（連接器的工作），最后用自然語(yǔ)言表達(dá)出來(lái)（語(yǔ)言模型的工作）。在這個(gè)過(guò)程中，視覺(jué)編碼器就像翻譯官的"眼睛"，它的好壞直接決定了整個(gè)翻譯質(zhì)量。

長(zhǎng)期以來(lái)，幾乎所有的研究團(tuán)隊(duì)都選擇使用Vision Transformer作為這雙"眼睛"。這種選擇就像大家都默認(rèn)使用同一個(gè)牌子的相機(jī)，雖然這個(gè)牌子確實(shí)不錯(cuò)，但人們很少去嘗試其他可能更優(yōu)秀的選擇。Stony Brook大學(xué)的研究團(tuán)隊(duì)意識(shí)到這種現(xiàn)狀存在問(wèn)題：如果大家都只用一種工具，怎么知道是否還有更好的選擇呢？

Vision Transformer的工作原理類似于將一張圖片切成許多小塊，然后通過(guò)注意力機(jī)制來(lái)理解這些小塊之間的關(guān)系。這種方法確實(shí)有效，但它有一個(gè)潛在的問(wèn)題：它對(duì)圖像中物體的精確位置信息處理得不夠好。這就像一個(gè)人能認(rèn)出照片中有一只貓，但很難準(zhǔn)確指出貓的具體位置。

相比之下，狀態(tài)空間模型采用了一種完全不同的策略。VMamba這種模型會(huì)沿著圖像的行和列進(jìn)行掃描，就像我們閱讀文字時(shí)從左到右、從上到下的順序一樣。這種掃描方式讓它能更好地保持對(duì)空間位置的敏感性，就像一個(gè)偵探仔細(xì)檢查現(xiàn)場(chǎng)的每一個(gè)角落，不會(huì)遺漏任何重要的位置線索。

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嚴(yán)格的對(duì)比實(shí)驗(yàn)。他們讓不同的視覺(jué)編碼器在完全相同的條件下工作，就像讓不同的選手使用相同的跑道、相同的起跑條件，這樣才能公平地比較他們的實(shí)際能力。實(shí)驗(yàn)結(jié)果顯示，VMamba在許多任務(wù)上的表現(xiàn)都令人印象深刻，特別是在需要精確定位的任務(wù)中。

二、令人意外的發(fā)現(xiàn)：小而美的力量

在這項(xiàng)研究中，最令人驚訝的發(fā)現(xiàn)之一是，模型的大小和在ImageNet數(shù)據(jù)集上的準(zhǔn)確率并不能可靠地預(yù)測(cè)它在視覺(jué)語(yǔ)言任務(wù)中的表現(xiàn)。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了一個(gè)反直覺(jué)的事實(shí)：最昂貴的跑車不一定在城市道路上跑得最快。

傳統(tǒng)觀念認(rèn)為，模型越大、在標(biāo)準(zhǔn)視覺(jué)任務(wù)上表現(xiàn)越好的編碼器，在視覺(jué)語(yǔ)言任務(wù)中也應(yīng)該表現(xiàn)更出色。然而，研究結(jié)果卻顯示了相反的情況。一些規(guī)模較大、在ImageNet上準(zhǔn)確率更高的模型，在實(shí)際的視覺(jué)語(yǔ)言任務(wù)中反而表現(xiàn)不如較小的模型。

這種現(xiàn)象的背后原因很有趣。研究團(tuán)隊(duì)發(fā)現(xiàn)，那些在分類任務(wù)上表現(xiàn)突出的大型模型，往往過(guò)度專注于識(shí)別圖像中的主要物體類別，而忽略了空間位置信息的保持。這就像一個(gè)人變得過(guò)于專注于識(shí)別物體的名稱，卻忘記了記住這些物體在哪里。

以MaxViT模型為例，隨著模型規(guī)模從T增長(zhǎng)到L，雖然它們?cè)贗mageNet上的準(zhǔn)確率不斷提高，但在視覺(jué)語(yǔ)言任務(wù)中的定位表現(xiàn)卻逐漸下降。這種現(xiàn)象被研究團(tuán)隊(duì)稱為"分類目標(biāo)過(guò)擬合"，意思是模型變得過(guò)于專注于分類任務(wù)，反而損害了其他能力。

相比之下，VMamba模型展現(xiàn)出了更好的平衡性。即使是較小規(guī)模的VMamba-T和VMamba-S模型，也能在保持良好分類能力的同時(shí)，維持出色的空間定位能力。這種特性讓它們?cè)谝曈X(jué)語(yǔ)言任務(wù)中表現(xiàn)更加穩(wěn)定和可靠。

更有趣的是，研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些模型在高分辨率檢測(cè)任務(wù)中出現(xiàn)的"定位崩潰"現(xiàn)象。某些在標(biāo)準(zhǔn)設(shè)置下表現(xiàn)正常的模型，一旦應(yīng)用到高分辨率的目標(biāo)檢測(cè)任務(wù)中，就會(huì)突然失去定位能力，就像一個(gè)平時(shí)表現(xiàn)良好的GPS導(dǎo)航系統(tǒng)在復(fù)雜路況下突然失靈。

三、密集任務(wù)預(yù)訓(xùn)練的神奇效果

研究團(tuán)隊(duì)還探索了一個(gè)重要問(wèn)題：如果讓視覺(jué)編碼器先學(xué)習(xí)一些需要精確空間定位的任務(wù)，比如目標(biāo)檢測(cè)或圖像分割，它們?cè)谝曈X(jué)語(yǔ)言任務(wù)中的表現(xiàn)會(huì)有所改善嗎？這就像讓一個(gè)翻譯官先接受專門(mén)的地圖閱讀訓(xùn)練，然后再去描述風(fēng)景照片。

實(shí)驗(yàn)結(jié)果證實(shí)了這種猜想。無(wú)論是基于Transformer的ViTDet模型，還是基于狀態(tài)空間模型的VMamba，在經(jīng)過(guò)檢測(cè)或分割任務(wù)的預(yù)訓(xùn)練后，它們?cè)谝曈X(jué)語(yǔ)言任務(wù)中的定位能力都得到了顯著提升。這種改善就像給翻譯官的大腦裝上了一個(gè)專門(mén)處理空間信息的模塊。

特別值得注意的是，分割任務(wù)的預(yù)訓(xùn)練效果比檢測(cè)任務(wù)更加穩(wěn)定。檢測(cè)任務(wù)的預(yù)訓(xùn)練雖然能在某些情況下帶來(lái)顯著改善，但在另一些情況下卻可能導(dǎo)致性能崩潰。相比之下，分割任務(wù)的預(yù)訓(xùn)練幾乎總是能帶來(lái)穩(wěn)定的性能提升，而且很少出現(xiàn)失敗案例。

這種差異的原因在于兩種任務(wù)的特點(diǎn)不同。檢測(cè)任務(wù)主要關(guān)注找出物體的大概位置和類別，而分割任務(wù)則需要精確地為圖像中的每個(gè)像素分配標(biāo)簽，這要求模型對(duì)空間細(xì)節(jié)有更深入的理解。因此，經(jīng)過(guò)分割任務(wù)訓(xùn)練的模型在處理需要精確定位的視覺(jué)語(yǔ)言任務(wù)時(shí)表現(xiàn)更加出色。

有趣的是，VMamba模型從這種密集任務(wù)預(yù)訓(xùn)練中獲得的收益相對(duì)較小，但這恰恰說(shuō)明了它本身就具備了良好的空間處理能力。這就像一個(gè)天生具有空間感知天賦的人，即使不經(jīng)過(guò)特殊訓(xùn)練，也能在需要空間定位的任務(wù)中表現(xiàn)出色。

四、診斷和解決定位崩潰問(wèn)題

在研究過(guò)程中，團(tuán)隊(duì)遇到了一個(gè)令人困惑的現(xiàn)象：某些本來(lái)表現(xiàn)良好的模型在特定條件下會(huì)突然失去定位能力，這種現(xiàn)象被稱為"定位崩潰"。就像一臺(tái)平時(shí)運(yùn)行正常的機(jī)器突然出現(xiàn)故障，需要找出故障原因并提出解決方案。

研究團(tuán)隊(duì)通過(guò)細(xì)致的分析發(fā)現(xiàn)，定位崩潰主要源于兩個(gè)方面的問(wèn)題。第一個(gè)問(wèn)題是"傳輸瓶頸"，即連接器的容量不足以完整傳遞視覺(jué)編碼器提取的空間信息，就像一條過(guò)窄的管道無(wú)法讓足夠的水流通過(guò)。第二個(gè)問(wèn)題是"利用瓶頸"，即語(yǔ)言模型無(wú)法有效利用傳遞過(guò)來(lái)的空間信息，特別是當(dāng)輸入圖像的幾何形狀（如分辨率或長(zhǎng)寬比）與預(yù)訓(xùn)練時(shí)的設(shè)置不匹配時(shí)。

為了解決這些問(wèn)題，研究團(tuán)隊(duì)提出了兩種簡(jiǎn)單而有效的穩(wěn)定化策略。第一種策略是增強(qiáng)連接器的能力，將原來(lái)的兩層神經(jīng)網(wǎng)絡(luò)連接器升級(jí)為三層，這就像將管道加寬，讓更多的信息能夠通過(guò)。第二種策略是調(diào)整輸入圖像的幾何形狀，特別是使用正方形輸入而不是矩形輸入，這樣可以減少語(yǔ)言模型在處理空間信息時(shí)的困難。

實(shí)驗(yàn)結(jié)果顯示，這兩種策略都能有效緩解定位崩潰問(wèn)題，而且它們的效果是互補(bǔ)的。當(dāng)同時(shí)應(yīng)用這兩種策略時(shí)，幾乎所有的崩潰案例都得到了解決，模型的定位能力也得到了顯著恢復(fù)。

更重要的是，這些穩(wěn)定化策略的效果是跨架構(gòu)的，不僅對(duì)Transformer模型有效，對(duì)狀態(tài)空間模型也同樣適用。這說(shuō)明定位崩潰問(wèn)題的根源在于視覺(jué)-語(yǔ)言接口的設(shè)計(jì)，而不是特定的視覺(jué)編碼器架構(gòu)。

五、深入理解VMamba的優(yōu)勢(shì)

為了更好地理解VMamba為什么在定位任務(wù)中表現(xiàn)出色，研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分析和可視化研究。他們發(fā)現(xiàn)，VMamba的優(yōu)勢(shì)主要來(lái)源于其獨(dú)特的架構(gòu)設(shè)計(jì)。

VMamba采用了一種稱為"2D選擇性掃描"的機(jī)制，它會(huì)沿著圖像的行和列方向進(jìn)行四次不同的掃描，每個(gè)位置的像素都能接收到來(lái)自四個(gè)方向的狀態(tài)更新。這種設(shè)計(jì)讓VMamba能夠在整個(gè)網(wǎng)絡(luò)的處理過(guò)程中持續(xù)保持對(duì)空間結(jié)構(gòu)的敏感性，就像一個(gè)有經(jīng)驗(yàn)的偵探會(huì)從多個(gè)角度仔細(xì)觀察現(xiàn)場(chǎng)，確保不遺漏任何重要細(xì)節(jié)。

相比之下，傳統(tǒng)的Vision Transformer對(duì)于圖像塊的處理順序是無(wú)關(guān)緊要的，它主要依靠位置編碼來(lái)保持空間信息。然而，在標(biāo)準(zhǔn)的分類預(yù)訓(xùn)練過(guò)程中，這些位置信息往往會(huì)被逐漸弱化，因?yàn)槟Ｐ桶l(fā)現(xiàn)僅僅識(shí)別物體類別就足以完成分類任務(wù)，不需要精確的位置信息。

研究團(tuán)隊(duì)通過(guò)可視化分析展示了這種差異的具體表現(xiàn)。在處理同一張圖像時(shí)，VMamba能夠產(chǎn)生更加集中、更加精確的注意力分布，準(zhǔn)確地聚焦在查詢對(duì)象上。而ViT的注意力往往比較分散，容易被圖像中的多個(gè)區(qū)域分散注意力，導(dǎo)致定位不夠精確。

這種差異在實(shí)際應(yīng)用中的表現(xiàn)是顯著的。在處理"圖像中左邊的長(zhǎng)頸鹿"這樣的查詢時(shí)，VMamba能夠準(zhǔn)確地將注意力集中在左側(cè)的長(zhǎng)頸鹿上，而ViT可能會(huì)同時(shí)關(guān)注圖像中的多只長(zhǎng)頸鹿，導(dǎo)致定位模糊。

六、全面的性能比較和分析

研究團(tuán)隊(duì)進(jìn)行了極其全面的性能比較，涵蓋了從基礎(chǔ)的圖像問(wèn)答到復(fù)雜的目標(biāo)定位等多種任務(wù)。這種全面比較就像對(duì)不同品牌的汽車進(jìn)行各種路況下的測(cè)試，包括城市道路、高速公路、山地路況等，以全面評(píng)估它們的性能。

在標(biāo)準(zhǔn)的ImageNet預(yù)訓(xùn)練設(shè)置下，VMamba的各個(gè)版本（從小型的VMamba-T到中型的VMamba-S）都展現(xiàn)出了優(yōu)秀的整體性能。特別是在定位相關(guān)的任務(wù)中，VMamba的表現(xiàn)始終保持在領(lǐng)先地位。這種一致性表明，VMamba的優(yōu)勢(shì)不是偶然的，而是其架構(gòu)特性帶來(lái)的系統(tǒng)性優(yōu)勢(shì)。

更令人印象深刻的是，即使是最小的VMamba-T模型（只有3000萬(wàn)參數(shù)），在許多定位任務(wù)中的表現(xiàn)也能超越規(guī)模大得多的Transformer模型。這種現(xiàn)象說(shuō)明，在設(shè)計(jì)視覺(jué)編碼器時(shí)，架構(gòu)的選擇比單純的規(guī)模擴(kuò)大更加重要。

研究還發(fā)現(xiàn)，不同架構(gòu)對(duì)于密集任務(wù)預(yù)訓(xùn)練的響應(yīng)也有所不同。對(duì)于缺乏內(nèi)置空間偏置的Transformer模型，密集任務(wù)預(yù)訓(xùn)練帶來(lái)的改善更加顯著。而對(duì)于已經(jīng)具有良好空間處理能力的VMamba，雖然密集任務(wù)預(yù)訓(xùn)練仍然有幫助，但改善幅度相對(duì)較小。

在效率分析方面，VMamba也表現(xiàn)出了良好的特性。雖然在極小規(guī)模下，ViT可能在某些方面略有優(yōu)勢(shì)，但隨著輸入分辨率的提高，VMamba的效率優(yōu)勢(shì)逐漸顯現(xiàn)。特別是在處理高分辨率圖像時(shí)，VMamba能夠更加優(yōu)雅地?cái)U(kuò)展，而不會(huì)出現(xiàn)內(nèi)存或計(jì)算資源的急劇增長(zhǎng)。

七、對(duì)未來(lái)發(fā)展的啟示

這項(xiàng)研究的意義遠(yuǎn)不止于證明VMamba在當(dāng)前任務(wù)中的優(yōu)勢(shì)，它更重要的價(jià)值在于為整個(gè)領(lǐng)域的發(fā)展提供了新的思路和方向。

首先，這項(xiàng)研究表明，視覺(jué)編碼器的架構(gòu)選擇對(duì)于視覺(jué)語(yǔ)言模型的最終性能有著決定性的影響。這提醒研究者們不應(yīng)該盲目跟隨主流選擇，而應(yīng)該更加開(kāi)放地探索不同的架構(gòu)可能性。就像在烹飪界，最好的廚師往往不是那些盲目跟隨流行趨勢(shì)的人，而是那些勇于嘗試新工具、新方法的創(chuàng)新者。

其次，研究揭示了視覺(jué)-語(yǔ)言接口設(shè)計(jì)的重要性。許多以前被歸咎于視覺(jué)編碼器本身的問(wèn)題，實(shí)際上可能源于接口設(shè)計(jì)的不當(dāng)。通過(guò)簡(jiǎn)單的接口優(yōu)化，就能顯著改善模型的性能和穩(wěn)定性。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要價(jià)值，因?yàn)樗峁┝艘环N成本較低、效果顯著的性能改善方法。

研究還強(qiáng)調(diào)了評(píng)估指標(biāo)選擇的重要性。傳統(tǒng)的ImageNet準(zhǔn)確率雖然是一個(gè)重要指標(biāo)，但它并不能完全反映模型在下游任務(wù)中的表現(xiàn)。研究者們需要開(kāi)發(fā)更加全面、更加貼近實(shí)際應(yīng)用的評(píng)估框架，以更好地指導(dǎo)模型的設(shè)計(jì)和選擇。

對(duì)于實(shí)際應(yīng)用而言，這項(xiàng)研究提供了寶貴的指導(dǎo)原則。在選擇視覺(jué)編碼器時(shí)，應(yīng)該優(yōu)先考慮任務(wù)的具體需求，而不是盲目追求更大的模型規(guī)模或更高的標(biāo)準(zhǔn)準(zhǔn)確率。特別是對(duì)于需要精確空間定位的應(yīng)用場(chǎng)景，VMamba這樣的架構(gòu)可能是更好的選擇。

八、技術(shù)實(shí)現(xiàn)和實(shí)用建議

對(duì)于希望在自己的項(xiàng)目中應(yīng)用這些發(fā)現(xiàn)的技術(shù)人員，研究團(tuán)隊(duì)提供了詳細(xì)的實(shí)現(xiàn)指導(dǎo)和實(shí)用建議。

在模型選擇方面，研究建議根據(jù)具體的應(yīng)用場(chǎng)景來(lái)選擇合適的架構(gòu)。如果應(yīng)用主要涉及圖像分類或簡(jiǎn)單的圖像理解任務(wù)，傳統(tǒng)的ViT仍然是一個(gè)可靠的選擇。但如果應(yīng)用需要精確的物體定位或復(fù)雜的空間推理，VMamba則可能提供更好的性能。

在訓(xùn)練策略方面，研究強(qiáng)調(diào)了密集任務(wù)預(yù)訓(xùn)練的價(jià)值。即使是在資源有限的情況下，對(duì)視覺(jué)編碼器進(jìn)行簡(jiǎn)單的檢測(cè)或分割任務(wù)微調(diào)，也能顯著改善其在視覺(jué)語(yǔ)言任務(wù)中的表現(xiàn)。這種方法的成本相對(duì)較低，但收益卻很明顯。

對(duì)于接口設(shè)計(jì)，研究提供了幾個(gè)簡(jiǎn)單但有效的優(yōu)化建議。首先是適當(dāng)增強(qiáng)連接器的容量，這通常只需要增加一層神經(jīng)網(wǎng)絡(luò)，計(jì)算開(kāi)銷很小但效果明顯。其次是注意輸入圖像的幾何形狀，盡可能使用正方形輸入以提高模型的穩(wěn)定性。

在部署和監(jiān)控方面，研究建議開(kāi)發(fā)者密切關(guān)注模型在不同輸入條件下的表現(xiàn)，特別是當(dāng)輸入圖像的分辨率或長(zhǎng)寬比發(fā)生變化時(shí)。如果發(fā)現(xiàn)性能突然下降，應(yīng)該首先檢查是否出現(xiàn)了定位崩潰問(wèn)題，然后應(yīng)用相應(yīng)的穩(wěn)定化策略。

說(shuō)到底，這項(xiàng)來(lái)自Stony Brook大學(xué)的研究為我們打開(kāi)了視覺(jué)語(yǔ)言模型設(shè)計(jì)的新視角。它告訴我們，在人工智能的世界里，最流行的選擇不一定是最好的選擇，有時(shí)候跳出傳統(tǒng)思維框架，反而能發(fā)現(xiàn)更優(yōu)秀的解決方案。VMamba的成功證明了狀態(tài)空間模型在視覺(jué)任務(wù)中的巨大潛力，也為整個(gè)領(lǐng)域的發(fā)展指明了新的方向。

這項(xiàng)研究的價(jià)值不僅在于提供了一個(gè)更好的工具選擇，更在于它展示了科學(xué)研究中保持開(kāi)放心態(tài)的重要性。正如研究團(tuán)隊(duì)所證明的，通過(guò)嚴(yán)格的對(duì)比實(shí)驗(yàn)和深入的分析，我們能夠發(fā)現(xiàn)那些隱藏在表面現(xiàn)象背后的真相，從而推動(dòng)整個(gè)領(lǐng)域向前發(fā)展。

對(duì)于普通人而言，這項(xiàng)研究的意義在于，它讓我們看到了人工智能技術(shù)不斷進(jìn)步的可能性。隨著像VMamba這樣的新技術(shù)的發(fā)展，未來(lái)的AI系統(tǒng)將能夠更好地理解我們的世界，更準(zhǔn)確地回答我們的問(wèn)題，也更可靠地幫助我們解決實(shí)際問(wèn)題。這樣的進(jìn)步最終會(huì)讓每個(gè)人都受益，讓我們的生活變得更加便利和美好。

Q&A

Q1：VMamba相比傳統(tǒng)Vision Transformer有什么優(yōu)勢(shì)？

A：VMamba最大的優(yōu)勢(shì)是在空間定位任務(wù)中表現(xiàn)更出色。它采用2D選擇性掃描機(jī)制，能夠沿著圖像的行列方向進(jìn)行四次掃描，更好地保持空間位置信息。就像一個(gè)仔細(xì)的偵探從多個(gè)角度觀察現(xiàn)場(chǎng)，VMamba能夠更準(zhǔn)確地定位圖像中的特定物體，而傳統(tǒng)ViT容易在定位時(shí)產(chǎn)生模糊或分散的注意力。

Q2：為什么模型規(guī)模越大在視覺(jué)語(yǔ)言任務(wù)中表現(xiàn)反而可能更差？

A：研究發(fā)現(xiàn)了"分類目標(biāo)過(guò)擬合"現(xiàn)象。大模型雖然在ImageNet分類任務(wù)上準(zhǔn)確率更高，但過(guò)度專注于識(shí)別物體類別，反而忽略了空間位置信息的保持。就像一個(gè)人變得過(guò)于專注于識(shí)別物體名稱，卻忘記了記住這些物體在哪里。因此在需要精確定位的視覺(jué)語(yǔ)言任務(wù)中，大模型可能表現(xiàn)不如小模型。

Q3：什么是定位崩潰現(xiàn)象，如何解決？

A：定位崩潰是指某些本來(lái)表現(xiàn)良好的模型在特定條件下突然失去定位能力的現(xiàn)象，主要由傳輸瓶頸和利用瓶頸兩個(gè)問(wèn)題造成。解決方法有兩種：一是增強(qiáng)連接器容量，將兩層神經(jīng)網(wǎng)絡(luò)升級(jí)為三層；二是調(diào)整輸入圖像幾何形狀，使用正方形輸入替代矩形輸入。這兩種策略可以互補(bǔ)使用，有效恢復(fù)模型的定位能力。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.