337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

石溪大學(xué):狀態(tài)空間模型挑戰(zhàn)Transformer視覺(jué)語(yǔ)言領(lǐng)域主導(dǎo)地位

0
分享至


這項(xiàng)由Stony Brook大學(xué)研究團(tuán)隊(duì)開(kāi)展的前沿研究發(fā)表于2026年3月,論文編號(hào)為arXiv:2603.19209v1,為我們重新審視視覺(jué)語(yǔ)言模型的設(shè)計(jì)理念提供了全新視角。當(dāng)我們談到讓計(jì)算機(jī)同時(shí)理解圖片和文字的技術(shù)時(shí),就像是在討論如何讓機(jī)器擁有人類般的視覺(jué)與語(yǔ)言協(xié)調(diào)能力。

近年來(lái),視覺(jué)語(yǔ)言模型已經(jīng)成為人工智能領(lǐng)域的明星技術(shù),它們能夠看懂圖片、理解文字,甚至回答關(guān)于圖像內(nèi)容的復(fù)雜問(wèn)題。這就好比讓計(jì)算機(jī)擁有了一雙"慧眼",不僅能看到圖片中有什么,還能用文字準(zhǔn)確描述出來(lái),甚至回答我們提出的各種問(wèn)題。

然而,目前幾乎所有的視覺(jué)語(yǔ)言模型都依賴于一種叫做Vision Transformer(ViT)的視覺(jué)編碼器,這就像所有的廚師都在使用同一種烹飪工具。Stony Brook大學(xué)的研究團(tuán)隊(duì)開(kāi)始思考:是否還有其他更好的"工具"可以勝任這項(xiàng)工作?他們將目光投向了一種相對(duì)較新的架構(gòu)——狀態(tài)空間模型(State Space Model,SSM),特別是其中的VMamba模型。

這項(xiàng)研究的獨(dú)特之處在于,它首次在嚴(yán)格控制的實(shí)驗(yàn)環(huán)境下系統(tǒng)比較了不同視覺(jué)編碼器的表現(xiàn)。研究團(tuán)隊(duì)就像是在進(jìn)行一場(chǎng)公平的烹飪比賽,讓所有參賽選手使用相同的食材、相同的廚房設(shè)備,唯一不同的就是他們手中的烹飪工具,這樣才能真正看出哪種工具更優(yōu)秀。

研究團(tuán)隊(duì)發(fā)現(xiàn),VMamba這種基于狀態(tài)空間模型的視覺(jué)編碼器在多項(xiàng)任務(wù)中表現(xiàn)出色,特別是在需要精確定位圖像中特定物體的任務(wù)上,它的表現(xiàn)甚至超過(guò)了規(guī)模更大的Transformer模型。這就像發(fā)現(xiàn)了一種新的烹飪工具,不僅使用起來(lái)更加高效,而且在某些菜系上的表現(xiàn)還要優(yōu)于傳統(tǒng)工具。

一、重新思考視覺(jué)編碼器的選擇

當(dāng)我們討論視覺(jué)語(yǔ)言模型時(shí),可以把它想象成一個(gè)翻譯官的工作流程。首先,翻譯官需要"看懂"圖片(視覺(jué)編碼器的工作),然后將看到的內(nèi)容轉(zhuǎn)換成一種中間語(yǔ)言(連接器的工作),最后用自然語(yǔ)言表達(dá)出來(lái)(語(yǔ)言模型的工作)。在這個(gè)過(guò)程中,視覺(jué)編碼器就像翻譯官的"眼睛",它的好壞直接決定了整個(gè)翻譯質(zhì)量。

長(zhǎng)期以來(lái),幾乎所有的研究團(tuán)隊(duì)都選擇使用Vision Transformer作為這雙"眼睛"。這種選擇就像大家都默認(rèn)使用同一個(gè)牌子的相機(jī),雖然這個(gè)牌子確實(shí)不錯(cuò),但人們很少去嘗試其他可能更優(yōu)秀的選擇。Stony Brook大學(xué)的研究團(tuán)隊(duì)意識(shí)到這種現(xiàn)狀存在問(wèn)題:如果大家都只用一種工具,怎么知道是否還有更好的選擇呢?

Vision Transformer的工作原理類似于將一張圖片切成許多小塊,然后通過(guò)注意力機(jī)制來(lái)理解這些小塊之間的關(guān)系。這種方法確實(shí)有效,但它有一個(gè)潛在的問(wèn)題:它對(duì)圖像中物體的精確位置信息處理得不夠好。這就像一個(gè)人能認(rèn)出照片中有一只貓,但很難準(zhǔn)確指出貓的具體位置。

相比之下,狀態(tài)空間模型采用了一種完全不同的策略。VMamba這種模型會(huì)沿著圖像的行和列進(jìn)行掃描,就像我們閱讀文字時(shí)從左到右、從上到下的順序一樣。這種掃描方式讓它能更好地保持對(duì)空間位置的敏感性,就像一個(gè)偵探仔細(xì)檢查現(xiàn)場(chǎng)的每一個(gè)角落,不會(huì)遺漏任何重要的位置線索。

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嚴(yán)格的對(duì)比實(shí)驗(yàn)。他們讓不同的視覺(jué)編碼器在完全相同的條件下工作,就像讓不同的選手使用相同的跑道、相同的起跑條件,這樣才能公平地比較他們的實(shí)際能力。實(shí)驗(yàn)結(jié)果顯示,VMamba在許多任務(wù)上的表現(xiàn)都令人印象深刻,特別是在需要精確定位的任務(wù)中。

二、令人意外的發(fā)現(xiàn):小而美的力量

在這項(xiàng)研究中,最令人驚訝的發(fā)現(xiàn)之一是,模型的大小和在ImageNet數(shù)據(jù)集上的準(zhǔn)確率并不能可靠地預(yù)測(cè)它在視覺(jué)語(yǔ)言任務(wù)中的表現(xiàn)。這個(gè)發(fā)現(xiàn)就像發(fā)現(xiàn)了一個(gè)反直覺(jué)的事實(shí):最昂貴的跑車不一定在城市道路上跑得最快。

傳統(tǒng)觀念認(rèn)為,模型越大、在標(biāo)準(zhǔn)視覺(jué)任務(wù)上表現(xiàn)越好的編碼器,在視覺(jué)語(yǔ)言任務(wù)中也應(yīng)該表現(xiàn)更出色。然而,研究結(jié)果卻顯示了相反的情況。一些規(guī)模較大、在ImageNet上準(zhǔn)確率更高的模型,在實(shí)際的視覺(jué)語(yǔ)言任務(wù)中反而表現(xiàn)不如較小的模型。

這種現(xiàn)象的背后原因很有趣。研究團(tuán)隊(duì)發(fā)現(xiàn),那些在分類任務(wù)上表現(xiàn)突出的大型模型,往往過(guò)度專注于識(shí)別圖像中的主要物體類別,而忽略了空間位置信息的保持。這就像一個(gè)人變得過(guò)于專注于識(shí)別物體的名稱,卻忘記了記住這些物體在哪里。

以MaxViT模型為例,隨著模型規(guī)模從T增長(zhǎng)到L,雖然它們?cè)贗mageNet上的準(zhǔn)確率不斷提高,但在視覺(jué)語(yǔ)言任務(wù)中的定位表現(xiàn)卻逐漸下降。這種現(xiàn)象被研究團(tuán)隊(duì)稱為"分類目標(biāo)過(guò)擬合",意思是模型變得過(guò)于專注于分類任務(wù),反而損害了其他能力。

相比之下,VMamba模型展現(xiàn)出了更好的平衡性。即使是較小規(guī)模的VMamba-T和VMamba-S模型,也能在保持良好分類能力的同時(shí),維持出色的空間定位能力。這種特性讓它們?cè)谝曈X(jué)語(yǔ)言任務(wù)中表現(xiàn)更加穩(wěn)定和可靠。

更有趣的是,研究團(tuán)隊(duì)還發(fā)現(xiàn)了一些模型在高分辨率檢測(cè)任務(wù)中出現(xiàn)的"定位崩潰"現(xiàn)象。某些在標(biāo)準(zhǔn)設(shè)置下表現(xiàn)正常的模型,一旦應(yīng)用到高分辨率的目標(biāo)檢測(cè)任務(wù)中,就會(huì)突然失去定位能力,就像一個(gè)平時(shí)表現(xiàn)良好的GPS導(dǎo)航系統(tǒng)在復(fù)雜路況下突然失靈。

三、密集任務(wù)預(yù)訓(xùn)練的神奇效果

研究團(tuán)隊(duì)還探索了一個(gè)重要問(wèn)題:如果讓視覺(jué)編碼器先學(xué)習(xí)一些需要精確空間定位的任務(wù),比如目標(biāo)檢測(cè)或圖像分割,它們?cè)谝曈X(jué)語(yǔ)言任務(wù)中的表現(xiàn)會(huì)有所改善嗎?這就像讓一個(gè)翻譯官先接受專門(mén)的地圖閱讀訓(xùn)練,然后再去描述風(fēng)景照片。

實(shí)驗(yàn)結(jié)果證實(shí)了這種猜想。無(wú)論是基于Transformer的ViTDet模型,還是基于狀態(tài)空間模型的VMamba,在經(jīng)過(guò)檢測(cè)或分割任務(wù)的預(yù)訓(xùn)練后,它們?cè)谝曈X(jué)語(yǔ)言任務(wù)中的定位能力都得到了顯著提升。這種改善就像給翻譯官的大腦裝上了一個(gè)專門(mén)處理空間信息的模塊。

特別值得注意的是,分割任務(wù)的預(yù)訓(xùn)練效果比檢測(cè)任務(wù)更加穩(wěn)定。檢測(cè)任務(wù)的預(yù)訓(xùn)練雖然能在某些情況下帶來(lái)顯著改善,但在另一些情況下卻可能導(dǎo)致性能崩潰。相比之下,分割任務(wù)的預(yù)訓(xùn)練幾乎總是能帶來(lái)穩(wěn)定的性能提升,而且很少出現(xiàn)失敗案例。

這種差異的原因在于兩種任務(wù)的特點(diǎn)不同。檢測(cè)任務(wù)主要關(guān)注找出物體的大概位置和類別,而分割任務(wù)則需要精確地為圖像中的每個(gè)像素分配標(biāo)簽,這要求模型對(duì)空間細(xì)節(jié)有更深入的理解。因此,經(jīng)過(guò)分割任務(wù)訓(xùn)練的模型在處理需要精確定位的視覺(jué)語(yǔ)言任務(wù)時(shí)表現(xiàn)更加出色。

有趣的是,VMamba模型從這種密集任務(wù)預(yù)訓(xùn)練中獲得的收益相對(duì)較小,但這恰恰說(shuō)明了它本身就具備了良好的空間處理能力。這就像一個(gè)天生具有空間感知天賦的人,即使不經(jīng)過(guò)特殊訓(xùn)練,也能在需要空間定位的任務(wù)中表現(xiàn)出色。

四、診斷和解決定位崩潰問(wèn)題

在研究過(guò)程中,團(tuán)隊(duì)遇到了一個(gè)令人困惑的現(xiàn)象:某些本來(lái)表現(xiàn)良好的模型在特定條件下會(huì)突然失去定位能力,這種現(xiàn)象被稱為"定位崩潰"。就像一臺(tái)平時(shí)運(yùn)行正常的機(jī)器突然出現(xiàn)故障,需要找出故障原因并提出解決方案。

研究團(tuán)隊(duì)通過(guò)細(xì)致的分析發(fā)現(xiàn),定位崩潰主要源于兩個(gè)方面的問(wèn)題。第一個(gè)問(wèn)題是"傳輸瓶頸",即連接器的容量不足以完整傳遞視覺(jué)編碼器提取的空間信息,就像一條過(guò)窄的管道無(wú)法讓足夠的水流通過(guò)。第二個(gè)問(wèn)題是"利用瓶頸",即語(yǔ)言模型無(wú)法有效利用傳遞過(guò)來(lái)的空間信息,特別是當(dāng)輸入圖像的幾何形狀(如分辨率或長(zhǎng)寬比)與預(yù)訓(xùn)練時(shí)的設(shè)置不匹配時(shí)。

為了解決這些問(wèn)題,研究團(tuán)隊(duì)提出了兩種簡(jiǎn)單而有效的穩(wěn)定化策略。第一種策略是增強(qiáng)連接器的能力,將原來(lái)的兩層神經(jīng)網(wǎng)絡(luò)連接器升級(jí)為三層,這就像將管道加寬,讓更多的信息能夠通過(guò)。第二種策略是調(diào)整輸入圖像的幾何形狀,特別是使用正方形輸入而不是矩形輸入,這樣可以減少語(yǔ)言模型在處理空間信息時(shí)的困難。

實(shí)驗(yàn)結(jié)果顯示,這兩種策略都能有效緩解定位崩潰問(wèn)題,而且它們的效果是互補(bǔ)的。當(dāng)同時(shí)應(yīng)用這兩種策略時(shí),幾乎所有的崩潰案例都得到了解決,模型的定位能力也得到了顯著恢復(fù)。

更重要的是,這些穩(wěn)定化策略的效果是跨架構(gòu)的,不僅對(duì)Transformer模型有效,對(duì)狀態(tài)空間模型也同樣適用。這說(shuō)明定位崩潰問(wèn)題的根源在于視覺(jué)-語(yǔ)言接口的設(shè)計(jì),而不是特定的視覺(jué)編碼器架構(gòu)。

五、深入理解VMamba的優(yōu)勢(shì)

為了更好地理解VMamba為什么在定位任務(wù)中表現(xiàn)出色,研究團(tuán)隊(duì)進(jìn)行了詳細(xì)的分析和可視化研究。他們發(fā)現(xiàn),VMamba的優(yōu)勢(shì)主要來(lái)源于其獨(dú)特的架構(gòu)設(shè)計(jì)。

VMamba采用了一種稱為"2D選擇性掃描"的機(jī)制,它會(huì)沿著圖像的行和列方向進(jìn)行四次不同的掃描,每個(gè)位置的像素都能接收到來(lái)自四個(gè)方向的狀態(tài)更新。這種設(shè)計(jì)讓VMamba能夠在整個(gè)網(wǎng)絡(luò)的處理過(guò)程中持續(xù)保持對(duì)空間結(jié)構(gòu)的敏感性,就像一個(gè)有經(jīng)驗(yàn)的偵探會(huì)從多個(gè)角度仔細(xì)觀察現(xiàn)場(chǎng),確保不遺漏任何重要細(xì)節(jié)。

相比之下,傳統(tǒng)的Vision Transformer對(duì)于圖像塊的處理順序是無(wú)關(guān)緊要的,它主要依靠位置編碼來(lái)保持空間信息。然而,在標(biāo)準(zhǔn)的分類預(yù)訓(xùn)練過(guò)程中,這些位置信息往往會(huì)被逐漸弱化,因?yàn)槟P桶l(fā)現(xiàn)僅僅識(shí)別物體類別就足以完成分類任務(wù),不需要精確的位置信息。

研究團(tuán)隊(duì)通過(guò)可視化分析展示了這種差異的具體表現(xiàn)。在處理同一張圖像時(shí),VMamba能夠產(chǎn)生更加集中、更加精確的注意力分布,準(zhǔn)確地聚焦在查詢對(duì)象上。而ViT的注意力往往比較分散,容易被圖像中的多個(gè)區(qū)域分散注意力,導(dǎo)致定位不夠精確。

這種差異在實(shí)際應(yīng)用中的表現(xiàn)是顯著的。在處理"圖像中左邊的長(zhǎng)頸鹿"這樣的查詢時(shí),VMamba能夠準(zhǔn)確地將注意力集中在左側(cè)的長(zhǎng)頸鹿上,而ViT可能會(huì)同時(shí)關(guān)注圖像中的多只長(zhǎng)頸鹿,導(dǎo)致定位模糊。

六、全面的性能比較和分析

研究團(tuán)隊(duì)進(jìn)行了極其全面的性能比較,涵蓋了從基礎(chǔ)的圖像問(wèn)答到復(fù)雜的目標(biāo)定位等多種任務(wù)。這種全面比較就像對(duì)不同品牌的汽車進(jìn)行各種路況下的測(cè)試,包括城市道路、高速公路、山地路況等,以全面評(píng)估它們的性能。

在標(biāo)準(zhǔn)的ImageNet預(yù)訓(xùn)練設(shè)置下,VMamba的各個(gè)版本(從小型的VMamba-T到中型的VMamba-S)都展現(xiàn)出了優(yōu)秀的整體性能。特別是在定位相關(guān)的任務(wù)中,VMamba的表現(xiàn)始終保持在領(lǐng)先地位。這種一致性表明,VMamba的優(yōu)勢(shì)不是偶然的,而是其架構(gòu)特性帶來(lái)的系統(tǒng)性優(yōu)勢(shì)。

更令人印象深刻的是,即使是最小的VMamba-T模型(只有3000萬(wàn)參數(shù)),在許多定位任務(wù)中的表現(xiàn)也能超越規(guī)模大得多的Transformer模型。這種現(xiàn)象說(shuō)明,在設(shè)計(jì)視覺(jué)編碼器時(shí),架構(gòu)的選擇比單純的規(guī)模擴(kuò)大更加重要。

研究還發(fā)現(xiàn),不同架構(gòu)對(duì)于密集任務(wù)預(yù)訓(xùn)練的響應(yīng)也有所不同。對(duì)于缺乏內(nèi)置空間偏置的Transformer模型,密集任務(wù)預(yù)訓(xùn)練帶來(lái)的改善更加顯著。而對(duì)于已經(jīng)具有良好空間處理能力的VMamba,雖然密集任務(wù)預(yù)訓(xùn)練仍然有幫助,但改善幅度相對(duì)較小。

在效率分析方面,VMamba也表現(xiàn)出了良好的特性。雖然在極小規(guī)模下,ViT可能在某些方面略有優(yōu)勢(shì),但隨著輸入分辨率的提高,VMamba的效率優(yōu)勢(shì)逐漸顯現(xiàn)。特別是在處理高分辨率圖像時(shí),VMamba能夠更加優(yōu)雅地?cái)U(kuò)展,而不會(huì)出現(xiàn)內(nèi)存或計(jì)算資源的急劇增長(zhǎng)。

七、對(duì)未來(lái)發(fā)展的啟示

這項(xiàng)研究的意義遠(yuǎn)不止于證明VMamba在當(dāng)前任務(wù)中的優(yōu)勢(shì),它更重要的價(jià)值在于為整個(gè)領(lǐng)域的發(fā)展提供了新的思路和方向。

首先,這項(xiàng)研究表明,視覺(jué)編碼器的架構(gòu)選擇對(duì)于視覺(jué)語(yǔ)言模型的最終性能有著決定性的影響。這提醒研究者們不應(yīng)該盲目跟隨主流選擇,而應(yīng)該更加開(kāi)放地探索不同的架構(gòu)可能性。就像在烹飪界,最好的廚師往往不是那些盲目跟隨流行趨勢(shì)的人,而是那些勇于嘗試新工具、新方法的創(chuàng)新者。

其次,研究揭示了視覺(jué)-語(yǔ)言接口設(shè)計(jì)的重要性。許多以前被歸咎于視覺(jué)編碼器本身的問(wèn)題,實(shí)際上可能源于接口設(shè)計(jì)的不當(dāng)。通過(guò)簡(jiǎn)單的接口優(yōu)化,就能顯著改善模型的性能和穩(wěn)定性。這個(gè)發(fā)現(xiàn)對(duì)于實(shí)際應(yīng)用具有重要價(jià)值,因?yàn)樗峁┝艘环N成本較低、效果顯著的性能改善方法。

研究還強(qiáng)調(diào)了評(píng)估指標(biāo)選擇的重要性。傳統(tǒng)的ImageNet準(zhǔn)確率雖然是一個(gè)重要指標(biāo),但它并不能完全反映模型在下游任務(wù)中的表現(xiàn)。研究者們需要開(kāi)發(fā)更加全面、更加貼近實(shí)際應(yīng)用的評(píng)估框架,以更好地指導(dǎo)模型的設(shè)計(jì)和選擇。

對(duì)于實(shí)際應(yīng)用而言,這項(xiàng)研究提供了寶貴的指導(dǎo)原則。在選擇視覺(jué)編碼器時(shí),應(yīng)該優(yōu)先考慮任務(wù)的具體需求,而不是盲目追求更大的模型規(guī)模或更高的標(biāo)準(zhǔn)準(zhǔn)確率。特別是對(duì)于需要精確空間定位的應(yīng)用場(chǎng)景,VMamba這樣的架構(gòu)可能是更好的選擇。

八、技術(shù)實(shí)現(xiàn)和實(shí)用建議

對(duì)于希望在自己的項(xiàng)目中應(yīng)用這些發(fā)現(xiàn)的技術(shù)人員,研究團(tuán)隊(duì)提供了詳細(xì)的實(shí)現(xiàn)指導(dǎo)和實(shí)用建議。

在模型選擇方面,研究建議根據(jù)具體的應(yīng)用場(chǎng)景來(lái)選擇合適的架構(gòu)。如果應(yīng)用主要涉及圖像分類或簡(jiǎn)單的圖像理解任務(wù),傳統(tǒng)的ViT仍然是一個(gè)可靠的選擇。但如果應(yīng)用需要精確的物體定位或復(fù)雜的空間推理,VMamba則可能提供更好的性能。

在訓(xùn)練策略方面,研究強(qiáng)調(diào)了密集任務(wù)預(yù)訓(xùn)練的價(jià)值。即使是在資源有限的情況下,對(duì)視覺(jué)編碼器進(jìn)行簡(jiǎn)單的檢測(cè)或分割任務(wù)微調(diào),也能顯著改善其在視覺(jué)語(yǔ)言任務(wù)中的表現(xiàn)。這種方法的成本相對(duì)較低,但收益卻很明顯。

對(duì)于接口設(shè)計(jì),研究提供了幾個(gè)簡(jiǎn)單但有效的優(yōu)化建議。首先是適當(dāng)增強(qiáng)連接器的容量,這通常只需要增加一層神經(jīng)網(wǎng)絡(luò),計(jì)算開(kāi)銷很小但效果明顯。其次是注意輸入圖像的幾何形狀,盡可能使用正方形輸入以提高模型的穩(wěn)定性。

在部署和監(jiān)控方面,研究建議開(kāi)發(fā)者密切關(guān)注模型在不同輸入條件下的表現(xiàn),特別是當(dāng)輸入圖像的分辨率或長(zhǎng)寬比發(fā)生變化時(shí)。如果發(fā)現(xiàn)性能突然下降,應(yīng)該首先檢查是否出現(xiàn)了定位崩潰問(wèn)題,然后應(yīng)用相應(yīng)的穩(wěn)定化策略。

說(shuō)到底,這項(xiàng)來(lái)自Stony Brook大學(xué)的研究為我們打開(kāi)了視覺(jué)語(yǔ)言模型設(shè)計(jì)的新視角。它告訴我們,在人工智能的世界里,最流行的選擇不一定是最好的選擇,有時(shí)候跳出傳統(tǒng)思維框架,反而能發(fā)現(xiàn)更優(yōu)秀的解決方案。VMamba的成功證明了狀態(tài)空間模型在視覺(jué)任務(wù)中的巨大潛力,也為整個(gè)領(lǐng)域的發(fā)展指明了新的方向。

這項(xiàng)研究的價(jià)值不僅在于提供了一個(gè)更好的工具選擇,更在于它展示了科學(xué)研究中保持開(kāi)放心態(tài)的重要性。正如研究團(tuán)隊(duì)所證明的,通過(guò)嚴(yán)格的對(duì)比實(shí)驗(yàn)和深入的分析,我們能夠發(fā)現(xiàn)那些隱藏在表面現(xiàn)象背后的真相,從而推動(dòng)整個(gè)領(lǐng)域向前發(fā)展。

對(duì)于普通人而言,這項(xiàng)研究的意義在于,它讓我們看到了人工智能技術(shù)不斷進(jìn)步的可能性。隨著像VMamba這樣的新技術(shù)的發(fā)展,未來(lái)的AI系統(tǒng)將能夠更好地理解我們的世界,更準(zhǔn)確地回答我們的問(wèn)題,也更可靠地幫助我們解決實(shí)際問(wèn)題。這樣的進(jìn)步最終會(huì)讓每個(gè)人都受益,讓我們的生活變得更加便利和美好。

Q&A

Q1:VMamba相比傳統(tǒng)Vision Transformer有什么優(yōu)勢(shì)?

A:VMamba最大的優(yōu)勢(shì)是在空間定位任務(wù)中表現(xiàn)更出色。它采用2D選擇性掃描機(jī)制,能夠沿著圖像的行列方向進(jìn)行四次掃描,更好地保持空間位置信息。就像一個(gè)仔細(xì)的偵探從多個(gè)角度觀察現(xiàn)場(chǎng),VMamba能夠更準(zhǔn)確地定位圖像中的特定物體,而傳統(tǒng)ViT容易在定位時(shí)產(chǎn)生模糊或分散的注意力。

Q2:為什么模型規(guī)模越大在視覺(jué)語(yǔ)言任務(wù)中表現(xiàn)反而可能更差?

A:研究發(fā)現(xiàn)了"分類目標(biāo)過(guò)擬合"現(xiàn)象。大模型雖然在ImageNet分類任務(wù)上準(zhǔn)確率更高,但過(guò)度專注于識(shí)別物體類別,反而忽略了空間位置信息的保持。就像一個(gè)人變得過(guò)于專注于識(shí)別物體名稱,卻忘記了記住這些物體在哪里。因此在需要精確定位的視覺(jué)語(yǔ)言任務(wù)中,大模型可能表現(xiàn)不如小模型。

Q3:什么是定位崩潰現(xiàn)象,如何解決?

A:定位崩潰是指某些本來(lái)表現(xiàn)良好的模型在特定條件下突然失去定位能力的現(xiàn)象,主要由傳輸瓶頸和利用瓶頸兩個(gè)問(wèn)題造成。解決方法有兩種:一是增強(qiáng)連接器容量,將兩層神經(jīng)網(wǎng)絡(luò)升級(jí)為三層;二是調(diào)整輸入圖像幾何形狀,使用正方形輸入替代矩形輸入。這兩種策略可以互補(bǔ)使用,有效恢復(fù)模型的定位能力。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
我總領(lǐng)館緊急提醒:實(shí)彈射擊高風(fēng)險(xiǎn)!謹(jǐn)慎參與

我總領(lǐng)館緊急提醒:實(shí)彈射擊高風(fēng)險(xiǎn)!謹(jǐn)慎參與

看看新聞Knews
2026-04-04 21:27:06
他把冠軍車定價(jià)4萬(wàn),進(jìn)口品牌集體失眠了

他把冠軍車定價(jià)4萬(wàn),進(jìn)口品牌集體失眠了

固件更新中
2026-04-02 14:48:45
三毛自殺前最后公開(kāi)照:在成都流浪,滿臉都是愁容,眼神充滿絕望

三毛自殺前最后公開(kāi)照:在成都流浪,滿臉都是愁容,眼神充滿絕望

咸説歷史
2026-03-12 21:46:50
唐鶴德近照曝光,67歲老了胖了有白頭發(fā)了,皮膚粗糙,好朋友不多

唐鶴德近照曝光,67歲老了胖了有白頭發(fā)了,皮膚粗糙,好朋友不多

小娛樂(lè)悠悠
2026-04-04 17:06:49
河北孟村"家暴致妻死亡"案被告人金昊已被執(zhí)行死刑

河北孟村"家暴致妻死亡"案被告人金昊已被執(zhí)行死刑

老貓觀點(diǎn)
2026-04-04 09:21:31
陳光標(biāo)到底是怎么發(fā)家的?他為什么有那么多錢(qián)可以捐?

陳光標(biāo)到底是怎么發(fā)家的?他為什么有那么多錢(qián)可以捐?

擔(dān)撲
2026-04-03 13:56:56
2-2!波爾圖主場(chǎng)爆冷,本菲卡差8分,穆帥計(jì)劃有變:葡超要爭(zhēng)冠

2-2!波爾圖主場(chǎng)爆冷,本菲卡差8分,穆帥計(jì)劃有變:葡超要爭(zhēng)冠

體育知多少
2026-04-05 08:42:38
中國(guó)資產(chǎn)成美以伊沖突“避風(fēng)港, 人民幣單日交易額破1.2萬(wàn)億元

中國(guó)資產(chǎn)成美以伊沖突“避風(fēng)港, 人民幣單日交易額破1.2萬(wàn)億元

每日經(jīng)濟(jì)新聞
2026-04-04 16:05:40
滄州殺妻案兇手金昊被執(zhí)行死刑:多張內(nèi)部照曝光,第三者被扒!

滄州殺妻案兇手金昊被執(zhí)行死刑:多張內(nèi)部照曝光,第三者被扒!

眼光很亮
2026-04-05 09:16:48
美軍宣稱摸清中國(guó)導(dǎo)彈庫(kù)存!俄專家:中國(guó)解放軍可以半小時(shí)定勝負(fù)

美軍宣稱摸清中國(guó)導(dǎo)彈庫(kù)存!俄專家:中國(guó)解放軍可以半小時(shí)定勝負(fù)

嘆知
2026-04-05 05:22:04
美國(guó)前官員“痛心疾首”:從未想過(guò)美國(guó)會(huì)變成一個(gè)“流氓國(guó)家”!他曾為三位美國(guó)總統(tǒng)提供有關(guān)伊朗問(wèn)題的建議

美國(guó)前官員“痛心疾首”:從未想過(guò)美國(guó)會(huì)變成一個(gè)“流氓國(guó)家”!他曾為三位美國(guó)總統(tǒng)提供有關(guān)伊朗問(wèn)題的建議

揚(yáng)子晚報(bào)
2026-04-05 09:48:10
18中12!恭喜中國(guó)男籃!又收獲一名超跑型后衛(wèi)

18中12!恭喜中國(guó)男籃!又收獲一名超跑型后衛(wèi)

籃球?qū)崙?zhàn)寶典
2026-04-04 22:48:36
黃曉明帶9歲小海綿春日騎行,帥氣發(fā)型超吸睛,父子同框滿是溫柔

黃曉明帶9歲小海綿春日騎行,帥氣發(fā)型超吸睛,父子同框滿是溫柔

精彩背后
2026-04-05 08:59:58
國(guó)臺(tái)辦果然沒(méi)看錯(cuò),鄭麗文真面目被徹底揭露!小算盤(pán)到此為止了

國(guó)臺(tái)辦果然沒(méi)看錯(cuò),鄭麗文真面目被徹底揭露!小算盤(pán)到此為止了

比利
2026-01-23 12:41:53
加征100%關(guān)稅!特朗普瘋狂了

加征100%關(guān)稅!特朗普瘋狂了

新浪財(cái)經(jīng)
2026-04-04 17:39:51
國(guó)乒又出局1人!孫穎莎獨(dú)守,王曼昱戰(zhàn)日本獨(dú)苗,王楚欽懟記者

國(guó)乒又出局1人!孫穎莎獨(dú)守,王曼昱戰(zhàn)日本獨(dú)苗,王楚欽懟記者

曹說(shuō)體育
2026-04-04 13:41:04
為什么領(lǐng)導(dǎo)在大領(lǐng)導(dǎo)面是前背手,在小領(lǐng)導(dǎo)面前是后背手?

為什么領(lǐng)導(dǎo)在大領(lǐng)導(dǎo)面是前背手,在小領(lǐng)導(dǎo)面前是后背手?

深度報(bào)
2026-04-03 21:40:01
老板娘問(wèn)我她屁股大不大?我該怎么回答?

老板娘問(wèn)我她屁股大不大?我該怎么回答?

太急張三瘋
2026-04-05 08:29:01
“不是我的菜”!百億私募董事長(zhǎng)深夜改口,小米爭(zhēng)議背后

“不是我的菜”!百億私募董事長(zhǎng)深夜改口,小米爭(zhēng)議背后

穿透
2026-04-04 22:50:11
重磅!25歲中國(guó)冰壺女隊(duì)隊(duì)長(zhǎng)拒絕參加世錦賽:我可能被封殺+退役

重磅!25歲中國(guó)冰壺女隊(duì)隊(duì)長(zhǎng)拒絕參加世錦賽:我可能被封殺+退役

念洲
2026-04-04 11:25:29
2026-04-05 12:51:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業(yè)世界
7875文章數(shù) 558關(guān)注度
往期回顧 全部

科技要聞

花200薅5千算力,Claude冷血斷供“龍蝦”

頭條要聞

專家:美國(guó)對(duì)伊朗發(fā)動(dòng)戰(zhàn)爭(zhēng)是本世紀(jì)最大戰(zhàn)略失誤之一

頭條要聞

專家:美國(guó)對(duì)伊朗發(fā)動(dòng)戰(zhàn)爭(zhēng)是本世紀(jì)最大戰(zhàn)略失誤之一

體育要聞

CBA最老球員,身價(jià)7500萬(wàn)美元

娛樂(lè)要聞

好用心!宋慧喬為好友慶生做一桌美食

財(cái)經(jīng)要聞

誰(shuí)造出了優(yōu)思益這頭“怪物”?

汽車要聞

家用SUV沒(méi)駕駛樂(lè)趣?極氪8X第一個(gè)不同意

態(tài)度原創(chuàng)

時(shí)尚
手機(jī)
家居
藝術(shù)
軍事航空

女人不管多大年紀(jì)衣服不要隨便穿,這些穿搭可借鑒,優(yōu)雅顯瘦

手機(jī)要聞

大疆Osmo Pocket 4包裝曝光:1英寸傳感器、107GB內(nèi)置存儲(chǔ)

家居要聞

溫馨多元 愛(ài)的具象化

藝術(shù)要聞

21位中國(guó)當(dāng)代名家的26幅油畫(huà)

軍事要聞

美軍又一架戰(zhàn)機(jī)墜毀 此前F-15E被擊落

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版