埃因霍溫理工大學(xué)：冷凍編碼器也能完美分割圖像？

2026-04-04 17:13:06　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由埃因霍溫理工大學(xué)領(lǐng)導(dǎo)的研究發(fā)表于2026年3月的arXiv預(yù)印本論文庫，論文編號為arXiv:2603.25398v1。對于想要深入了解這項(xiàng)技術(shù)突破的讀者，可以通過該編號查詢到完整的技術(shù)論文。

當(dāng)前的人工智能就像一位技藝高超的多面手，能夠處理各種復(fù)雜的視覺任務(wù)。但有一個令人困擾的問題：每當(dāng)要處理一個新任務(wù)時，這位"多面手"就需要重新學(xué)習(xí)所有技能，就好比一位鋼琴家每次演奏不同曲目前都要重新練習(xí)基本指法。埃因霍溫理工大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個問題的根源，并提出了一個巧妙的解決方案——他們開發(fā)了一種名為"平面掩碼變換器"(PMT)的新架構(gòu)，讓AI能夠在保持核心技能不變的同時，輕松適應(yīng)各種圖像和視頻分割任務(wù)。

這個發(fā)現(xiàn)的重要性在于徹底改變了AI系統(tǒng)的部署方式。傳統(tǒng)上，如果一個公司需要AI來處理照片分割、視頻分析和醫(yī)學(xué)影像三個任務(wù)，就需要維護(hù)三套完全不同的系統(tǒng)，每套系統(tǒng)都有自己獨(dú)特的"大腦"。這就像要雇傭三位專家，每人只能處理一種任務(wù)。而PMT的出現(xiàn)，讓一套系統(tǒng)能夠同時勝任多項(xiàng)任務(wù)，就像擁有了一位真正的全才。

研究團(tuán)隊(duì)發(fā)現(xiàn)了現(xiàn)有技術(shù)的一個致命弱點(diǎn)。目前最先進(jìn)的"僅編碼器"分割方法，比如EoMT和VidEoMT，雖然運(yùn)行速度極快且效果出色，但它們有個不可克服的缺陷：必須為每個具體任務(wù)重新訓(xùn)練整個系統(tǒng)的核心部分。這就好比每次要演奏不同類型的音樂時，都要重新改造鋼琴的內(nèi)部結(jié)構(gòu)。研究人員發(fā)現(xiàn)，如果試圖保持核心部分不變（專業(yè)術(shù)語稱為"凍結(jié)編碼器"），這些方法就會完全失效，性能會從原本的優(yōu)秀水平直接跌落到幾乎無法使用的程度。

為了解決這個問題，研究團(tuán)隊(duì)深入分析了失效的原因。他們發(fā)現(xiàn)，傳統(tǒng)方法是將任務(wù)相關(guān)的"查詢"直接插入到AI系統(tǒng)的核心處理層中。這就像是在鋼琴演奏過程中突然加入一些全新的按鍵——如果鋼琴的內(nèi)部機(jī)制無法調(diào)整適應(yīng)，這些新按鍵就無法產(chǎn)生和諧的音符。當(dāng)核心部分被"凍結(jié)"無法調(diào)整時，系統(tǒng)就無法理解這些新插入的查詢，導(dǎo)致整個機(jī)制崩潰。

PMT的創(chuàng)新之處在于徹底改變了這種架構(gòu)設(shè)計(jì)。研究團(tuán)隊(duì)沒有將查詢插入到系統(tǒng)核心中，而是在核心之外構(gòu)建了一個精巧的"平面掩碼解碼器"(PMD)。這個解碼器就像是鋼琴旁邊的一個專門的伴奏設(shè)備，它能夠接收鋼琴的音符，然后根據(jù)具體的演奏需求添加相應(yīng)的伴奏。這樣一來，鋼琴本身（核心編碼器）可以保持原樣，而伴奏設(shè)備（解碼器）則可以根據(jù)不同的音樂風(fēng)格進(jìn)行調(diào)整。

這個設(shè)計(jì)的巧妙之處還在于它的通用性。無論是處理單張圖片的分割任務(wù)，還是處理連續(xù)視頻的動態(tài)分割，PMT都能夠無縫適應(yīng)。對于視頻處理，系統(tǒng)采用了一種"記憶傳遞"的機(jī)制，就像是在演奏連續(xù)樂章時，演奏者能夠記住前面樂章的主旋律，并在后續(xù)演奏中保持連貫性。這種設(shè)計(jì)讓系統(tǒng)在處理視頻時不需要任何額外的復(fù)雜跟蹤模塊，僅僅通過在時間軸上傳遞查詢信息就能實(shí)現(xiàn)優(yōu)秀的視頻分割效果。

研究團(tuán)隊(duì)在多個標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面的性能測試，結(jié)果令人印象深刻。在圖像分割任務(wù)上，PMT不僅達(dá)到了與最先進(jìn)的"凍結(jié)編碼器"方法相當(dāng)?shù)木龋疫\(yùn)行速度提升了近3倍。更令人驚喜的是，在視頻分割任務(wù)中，PMT甚至能夠與那些需要完全重新訓(xùn)練核心部分的方法相提并論，同時比其他"凍結(jié)編碼器"方法快了8倍之多。這種性能表現(xiàn)就像是找到了一種既能保持鋼琴原有音質(zhì)，又能大幅提升演奏速度的神奇技巧。

實(shí)驗(yàn)結(jié)果顯示了幾個關(guān)鍵發(fā)現(xiàn)。首先，PMT的效果很大程度上依賴于核心編碼器的質(zhì)量和訓(xùn)練規(guī)模。就像伴奏設(shè)備的效果取決于鋼琴本身的品質(zhì)一樣，只有當(dāng)核心編碼器經(jīng)過大規(guī)模、高質(zhì)量的預(yù)訓(xùn)練時，PMT才能發(fā)揮最佳性能。研究團(tuán)隊(duì)測試了不同規(guī)模的編碼器，發(fā)現(xiàn)隨著編碼器容量的增加，PMT與傳統(tǒng)復(fù)雜方法之間的性能差距顯著縮小。

其次，解碼器的設(shè)計(jì)需要精心平衡。研究團(tuán)隊(duì)發(fā)現(xiàn)，6層的解碼器深度是一個最佳選擇點(diǎn)——層數(shù)太少會導(dǎo)致性能不足，層數(shù)太多則會帶來不必要的計(jì)算開銷而沒有明顯的性能提升。這就像是為伴奏設(shè)備選擇合適的復(fù)雜度，既要足夠表達(dá)豐富的伴奏效果，又要避免過度復(fù)雜化導(dǎo)致的效率損失。

研究團(tuán)隊(duì)還引入了幾個巧妙的技術(shù)細(xì)節(jié)來優(yōu)化PMT的性能。其中一個關(guān)鍵創(chuàng)新是"橫向連接"機(jī)制，它允許解碼器不僅僅使用核心編碼器最終層的輸出，還能夠訪問中間層的信息。這就像是伴奏設(shè)備不僅能聽到鋼琴的最終音符，還能感知演奏過程中的細(xì)微變化，從而提供更加精準(zhǔn)和豐富的伴奏效果。

另一個重要的技術(shù)細(xì)節(jié)是位置編碼的處理。研究團(tuán)隊(duì)采用了旋轉(zhuǎn)位置嵌入(RoPE)技術(shù)，為解碼器中的圖像片段提供明確的空間位置信息，同時保持查詢的位置無關(guān)性。這種設(shè)計(jì)就像是為伴奏設(shè)備提供了精確的時間節(jié)拍器，確保每個音符都能在正確的時機(jī)響起，同時保持整體演奏的靈活性。

在視頻處理方面，PMT展現(xiàn)出了特別出色的能力。傳統(tǒng)的視頻分割方法通常需要復(fù)雜的跟蹤模塊、重新識別層和時間變換器層來處理視頻中的時間信息。而PMT通過一個簡單而高效的查詢傳播機(jī)制就實(shí)現(xiàn)了相同甚至更好的效果。這個機(jī)制的工作原理就像是在演奏連續(xù)樂章時，演奏者將前一個樂章的關(guān)鍵主題記在心中，并在下一個樂章開始時將這個主題融入新的演奏中。

具體來說，在處理視頻的第一幀時，PMT使用標(biāo)準(zhǔn)的可學(xué)習(xí)查詢進(jìn)行分割。從第二幀開始，系統(tǒng)會將前一幀的輸出查詢經(jīng)過線性變換后與可學(xué)習(xí)查詢相加融合，形成新的查詢輸入。這種設(shè)計(jì)既保持了檢測新出現(xiàn)物體的能力，又能夠維持對已存在物體的跟蹤連續(xù)性。整個過程無需任何專門的跟蹤算法或時間建模模塊，極大地簡化了系統(tǒng)復(fù)雜度。

研究團(tuán)隊(duì)還深入分析了不同預(yù)訓(xùn)練方法對PMT性能的影響。他們發(fā)現(xiàn)，使用大規(guī)模自監(jiān)督學(xué)習(xí)方法（如DINOv3）預(yù)訓(xùn)練的編碼器能夠?yàn)镻MT提供最佳的基礎(chǔ)。這些方法訓(xùn)練出的編碼器包含了豐富的語義信息和空間結(jié)構(gòu)知識，為后續(xù)的分割任務(wù)提供了強(qiáng)有力的特征基礎(chǔ)。相比之下，僅使用ImageNet數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練的編碼器雖然也能工作，但效果明顯不如大規(guī)模自監(jiān)督方法。

在實(shí)際應(yīng)用場景的測試中，PMT展現(xiàn)出了優(yōu)秀的實(shí)用性。在COCO數(shù)據(jù)集的全景分割任務(wù)上，PMT達(dá)到了56.1的PQ分?jǐn)?shù)，與需要復(fù)雜任務(wù)特定模塊的方法相當(dāng)，但速度快了近3倍。在ADE20K數(shù)據(jù)集的語義分割任務(wù)上，PMT同樣保持了與傳統(tǒng)方法相當(dāng)?shù)木龋瑫r顯著提升了推理速度。

視頻分割的結(jié)果更加令人鼓舞。在YouTube-VIS數(shù)據(jù)集上，PMT不僅匹配了最先進(jìn)的凍結(jié)編碼器方法的性能，甚至在某些指標(biāo)上超越了需要完全微調(diào)編碼器的方法。在VIPSeg視頻全景分割數(shù)據(jù)集上，PMT達(dá)到了與復(fù)雜方法相近的性能，同時保持了8倍的速度優(yōu)勢。特別值得一提的是，在VSPW視頻語義分割數(shù)據(jù)集上，PMT甚至創(chuàng)造了新的最佳記錄，這證明了該方法的有效性和先進(jìn)性。

PMT的另一個重要優(yōu)勢是其出色的計(jì)算效率。傳統(tǒng)的分割方法通常需要大量的計(jì)算資源，特別是在處理高分辨率圖像或長視頻序列時。PMT通過精心設(shè)計(jì)的架構(gòu)大幅降低了計(jì)算復(fù)雜度。具體來說，PMT在處理640×640分辨率圖像時的計(jì)算量約為767 GFLOPs，而傳統(tǒng)的ViT-Adapter + Mask2Former方法需要804 GFLOPs。更重要的是，PMT的推理速度達(dá)到了141 FPS，而傳統(tǒng)方法僅為48 FPS。

這種效率提升的意義不僅僅在于速度本身，更在于它為實(shí)際部署帶來的便利性。在資源受限的環(huán)境中，比如移動設(shè)備或邊緣計(jì)算場景，PMT的高效性能夠讓AI分割功能在更廣泛的設(shè)備上運(yùn)行。同時，由于核心編碼器保持凍結(jié)狀態(tài)，多個不同的分割任務(wù)可以共享同一個編碼器，大幅降低了系統(tǒng)的內(nèi)存需求和存儲成本。

研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證PMT各個組件的重要性。他們發(fā)現(xiàn)，從傳統(tǒng)的EoMT方法逐步演進(jìn)到PMT的過程中，每個改進(jìn)都帶來了明顯的性能提升。首先，將查詢處理從編碼器內(nèi)部移到外部的獨(dú)立解碼器，立即將性能從幾乎失效的6.8 PQ提升到了53.7 PQ。隨后添加橫向連接機(jī)制又帶來了2.2 PQ的提升，而引入旋轉(zhuǎn)位置嵌入則進(jìn)一步貢獻(xiàn)了0.2 PQ的增益。

這些實(shí)驗(yàn)結(jié)果清楚地表明，PMT的成功不是依賴于單一的技術(shù)創(chuàng)新，而是多個精心設(shè)計(jì)的組件協(xié)同工作的結(jié)果。每個組件都有其特定的作用：獨(dú)立解碼器解決了查詢處理與凍結(jié)編碼器的兼容性問題；橫向連接提供了多尺度特征信息；位置編碼確保了空間信息的準(zhǔn)確傳遞。

從更廣闊的視角來看，PMT的成功反映了AI系統(tǒng)設(shè)計(jì)理念的一個重要轉(zhuǎn)變。傳統(tǒng)的方法往往追求端到端的優(yōu)化，試圖讓整個系統(tǒng)的每個部分都針對特定任務(wù)進(jìn)行調(diào)整。而PMT代表的新理念則強(qiáng)調(diào)模塊化和可重用性，通過保持核心組件的通用性來實(shí)現(xiàn)更好的擴(kuò)展性和實(shí)用性。

這種設(shè)計(jì)理念的轉(zhuǎn)變對AI技術(shù)的產(chǎn)業(yè)化應(yīng)用具有深遠(yuǎn)影響。在實(shí)際的商業(yè)部署中，企業(yè)往往需要處理多種不同但相關(guān)的任務(wù)。傳統(tǒng)方法要求為每個任務(wù)維護(hù)獨(dú)立的模型，不僅增加了開發(fā)和維護(hù)成本，也帶來了資源浪費(fèi)。PMT的方法讓企業(yè)可以用一個核心模型配合多個輕量級解碼器來處理不同任務(wù)，大幅降低了部署復(fù)雜度和成本。

研究團(tuán)隊(duì)的工作還揭示了預(yù)訓(xùn)練模型規(guī)模對系統(tǒng)性能的重要影響。他們的實(shí)驗(yàn)顯示，當(dāng)使用較小的ViT-S模型作為編碼器時，PMT與傳統(tǒng)方法之間仍存在4.3 PQ的性能差距。但隨著編碼器規(guī)模增大到ViT-B，這個差距縮小到0.8 PQ，而使用ViT-L時差距進(jìn)一步縮小到僅0.3 PQ。這個趨勢表明，隨著預(yù)訓(xùn)練模型規(guī)模的繼續(xù)增大，PMT有望完全消除與傳統(tǒng)復(fù)雜方法之間的性能差距。

這個發(fā)現(xiàn)對未來的研究方向具有重要指導(dǎo)意義。隨著計(jì)算能力的不斷提升和預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的擴(kuò)大，我們可以期待看到更大、更強(qiáng)的基礎(chǔ)模型。在這種趨勢下，像PMT這樣的簡化架構(gòu)將變得越來越有吸引力，因?yàn)樗鼈兡軌虺浞掷脧?qiáng)大基礎(chǔ)模型的能力，同時保持架構(gòu)的簡潔性和部署的靈活性。

PMT的成功也為其他計(jì)算機(jī)視覺任務(wù)提供了啟發(fā)。目標(biāo)檢測、姿態(tài)估計(jì)、深度估計(jì)等任務(wù)都面臨著類似的挑戰(zhàn)：如何在保持預(yù)訓(xùn)練模型通用性的同時實(shí)現(xiàn)特定任務(wù)的優(yōu)秀性能。PMT展示的"凍結(jié)核心、靈活外圍"的設(shè)計(jì)思路為這些問題提供了一個有價值的解決方案模板。

從技術(shù)演進(jìn)的角度來看，PMT代表了計(jì)算機(jī)視覺從"任務(wù)特定優(yōu)化"向"通用基礎(chǔ)+任務(wù)適配"模式的轉(zhuǎn)變。這種轉(zhuǎn)變不僅體現(xiàn)在架構(gòu)設(shè)計(jì)上，也反映了對AI系統(tǒng)可擴(kuò)展性和實(shí)用性的重新思考。在這個新的范式下，研究重點(diǎn)將從設(shè)計(jì)復(fù)雜的任務(wù)特定組件轉(zhuǎn)向開發(fā)更強(qiáng)大的通用基礎(chǔ)模型和更高效的任務(wù)適配機(jī)制。

研究團(tuán)隊(duì)的工作還具有重要的環(huán)境和經(jīng)濟(jì)價值。通過允許多個任務(wù)共享同一個凍結(jié)的編碼器，PMT顯著降低了訓(xùn)練和部署AI系統(tǒng)的能源消耗。在當(dāng)前越來越關(guān)注AI環(huán)境影響的背景下，這種資源高效的方法具有重要的現(xiàn)實(shí)意義。同時，降低的計(jì)算需求也使得AI技術(shù)更容易被資源有限的組織和個人采用，有助于AI技術(shù)的普及和民主化。

值得注意的是，PMT的設(shè)計(jì)還體現(xiàn)了對AI系統(tǒng)魯棒性和可靠性的考慮。由于核心編碼器在部署后保持不變，系統(tǒng)的行為更加可預(yù)測，這對于需要高可靠性的應(yīng)用場景具有重要價值。同時，任務(wù)特定的適配僅在相對簡單的解碼器中進(jìn)行，降低了引入任務(wù)特定偏差或過擬合的風(fēng)險。

展望未來，PMT的成功為計(jì)算機(jī)視覺領(lǐng)域的發(fā)展指出了一個有前景的方向。隨著基礎(chǔ)模型變得越來越強(qiáng)大，我們可以期待看到更多類似的"輕量級適配"方法的出現(xiàn)。這些方法將進(jìn)一步推動AI技術(shù)從研究實(shí)驗(yàn)室向?qū)嶋H應(yīng)用的轉(zhuǎn)化，讓更多的組織和個人能夠受益于AI技術(shù)的進(jìn)步。

回顧整個研究過程，埃因霍溫理工大學(xué)團(tuán)隊(duì)的工作展現(xiàn)了科學(xué)研究中問題發(fā)現(xiàn)和解決的經(jīng)典模式。他們不僅準(zhǔn)確識別了現(xiàn)有技術(shù)的關(guān)鍵限制，還提出了一個簡潔而有效的解決方案。更重要的是，他們通過全面的實(shí)驗(yàn)驗(yàn)證了方案的有效性，并深入分析了影響系統(tǒng)性能的各種因素。

這項(xiàng)研究的影響將遠(yuǎn)遠(yuǎn)超出技術(shù)本身。PMT所代表的設(shè)計(jì)理念和方法論為整個AI領(lǐng)域的發(fā)展提供了有價值的啟示。在AI技術(shù)日益成熟和商業(yè)化的今天，像PMT這樣兼顧性能、效率和實(shí)用性的解決方案將發(fā)揮越來越重要的作用。

說到底，PMT的故事實(shí)際上是關(guān)于如何在保持核心能力的同時實(shí)現(xiàn)靈活適應(yīng)的故事。就像一位經(jīng)驗(yàn)豐富的演奏家能夠用同一架鋼琴演奏各種不同風(fēng)格的音樂一樣，PMT讓AI系統(tǒng)能夠用同一個核心"大腦"處理各種不同的視覺任務(wù)。這種能力不僅提升了AI系統(tǒng)的實(shí)用性和經(jīng)濟(jì)性，也為我們展現(xiàn)了AI技術(shù)發(fā)展的一個重要趨勢：從專用化向通用化，從復(fù)雜化向簡潔化。

對于普通人來說，PMT的成功意味著AI視覺技術(shù)將變得更加普及和易用。未來的智能手機(jī)、監(jiān)控系統(tǒng)、自動駕駛汽車等設(shè)備都可能受益于這種高效的技術(shù)，享受到更快、更準(zhǔn)確的圖像和視頻分析功能。同時，這種技術(shù)的資源高效性也意味著即使在計(jì)算能力有限的設(shè)備上，我們也能享受到先進(jìn)AI技術(shù)帶來的便利。

這項(xiàng)研究提醒我們，在追求技術(shù)進(jìn)步的過程中，簡潔性和實(shí)用性同樣重要。有時候，最好的解決方案不是最復(fù)雜的，而是最能平衡各種需求的。PMT的成功正是這一理念的完美體現(xiàn)，它將繼續(xù)影響和啟發(fā)未來的AI研究和應(yīng)用。

Q&A

Q1：什么是PMT平面掩碼變換器？

A：PMT是埃因霍溫理工大學(xué)開發(fā)的一種新型AI圖像分割架構(gòu)。它的核心創(chuàng)新是保持AI系統(tǒng)的"大腦"（編碼器）完全不變，通過在外部添加一個輕量級的"解碼器"來處理不同的分割任務(wù)。這就像用同一架鋼琴配不同的伴奏設(shè)備，讓一個AI系統(tǒng)能夠同時處理多種不同的圖像和視頻分割工作。

Q2：PMT相比傳統(tǒng)方法有什么優(yōu)勢？

A：PMT最大的優(yōu)勢是速度快且更實(shí)用。在圖像分割上，它比傳統(tǒng)復(fù)雜方法快3倍，在視頻分割上快8倍，同時保持相當(dāng)?shù)木取８匾氖牵粋€PMT系統(tǒng)可以同時服務(wù)多個不同任務(wù)，企業(yè)不再需要為每個任務(wù)維護(hù)獨(dú)立的AI模型，大幅降低了部署成本和復(fù)雜度。

Q3：PMT技術(shù)什么時候能在日常設(shè)備中使用？

A：PMT目前還處于研究階段，但其技術(shù)原理已經(jīng)得到充分驗(yàn)證。預(yù)計(jì)未來幾年內(nèi)，基于PMT思路的技術(shù)可能會出現(xiàn)在智能手機(jī)的相機(jī)應(yīng)用、視頻編輯軟件、監(jiān)控系統(tǒng)等設(shè)備中，讓普通用戶能夠享受到更快更準(zhǔn)確的圖像分割和視頻分析功能。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.