![]()
這項(xiàng)由埃因霍溫理工大學(xué)領(lǐng)導(dǎo)的研究發(fā)表于2026年3月的arXiv預(yù)印本論文庫,論文編號為arXiv:2603.25398v1。對于想要深入了解這項(xiàng)技術(shù)突破的讀者,可以通過該編號查詢到完整的技術(shù)論文。
當(dāng)前的人工智能就像一位技藝高超的多面手,能夠處理各種復(fù)雜的視覺任務(wù)。但有一個令人困擾的問題:每當(dāng)要處理一個新任務(wù)時,這位"多面手"就需要重新學(xué)習(xí)所有技能,就好比一位鋼琴家每次演奏不同曲目前都要重新練習(xí)基本指法。埃因霍溫理工大學(xué)的研究團(tuán)隊(duì)發(fā)現(xiàn)了這個問題的根源,并提出了一個巧妙的解決方案——他們開發(fā)了一種名為"平面掩碼變換器"(PMT)的新架構(gòu),讓AI能夠在保持核心技能不變的同時,輕松適應(yīng)各種圖像和視頻分割任務(wù)。
這個發(fā)現(xiàn)的重要性在于徹底改變了AI系統(tǒng)的部署方式。傳統(tǒng)上,如果一個公司需要AI來處理照片分割、視頻分析和醫(yī)學(xué)影像三個任務(wù),就需要維護(hù)三套完全不同的系統(tǒng),每套系統(tǒng)都有自己獨(dú)特的"大腦"。這就像要雇傭三位專家,每人只能處理一種任務(wù)。而PMT的出現(xiàn),讓一套系統(tǒng)能夠同時勝任多項(xiàng)任務(wù),就像擁有了一位真正的全才。
研究團(tuán)隊(duì)發(fā)現(xiàn)了現(xiàn)有技術(shù)的一個致命弱點(diǎn)。目前最先進(jìn)的"僅編碼器"分割方法,比如EoMT和VidEoMT,雖然運(yùn)行速度極快且效果出色,但它們有個不可克服的缺陷:必須為每個具體任務(wù)重新訓(xùn)練整個系統(tǒng)的核心部分。這就好比每次要演奏不同類型的音樂時,都要重新改造鋼琴的內(nèi)部結(jié)構(gòu)。研究人員發(fā)現(xiàn),如果試圖保持核心部分不變(專業(yè)術(shù)語稱為"凍結(jié)編碼器"),這些方法就會完全失效,性能會從原本的優(yōu)秀水平直接跌落到幾乎無法使用的程度。
為了解決這個問題,研究團(tuán)隊(duì)深入分析了失效的原因。他們發(fā)現(xiàn),傳統(tǒng)方法是將任務(wù)相關(guān)的"查詢"直接插入到AI系統(tǒng)的核心處理層中。這就像是在鋼琴演奏過程中突然加入一些全新的按鍵——如果鋼琴的內(nèi)部機(jī)制無法調(diào)整適應(yīng),這些新按鍵就無法產(chǎn)生和諧的音符。當(dāng)核心部分被"凍結(jié)"無法調(diào)整時,系統(tǒng)就無法理解這些新插入的查詢,導(dǎo)致整個機(jī)制崩潰。
PMT的創(chuàng)新之處在于徹底改變了這種架構(gòu)設(shè)計(jì)。研究團(tuán)隊(duì)沒有將查詢插入到系統(tǒng)核心中,而是在核心之外構(gòu)建了一個精巧的"平面掩碼解碼器"(PMD)。這個解碼器就像是鋼琴旁邊的一個專門的伴奏設(shè)備,它能夠接收鋼琴的音符,然后根據(jù)具體的演奏需求添加相應(yīng)的伴奏。這樣一來,鋼琴本身(核心編碼器)可以保持原樣,而伴奏設(shè)備(解碼器)則可以根據(jù)不同的音樂風(fēng)格進(jìn)行調(diào)整。
這個設(shè)計(jì)的巧妙之處還在于它的通用性。無論是處理單張圖片的分割任務(wù),還是處理連續(xù)視頻的動態(tài)分割,PMT都能夠無縫適應(yīng)。對于視頻處理,系統(tǒng)采用了一種"記憶傳遞"的機(jī)制,就像是在演奏連續(xù)樂章時,演奏者能夠記住前面樂章的主旋律,并在后續(xù)演奏中保持連貫性。這種設(shè)計(jì)讓系統(tǒng)在處理視頻時不需要任何額外的復(fù)雜跟蹤模塊,僅僅通過在時間軸上傳遞查詢信息就能實(shí)現(xiàn)優(yōu)秀的視頻分割效果。
研究團(tuán)隊(duì)在多個標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面的性能測試,結(jié)果令人印象深刻。在圖像分割任務(wù)上,PMT不僅達(dá)到了與最先進(jìn)的"凍結(jié)編碼器"方法相當(dāng)?shù)木龋疫\(yùn)行速度提升了近3倍。更令人驚喜的是,在視頻分割任務(wù)中,PMT甚至能夠與那些需要完全重新訓(xùn)練核心部分的方法相提并論,同時比其他"凍結(jié)編碼器"方法快了8倍之多。這種性能表現(xiàn)就像是找到了一種既能保持鋼琴原有音質(zhì),又能大幅提升演奏速度的神奇技巧。
實(shí)驗(yàn)結(jié)果顯示了幾個關(guān)鍵發(fā)現(xiàn)。首先,PMT的效果很大程度上依賴于核心編碼器的質(zhì)量和訓(xùn)練規(guī)模。就像伴奏設(shè)備的效果取決于鋼琴本身的品質(zhì)一樣,只有當(dāng)核心編碼器經(jīng)過大規(guī)模、高質(zhì)量的預(yù)訓(xùn)練時,PMT才能發(fā)揮最佳性能。研究團(tuán)隊(duì)測試了不同規(guī)模的編碼器,發(fā)現(xiàn)隨著編碼器容量的增加,PMT與傳統(tǒng)復(fù)雜方法之間的性能差距顯著縮小。
其次,解碼器的設(shè)計(jì)需要精心平衡。研究團(tuán)隊(duì)發(fā)現(xiàn),6層的解碼器深度是一個最佳選擇點(diǎn)——層數(shù)太少會導(dǎo)致性能不足,層數(shù)太多則會帶來不必要的計(jì)算開銷而沒有明顯的性能提升。這就像是為伴奏設(shè)備選擇合適的復(fù)雜度,既要足夠表達(dá)豐富的伴奏效果,又要避免過度復(fù)雜化導(dǎo)致的效率損失。
研究團(tuán)隊(duì)還引入了幾個巧妙的技術(shù)細(xì)節(jié)來優(yōu)化PMT的性能。其中一個關(guān)鍵創(chuàng)新是"橫向連接"機(jī)制,它允許解碼器不僅僅使用核心編碼器最終層的輸出,還能夠訪問中間層的信息。這就像是伴奏設(shè)備不僅能聽到鋼琴的最終音符,還能感知演奏過程中的細(xì)微變化,從而提供更加精準(zhǔn)和豐富的伴奏效果。
另一個重要的技術(shù)細(xì)節(jié)是位置編碼的處理。研究團(tuán)隊(duì)采用了旋轉(zhuǎn)位置嵌入(RoPE)技術(shù),為解碼器中的圖像片段提供明確的空間位置信息,同時保持查詢的位置無關(guān)性。這種設(shè)計(jì)就像是為伴奏設(shè)備提供了精確的時間節(jié)拍器,確保每個音符都能在正確的時機(jī)響起,同時保持整體演奏的靈活性。
在視頻處理方面,PMT展現(xiàn)出了特別出色的能力。傳統(tǒng)的視頻分割方法通常需要復(fù)雜的跟蹤模塊、重新識別層和時間變換器層來處理視頻中的時間信息。而PMT通過一個簡單而高效的查詢傳播機(jī)制就實(shí)現(xiàn)了相同甚至更好的效果。這個機(jī)制的工作原理就像是在演奏連續(xù)樂章時,演奏者將前一個樂章的關(guān)鍵主題記在心中,并在下一個樂章開始時將這個主題融入新的演奏中。
具體來說,在處理視頻的第一幀時,PMT使用標(biāo)準(zhǔn)的可學(xué)習(xí)查詢進(jìn)行分割。從第二幀開始,系統(tǒng)會將前一幀的輸出查詢經(jīng)過線性變換后與可學(xué)習(xí)查詢相加融合,形成新的查詢輸入。這種設(shè)計(jì)既保持了檢測新出現(xiàn)物體的能力,又能夠維持對已存在物體的跟蹤連續(xù)性。整個過程無需任何專門的跟蹤算法或時間建模模塊,極大地簡化了系統(tǒng)復(fù)雜度。
研究團(tuán)隊(duì)還深入分析了不同預(yù)訓(xùn)練方法對PMT性能的影響。他們發(fā)現(xiàn),使用大規(guī)模自監(jiān)督學(xué)習(xí)方法(如DINOv3)預(yù)訓(xùn)練的編碼器能夠?yàn)镻MT提供最佳的基礎(chǔ)。這些方法訓(xùn)練出的編碼器包含了豐富的語義信息和空間結(jié)構(gòu)知識,為后續(xù)的分割任務(wù)提供了強(qiáng)有力的特征基礎(chǔ)。相比之下,僅使用ImageNet數(shù)據(jù)集進(jìn)行監(jiān)督學(xué)習(xí)訓(xùn)練的編碼器雖然也能工作,但效果明顯不如大規(guī)模自監(jiān)督方法。
在實(shí)際應(yīng)用場景的測試中,PMT展現(xiàn)出了優(yōu)秀的實(shí)用性。在COCO數(shù)據(jù)集的全景分割任務(wù)上,PMT達(dá)到了56.1的PQ分?jǐn)?shù),與需要復(fù)雜任務(wù)特定模塊的方法相當(dāng),但速度快了近3倍。在ADE20K數(shù)據(jù)集的語義分割任務(wù)上,PMT同樣保持了與傳統(tǒng)方法相當(dāng)?shù)木龋瑫r顯著提升了推理速度。
視頻分割的結(jié)果更加令人鼓舞。在YouTube-VIS數(shù)據(jù)集上,PMT不僅匹配了最先進(jìn)的凍結(jié)編碼器方法的性能,甚至在某些指標(biāo)上超越了需要完全微調(diào)編碼器的方法。在VIPSeg視頻全景分割數(shù)據(jù)集上,PMT達(dá)到了與復(fù)雜方法相近的性能,同時保持了8倍的速度優(yōu)勢。特別值得一提的是,在VSPW視頻語義分割數(shù)據(jù)集上,PMT甚至創(chuàng)造了新的最佳記錄,這證明了該方法的有效性和先進(jìn)性。
PMT的另一個重要優(yōu)勢是其出色的計(jì)算效率。傳統(tǒng)的分割方法通常需要大量的計(jì)算資源,特別是在處理高分辨率圖像或長視頻序列時。PMT通過精心設(shè)計(jì)的架構(gòu)大幅降低了計(jì)算復(fù)雜度。具體來說,PMT在處理640×640分辨率圖像時的計(jì)算量約為767 GFLOPs,而傳統(tǒng)的ViT-Adapter + Mask2Former方法需要804 GFLOPs。更重要的是,PMT的推理速度達(dá)到了141 FPS,而傳統(tǒng)方法僅為48 FPS。
這種效率提升的意義不僅僅在于速度本身,更在于它為實(shí)際部署帶來的便利性。在資源受限的環(huán)境中,比如移動設(shè)備或邊緣計(jì)算場景,PMT的高效性能夠讓AI分割功能在更廣泛的設(shè)備上運(yùn)行。同時,由于核心編碼器保持凍結(jié)狀態(tài),多個不同的分割任務(wù)可以共享同一個編碼器,大幅降低了系統(tǒng)的內(nèi)存需求和存儲成本。
研究團(tuán)隊(duì)還進(jìn)行了詳細(xì)的消融實(shí)驗(yàn)來驗(yàn)證PMT各個組件的重要性。他們發(fā)現(xiàn),從傳統(tǒng)的EoMT方法逐步演進(jìn)到PMT的過程中,每個改進(jìn)都帶來了明顯的性能提升。首先,將查詢處理從編碼器內(nèi)部移到外部的獨(dú)立解碼器,立即將性能從幾乎失效的6.8 PQ提升到了53.7 PQ。隨后添加橫向連接機(jī)制又帶來了2.2 PQ的提升,而引入旋轉(zhuǎn)位置嵌入則進(jìn)一步貢獻(xiàn)了0.2 PQ的增益。
這些實(shí)驗(yàn)結(jié)果清楚地表明,PMT的成功不是依賴于單一的技術(shù)創(chuàng)新,而是多個精心設(shè)計(jì)的組件協(xié)同工作的結(jié)果。每個組件都有其特定的作用:獨(dú)立解碼器解決了查詢處理與凍結(jié)編碼器的兼容性問題;橫向連接提供了多尺度特征信息;位置編碼確保了空間信息的準(zhǔn)確傳遞。
從更廣闊的視角來看,PMT的成功反映了AI系統(tǒng)設(shè)計(jì)理念的一個重要轉(zhuǎn)變。傳統(tǒng)的方法往往追求端到端的優(yōu)化,試圖讓整個系統(tǒng)的每個部分都針對特定任務(wù)進(jìn)行調(diào)整。而PMT代表的新理念則強(qiáng)調(diào)模塊化和可重用性,通過保持核心組件的通用性來實(shí)現(xiàn)更好的擴(kuò)展性和實(shí)用性。
這種設(shè)計(jì)理念的轉(zhuǎn)變對AI技術(shù)的產(chǎn)業(yè)化應(yīng)用具有深遠(yuǎn)影響。在實(shí)際的商業(yè)部署中,企業(yè)往往需要處理多種不同但相關(guān)的任務(wù)。傳統(tǒng)方法要求為每個任務(wù)維護(hù)獨(dú)立的模型,不僅增加了開發(fā)和維護(hù)成本,也帶來了資源浪費(fèi)。PMT的方法讓企業(yè)可以用一個核心模型配合多個輕量級解碼器來處理不同任務(wù),大幅降低了部署復(fù)雜度和成本。
研究團(tuán)隊(duì)的工作還揭示了預(yù)訓(xùn)練模型規(guī)模對系統(tǒng)性能的重要影響。他們的實(shí)驗(yàn)顯示,當(dāng)使用較小的ViT-S模型作為編碼器時,PMT與傳統(tǒng)方法之間仍存在4.3 PQ的性能差距。但隨著編碼器規(guī)模增大到ViT-B,這個差距縮小到0.8 PQ,而使用ViT-L時差距進(jìn)一步縮小到僅0.3 PQ。這個趨勢表明,隨著預(yù)訓(xùn)練模型規(guī)模的繼續(xù)增大,PMT有望完全消除與傳統(tǒng)復(fù)雜方法之間的性能差距。
這個發(fā)現(xiàn)對未來的研究方向具有重要指導(dǎo)意義。隨著計(jì)算能力的不斷提升和預(yù)訓(xùn)練數(shù)據(jù)規(guī)模的擴(kuò)大,我們可以期待看到更大、更強(qiáng)的基礎(chǔ)模型。在這種趨勢下,像PMT這樣的簡化架構(gòu)將變得越來越有吸引力,因?yàn)樗鼈兡軌虺浞掷脧?qiáng)大基礎(chǔ)模型的能力,同時保持架構(gòu)的簡潔性和部署的靈活性。
PMT的成功也為其他計(jì)算機(jī)視覺任務(wù)提供了啟發(fā)。目標(biāo)檢測、姿態(tài)估計(jì)、深度估計(jì)等任務(wù)都面臨著類似的挑戰(zhàn):如何在保持預(yù)訓(xùn)練模型通用性的同時實(shí)現(xiàn)特定任務(wù)的優(yōu)秀性能。PMT展示的"凍結(jié)核心、靈活外圍"的設(shè)計(jì)思路為這些問題提供了一個有價值的解決方案模板。
從技術(shù)演進(jìn)的角度來看,PMT代表了計(jì)算機(jī)視覺從"任務(wù)特定優(yōu)化"向"通用基礎(chǔ)+任務(wù)適配"模式的轉(zhuǎn)變。這種轉(zhuǎn)變不僅體現(xiàn)在架構(gòu)設(shè)計(jì)上,也反映了對AI系統(tǒng)可擴(kuò)展性和實(shí)用性的重新思考。在這個新的范式下,研究重點(diǎn)將從設(shè)計(jì)復(fù)雜的任務(wù)特定組件轉(zhuǎn)向開發(fā)更強(qiáng)大的通用基礎(chǔ)模型和更高效的任務(wù)適配機(jī)制。
研究團(tuán)隊(duì)的工作還具有重要的環(huán)境和經(jīng)濟(jì)價值。通過允許多個任務(wù)共享同一個凍結(jié)的編碼器,PMT顯著降低了訓(xùn)練和部署AI系統(tǒng)的能源消耗。在當(dāng)前越來越關(guān)注AI環(huán)境影響的背景下,這種資源高效的方法具有重要的現(xiàn)實(shí)意義。同時,降低的計(jì)算需求也使得AI技術(shù)更容易被資源有限的組織和個人采用,有助于AI技術(shù)的普及和民主化。
值得注意的是,PMT的設(shè)計(jì)還體現(xiàn)了對AI系統(tǒng)魯棒性和可靠性的考慮。由于核心編碼器在部署后保持不變,系統(tǒng)的行為更加可預(yù)測,這對于需要高可靠性的應(yīng)用場景具有重要價值。同時,任務(wù)特定的適配僅在相對簡單的解碼器中進(jìn)行,降低了引入任務(wù)特定偏差或過擬合的風(fēng)險。
展望未來,PMT的成功為計(jì)算機(jī)視覺領(lǐng)域的發(fā)展指出了一個有前景的方向。隨著基礎(chǔ)模型變得越來越強(qiáng)大,我們可以期待看到更多類似的"輕量級適配"方法的出現(xiàn)。這些方法將進(jìn)一步推動AI技術(shù)從研究實(shí)驗(yàn)室向?qū)嶋H應(yīng)用的轉(zhuǎn)化,讓更多的組織和個人能夠受益于AI技術(shù)的進(jìn)步。
回顧整個研究過程,埃因霍溫理工大學(xué)團(tuán)隊(duì)的工作展現(xiàn)了科學(xué)研究中問題發(fā)現(xiàn)和解決的經(jīng)典模式。他們不僅準(zhǔn)確識別了現(xiàn)有技術(shù)的關(guān)鍵限制,還提出了一個簡潔而有效的解決方案。更重要的是,他們通過全面的實(shí)驗(yàn)驗(yàn)證了方案的有效性,并深入分析了影響系統(tǒng)性能的各種因素。
這項(xiàng)研究的影響將遠(yuǎn)遠(yuǎn)超出技術(shù)本身。PMT所代表的設(shè)計(jì)理念和方法論為整個AI領(lǐng)域的發(fā)展提供了有價值的啟示。在AI技術(shù)日益成熟和商業(yè)化的今天,像PMT這樣兼顧性能、效率和實(shí)用性的解決方案將發(fā)揮越來越重要的作用。
說到底,PMT的故事實(shí)際上是關(guān)于如何在保持核心能力的同時實(shí)現(xiàn)靈活適應(yīng)的故事。就像一位經(jīng)驗(yàn)豐富的演奏家能夠用同一架鋼琴演奏各種不同風(fēng)格的音樂一樣,PMT讓AI系統(tǒng)能夠用同一個核心"大腦"處理各種不同的視覺任務(wù)。這種能力不僅提升了AI系統(tǒng)的實(shí)用性和經(jīng)濟(jì)性,也為我們展現(xiàn)了AI技術(shù)發(fā)展的一個重要趨勢:從專用化向通用化,從復(fù)雜化向簡潔化。
對于普通人來說,PMT的成功意味著AI視覺技術(shù)將變得更加普及和易用。未來的智能手機(jī)、監(jiān)控系統(tǒng)、自動駕駛汽車等設(shè)備都可能受益于這種高效的技術(shù),享受到更快、更準(zhǔn)確的圖像和視頻分析功能。同時,這種技術(shù)的資源高效性也意味著即使在計(jì)算能力有限的設(shè)備上,我們也能享受到先進(jìn)AI技術(shù)帶來的便利。
這項(xiàng)研究提醒我們,在追求技術(shù)進(jìn)步的過程中,簡潔性和實(shí)用性同樣重要。有時候,最好的解決方案不是最復(fù)雜的,而是最能平衡各種需求的。PMT的成功正是這一理念的完美體現(xiàn),它將繼續(xù)影響和啟發(fā)未來的AI研究和應(yīng)用。
Q&A
Q1:什么是PMT平面掩碼變換器?
A:PMT是埃因霍溫理工大學(xué)開發(fā)的一種新型AI圖像分割架構(gòu)。它的核心創(chuàng)新是保持AI系統(tǒng)的"大腦"(編碼器)完全不變,通過在外部添加一個輕量級的"解碼器"來處理不同的分割任務(wù)。這就像用同一架鋼琴配不同的伴奏設(shè)備,讓一個AI系統(tǒng)能夠同時處理多種不同的圖像和視頻分割工作。
Q2:PMT相比傳統(tǒng)方法有什么優(yōu)勢?
A:PMT最大的優(yōu)勢是速度快且更實(shí)用。在圖像分割上,它比傳統(tǒng)復(fù)雜方法快3倍,在視頻分割上快8倍,同時保持相當(dāng)?shù)木取8匾氖牵粋€PMT系統(tǒng)可以同時服務(wù)多個不同任務(wù),企業(yè)不再需要為每個任務(wù)維護(hù)獨(dú)立的AI模型,大幅降低了部署成本和復(fù)雜度。
Q3:PMT技術(shù)什么時候能在日常設(shè)備中使用?
A:PMT目前還處于研究階段,但其技術(shù)原理已經(jīng)得到充分驗(yàn)證。預(yù)計(jì)未來幾年內(nèi),基于PMT思路的技術(shù)可能會出現(xiàn)在智能手機(jī)的相機(jī)應(yīng)用、視頻編輯軟件、監(jiān)控系統(tǒng)等設(shè)備中,讓普通用戶能夠享受到更快更準(zhǔn)確的圖像分割和視頻分析功能。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.