337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

架構(gòu)解耦是統(tǒng)一多模態(tài)模型所必須的嗎?全新AIA損失:No

0
分享至



近一年以來,統(tǒng)一理解與生成模型發(fā)展十分迅速,該任務(wù)的主要挑戰(zhàn)在于視覺理解和生成任務(wù)本身在網(wǎng)絡(luò)層間會產(chǎn)生沖突。早期的完全統(tǒng)一模型(如 Emu3)與單任務(wù)的方法差距巨大,Janus-Pro、BAGEL 通過一步一步解耦模型架構(gòu),極大地減小了與單任務(wù)模型的性能差距,后續(xù)方法甚至通過直接拼接現(xiàn)有理解和生成模型以達到極致的性能。

香港中文大學 MMLab 和美團的研究者相信,在不久的將來統(tǒng)一模型的性能一定能夠達到單任務(wù)的水平,但同時也引起了他們的思考,目前通過拆解架構(gòu)換取性能提升的方式真的是正確的嗎,它是否背離統(tǒng)一模型的初衷,它能夠提升性能的內(nèi)在原因又是什么,這種方式真的是統(tǒng)一模型必須的嗎?

「統(tǒng)一模型的初衷」以及「 架構(gòu)解耦的缺點」

統(tǒng)一理解生成模型的初衷是為了通過透明化、合理化的圖文交錯思考過程,提高單任務(wù)的性能,例如讓模型走迷宮時統(tǒng)一模型可以生成每一步對應(yīng)的圖像,可以在模型做數(shù)學題的時候給圖像畫上輔助線,或者是在生成一張圖像的時候邊畫邊思考有沒有生成不合理的地方并且自動修正,這些都是 Uni-MMMU 等當前統(tǒng)一模型基準所關(guān)注,也是它本身被獨立成一個領(lǐng)域的初衷。

再回到架構(gòu)解耦的模型,例如 BAGEL 上,它本身如果要實現(xiàn)圖文交錯思考,需要經(jīng)歷隱空間解碼到文字或者像素空間,然后再編碼到隱空間的復(fù)雜過程,兩個任務(wù)也幾乎不在同一個模型空間中,具有計算開銷大、信息丟失兩大問題。雖然在當前情況下相比于其可觀的性能,這個問題似乎并不顯著,但是研究者認為隨著研究的進行,這會是一個很大的問題。

AIA: 模型架構(gòu)解耦不是統(tǒng)一模型必須的

為了探究清楚「架構(gòu)解耦帶來性能提升的內(nèi)在原因」以及「探索不使用架構(gòu)解耦的前提下提升模型性能的方式」,香港中文大學 MMLab 和美團聯(lián)合推出了 AIA。



  • 論文標題:Architecture Decoupling Is Not All You Need For Unified Multimodal Model
  • 論文鏈接:https://arxiv.org/abs/2511.22663
  • 代碼:https://github.com/zhengdian1/AIA
  • 網(wǎng)頁:https://github.com/zhengdian1/AIA-project

研究者首先通過研究不同架構(gòu)的統(tǒng)一模型在每一層網(wǎng)絡(luò)中跨模態(tài)交互的強度,他們驚訝地發(fā)現(xiàn)不管如何進行模型架構(gòu)解耦,理解和生成任務(wù)在同一層網(wǎng)絡(luò)中始終呈現(xiàn)負相關(guān)的關(guān)系,同時進一步驗證了這個現(xiàn)象與輸入的模態(tài)、長度和類別都沒有關(guān)系,這說明是模型自發(fā)在學習如何合理地分配兩個任務(wù)在每一層中的占比,從而 「緩解沖突」,這又說明架構(gòu)解耦本質(zhì)上并沒有解決任務(wù)之間沖突的問題。

研究者進一步在最后一列可視化了現(xiàn)在單任務(wù) SOTA 的模型的多模態(tài)交互模式(HunyuanImage-3.0 雖然是統(tǒng)一模型,但更側(cè)重于生成效果),結(jié)果發(fā)現(xiàn)隨著模型解耦程度的增強,其對應(yīng)的跨模態(tài)交互模式會趨向于單任務(wù)的表現(xiàn),這也是能夠?qū)崿F(xiàn)性能提升的主要原因



基于這個發(fā)現(xiàn),研究者設(shè)計了Attention Interaction Alignment (AIA) 損失,通過將單任務(wù)模型的跨模態(tài)交互模式作為學習目標,在訓練的過程中顯式地約束統(tǒng)一模型的交互模式。

AIA 效果如何?

研究者在 Emu3 和 Janus-Pro 這兩種完全統(tǒng)一架構(gòu)、輕微模型解耦架構(gòu)上進行了實驗,如下表所示,結(jié)果表明本文的方法能夠在沒有任何其他 trick 的情況下提升這些模型的性能,減小了與更高解耦程度模型的差距。



同時,研究者給出了使用 AIA 損失之后 Emu3 和 Janus-Pro 跨模態(tài)交互模式曲線變化,可以發(fā)現(xiàn)加入了 AIA 損失之后,兩個模型的交互曲線都向單任務(wù)模型的表現(xiàn)靠近了,既證明了 AIA 損失的有效性,同時也說明了模型架構(gòu)解耦不是唯一能夠提高統(tǒng)一模型性能的方式。

當然,研究者也承認在目前情況下完全統(tǒng)一的方法和高解耦程度的模型之間存在很大的差距,但正如 Emu3.5 的出現(xiàn),他們認為這個差距會越來越小。因此,研究者呼吁更多的人拋開表層的框架和數(shù)據(jù)配比,深入研究統(tǒng)一模型的任務(wù)沖突問題,尋找更優(yōu)的解法。

AIA 好訓嗎?

由于 Emu3 只有預(yù)訓練 (PT) 階段是統(tǒng)一訓練的,因此研究者在其 PT 權(quán)重上進行微調(diào),而 Janus-Pro 給的是最終 SFT 微調(diào)后的權(quán)重,研究者在此基礎(chǔ)上進行后訓練。

研究者通過調(diào)整 AIA 損失與 next-token-prediction (NTP) 損失的比重來測試其微調(diào)的敏感度,結(jié)果發(fā)現(xiàn)訓練 Emu3 的時候由于其預(yù)訓練知識比較薄弱,AIA 損失在一個很大的范圍內(nèi)都能達到穩(wěn)定收斂的效果。而在 Janus-Pro 中,由于其本身預(yù)訓練知識很強,AIA 的加入非常容易影響模型訓練,但在合適的比重情況下仍然能夠達到不錯的效果。

AIA 有什么優(yōu)勢?

AIA 損失的加入可以一定程度上減少現(xiàn)在常見的數(shù)據(jù)配比工程問題,本文的方法在生成與理解數(shù)據(jù)配比在 1:1 的情況下能夠達到更好的效果,這說明在一定程度上兩個任務(wù)的訓練不再是沖突的,產(chǎn)生了協(xié)同優(yōu)化的效果。

統(tǒng)一模型訓練的正確道路是什么?

通過結(jié)合現(xiàn)在所有統(tǒng)一模型訓練的問題以及本文的實驗分析,可以發(fā)現(xiàn)不管怎樣解耦模型,其始終會在統(tǒng)一訓練的過程中動態(tài)分配不同任務(wù)在同一層的權(quán)重來緩解沖突,那這是否實際上代表了統(tǒng)一模型的正確行為



另一條統(tǒng)一路徑是移除所有可以用來區(qū)分任務(wù)的線索(即采用統(tǒng)一分詞器、消除任務(wù)相關(guān)特殊 token、使用交錯數(shù)據(jù)數(shù)據(jù)輸入),迫使模型只能從輸入中學習真正的統(tǒng)一空間。雖然這種方法或許可以解決任務(wù)間的負相關(guān)問題,但也會顯著增加訓練難度。

未來展望

AIA 邁出了統(tǒng)一模型訓練原理分析的第一步,研究者希望能夠有更多志同道合的研究者加入這個領(lǐng)域的探索。統(tǒng)一模型現(xiàn)在的理論、架構(gòu)都遠遠沒有達到成熟,需要大家共同進行探索。同時研究者也希望大家能夠更加關(guān)注統(tǒng)一模型真正的意義,不要一味地關(guān)注當前單任務(wù)基準上的性能。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
中圈絕殺!19分驚天逆轉(zhuǎn)!狀元熱門出局!

中圈絕殺!19分驚天逆轉(zhuǎn)!狀元熱門出局!

左右為籃
2026-03-30 12:35:10
金價一夜變天!2026年3月30日最新報價,全國價差竟這么大!

金價一夜變天!2026年3月30日最新報價,全國價差竟這么大!

藍色海邊
2026-03-30 12:00:37
一張70億刀的“NBA門票”,勸退了詹姆斯

一張70億刀的“NBA門票”,勸退了詹姆斯

體育大生意
2026-03-29 10:20:30
這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個又一個“無敵”武器神話

這下不吹了,俄烏兩軍連續(xù)大戰(zhàn),打破一個又一個“無敵”武器神話

策略述
2025-11-12 18:42:46
日本博主印度游因拒絕給錢慘遭潑“牛糞”!住院4天,頓頓被咖喱暴擊,悲提15萬的賬單!

日本博主印度游因拒絕給錢慘遭潑“牛糞”!住院4天,頓頓被咖喱暴擊,悲提15萬的賬單!

東京新青年
2026-03-29 17:35:01
官宣離婚才幾天,姚晨就和曹郁聯(lián)手,給內(nèi)娛所有離異夫妻上了一課

官宣離婚才幾天,姚晨就和曹郁聯(lián)手,給內(nèi)娛所有離異夫妻上了一課

TVB的四小花
2026-03-30 12:01:06
致敬!一批見義勇為勇士事跡公布

致敬!一批見義勇為勇士事跡公布

北青網(wǎng)-北京青年報
2026-03-30 09:18:15
看完《逐玉》,再看《白日提燈》,我想說:沒有對比就沒有傷害!

看完《逐玉》,再看《白日提燈》,我想說:沒有對比就沒有傷害!

梁蜱愛玩車
2026-03-30 11:21:23
打!傾家蕩產(chǎn)也要打!以色列最新民調(diào):75%民眾要求和伊死磕到底

打!傾家蕩產(chǎn)也要打!以色列最新民調(diào):75%民眾要求和伊死磕到底

聞識
2026-03-30 10:56:22
汪涵現(xiàn)身張雪峰葬禮,神情哀傷送別好友!妻子和女兒皆現(xiàn)身告別式

汪涵現(xiàn)身張雪峰葬禮,神情哀傷送別好友!妻子和女兒皆現(xiàn)身告別式

娛樂團長
2026-03-28 18:39:35
女子家門未關(guān)嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應(yīng)事件進展

女子家門未關(guān)嚴,流浪狗尾隨入室咬傷其腿,3天后狗死了,狂犬病毒檢測呈陽性;多方回應(yīng)事件進展

大風新聞
2026-03-29 13:28:09
55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態(tài)是吃了防腐劑吧

55歲雪姨王琳cos冰雪女王炸場上海時裝周,這狀態(tài)是吃了防腐劑吧

觀魚聽雨
2026-03-29 16:26:45
U17世界第一又如何!29歲國乒老將3-1日乒新星:13年的經(jīng)驗?zāi)雺?>
    </a>
        <h3>
      <a href=顏小白的籃球夢
2026-03-30 11:46:49
難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

難怪咸豐帝31歲去世,你看他逃往熱河干了啥?每天都做4件致命事

銘記歷史呀
2026-03-21 17:44:21
80年我提干營長,妹妹懷孕來看望我,可首長見到她卻當場愣住了

80年我提干營長,妹妹懷孕來看望我,可首長見到她卻當場愣住了

紅豆講堂
2025-03-22 10:30:08
四大運營商合并,要提上議程了?

四大運營商合并,要提上議程了?

最通信
2026-03-28 20:27:43
騎士與哈登將達成一份兩年合同,泰森和韋德因傷缺席三連客

騎士與哈登將達成一份兩年合同,泰森和韋德因傷缺席三連客

星Xin辰大海
2026-03-30 11:54:00
單依純演唱會一半歌曲都是翻唱!《李白》侵權(quán),演唱會刪除這首歌

單依純演唱會一半歌曲都是翻唱!《李白》侵權(quán),演唱會刪除這首歌

觀魚聽雨
2026-03-29 22:55:38
車管所正式通知:C1駕照2取消1增加已執(zhí)行,車主抓緊了解

車管所正式通知:C1駕照2取消1增加已執(zhí)行,車主抓緊了解

復(fù)轉(zhuǎn)這些年
2026-03-30 12:26:56
曼市雙雄爭奪英格蘭國腳!23歲身價已過億,紅魔愿提供核心待遇

曼市雙雄爭奪英格蘭國腳!23歲身價已過億,紅魔愿提供核心待遇

體壇鑒春秋
2026-03-30 12:30:50
2026-03-30 13:15:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
12632文章數(shù) 142599關(guān)注度
往期回顧 全部

科技要聞

DeepSeek性能異常問題已解決,服務(wù)恢復(fù)

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

頭條要聞

牛彈琴:伊朗越打越聰明了 一場更猛烈的風暴即將到來

體育要聞

絕殺衛(wèi)冕冠軍后,他單手指天把勝利獻給父親

娛樂要聞

單依純凌晨發(fā)長文道歉!李榮浩再回應(yīng)

財經(jīng)要聞

油價沖擊,有些亞洲貨幣先扛不住了!

汽車要聞

理想i9要來了!外形似小號MEGA 能沖擊高端純電市場?

態(tài)度原創(chuàng)

家居
房產(chǎn)
數(shù)碼
教育
公開課

家居要聞

東方法式美學 現(xiàn)代簡約

房產(chǎn)要聞

32億,三開三罄!誰在硬控海口樓市高端局?

數(shù)碼要聞

AMD Zen6來了!下代EPYC Venice工程樣品曝光:三款測試平臺齊亮相

教育要聞

寵物式育兒,必然養(yǎng)出廢物!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版