337p人体粉嫩胞高清图片,97人妻精品一区二区三区在线 ,日本少妇自慰免费完整版,99精品国产福久久久久久,久久精品国产亚洲av热一区,国产aaaaaa一级毛片,国产99久久九九精品无码,久久精品国产亚洲AV成人公司
網易首頁 > 網易號 > 正文 申請入駐

ICLR 2026 | ESC — 解構一步生成,厘清細節,探尋本質

0
分享至





  • 論文標題:On the Design of One-step Diffusion via Shortcutting Flow Paths
  • 論文地址: https://openreview.net/forum?id=k6q8rRYVQR
  • 代碼開源: https://github.com/EDAPINENUT/ExplicitShortCut/
  • 項目主頁: https://edapinenut.github.io/explicitshortcut-project-page/

前言

近期,基于捷徑化概率流路徑(shortcut probability flow trajectory)并從頭訓練的一步擴散生成模型,展現出強大的實證有效性。然而,這類方法的提出通常建立在較為復雜的理論推導之上,并且往往與具體實現細節高度耦合。這帶來一個直接的問題:究竟哪些設計是方法成立的本質要素,哪些又只是可以靈活替換的實現組件。

對于研究人員,這種復雜性進一步體現在多個層面:一方面是深奧的理論背景,繁復的方法形式推導、對應的學習目標設計,另一方面,是應用實現上的技術細節,包括時間采樣器、課程學習方法等。面對這些內容,研究人員往往很難迅速抓住不同方法之間真正共享的核心思想,也因此缺少一種足夠直觀的設計范式,來理解這類一步生成模型到底 “為什么這樣設計”。

為了解決這個問題,西湖大學研究人員首先從一個更實用的角度出發,嘗試為這類 shortcut 模型提出一個統一的設計框架。其指出,無論是離散時間還是連續時間的一步生成方法,其背后都遵循著同一個基本原則:用單步參數化預測去逼近一個兩步擴散構建的目標。在此基礎上,該工作進一步給出了這一設計范式成立的一般性理論說明。這樣的統一視角,使得原本耦合在一起的生成方法模塊能夠被拆解開來,以供研究人員更清晰地理解各個組件之間是如何協同作用的,以及在整體方法設計中究竟還保留了多少可調整的自由度。

得益于這一框架,本文對當前具有代表性的離散時間與連續時間一步擴散生成方法進行更細粒度的組件級分析,包括路徑選擇時間采樣器等關鍵模塊。通過這一分析,本文進一步定位了影響訓練 — 推理穩定性以及逼近誤差的一個關鍵來源:損失函數設計中,學習目標里的速度場監督帶來的方差。基于這一發現,本文對現有的一步擴散生成方法進行了改進,并提出了 ESC(ExplicitShortCut) 變體。該方法在訓練穩定性和生成質量上都取得了進一步提升。在 ImageNet 256×256 上,基于 SiT-XL/2 架構,ESC 在 1-NFE 設置下達到 FID50k 2.53,超越了此前所有從頭訓練的捷徑擴散模型。

如何從頭訓練一個一步擴散模型?



圖 1 離散時間與連續時間的一步擴散模型在理想學習與實際學習中的物理圖景 (a) 展示了從 N (0,1) 到高斯混合分布的邊緣速度場。(b)(c) 對應理想學習情形,此時 xr 采樣自 PF-ODE 的同一條軌跡,因此構造的學習目標可作為正確監督信號;(d)(e) 則展示實際學習情形,此時目標偏離原始軌跡,從而導致模型預測也相應發生漂移。







表 1 代表性的一步生成模型中,具體的組件選擇



如何選擇設計組件?



圖 2 不同一步生成模型在訓練過程中 FID50k 的比較:(a) 表示在 CIFAR-10 上的無條件生成(Uncond.);(b) 表示在 CIFAR-10 上的類別條件生成(Cond.);(c) 表示在 ImageNet-256×256 上的 classifier-free guidance(CFG)訓練。

Q1: 路徑選擇:線性 vs 余弦?

一般而言,線性路徑擴散如 Rectified Flow、DiT 等工作在理論上更加簡潔,實踐上更方便以使用各種訓練和采樣技巧,而余弦路徑擴散如 EDM 等工作往往被認為像素空間生成中通常因固定方差的隨機過程而被視為更穩定。

本文在此探尋路徑選擇對模型的影響。根據圖 2 (a),(b) 中 sCT (-Cosine) 以及 sCT-Linear 的實驗結果表明,在線性路徑與余弦路徑的對比中,線性路徑在一步生成的設定下通常更有競爭力。一種合理的解釋是:線性路徑作為條件路徑時,對應的邊緣速度場具有更低的凸運輸代價,因此軌跡彎曲程度更小。這意味著,由兩步采樣映射構造出來的監督目標更接近理想情形,從而讓 “一步去逼近兩步” 這件事本身更容易成立。換句話說,在一步生成的問題設定里,線性路徑并不只是實現更方便,而是更符合這一類模型的近似需求。

Q2: 損失類型:離散 vs 連續?

前面討論過,當 s→t 的時候,損失函數就會將一步擴散推至連續時間模型。本文在此探尋連續與離散模型的優劣勢。在相同訓練設置和統一代碼實現下,根據圖 2 (a), (b), (c) 中的 MeanFlow、sCT 這樣的連續時間上的一步擴散模型與 CT、SCD、IMM 等離散時間方法的對比,可以得到連續時間一步擴散模型整體上明顯優于離散時間變體

進一步,本文給出了推理誤差分析,其核心結論是:對于線性路徑,連續時間方法的誤差上界相比離散時間方法少了一項與局部 Lipschitz 常數、時間步長以及監督方差耦合的額外誤差項;而這項額外項很可能會直接放大訓練不穩定性和一步推理誤差。也就是說,連續時間方法更強,并不只是因為 “參數化更平滑”,而是因為它在目標逼近誤差的結構上更占優。這也解釋了為什么同樣是一步生成擴散,基于連續時間的模型往往表現得更穩、更準。

Q3: 時間采樣:固定終點時間 vs 隨機化



換句話說,固定終止時間更像是在優化 “早期易學性”,而隨機化終止時間則是在優化 “最終生成與表達能力”。

如何改進現有難題?

基于上述理論和實證分析,我們采用連續時間線性路徑基線(MeanFlow with SiT-B/2),并通過三個方向進行改進:

1. 即插即用的理想速度(Plug-in velocity)

第一個改進方向是用 plug-in velocity 替代直接使用單樣本對應的條件速度作為監督信號。其動機來自前面的誤差分析:在訓練時,真正難以處理的不是目標形式本身,而是引入條件速度而帶來的高方差。本文指出,如果能夠使用基于整個經驗分布構造的 “理想速度”,那么速度項的方差可以顯著下降;但這需要對整個訓練集求和,在大規模數據集上幾乎不可行。為此,作者采用在一個 mini-batch 上的 plug-in velocity,將一個批次內多個樣本的條件速度以不同加權的形式組合起來,從而在僅引入較小偏差的代價下,將監督方差從依賴單樣本的水平降到與批次大小相關的更低水平。這種替換直接帶來更穩定的訓練監督和更低的一步推理誤差,是對核心瓶頸的直接修正。

2. 漸進時間采樣器(Gradual time sampler)

第二個改進方向是設計一個漸進式時間采樣器,讓訓練從更容易的目標開始,再平滑過渡到完整的 MeanFlow 式時間采樣。這個設計直接回應了前面對 “固定終止時間還是隨機化” 的分析:固定 r=0 的監督更像去噪任務,早期更容易優化,而覆蓋完整區間的隨機時間采樣雖然更難,卻更有助于模型學習全局 “捷徑模式”。基于這一點,本文采用了一個 漸進式課程策略:在訓練初期,以較高概率采樣 r=0,讓模型先獲得更穩定、更直接的監督;隨著訓練推進,再逐步衰減這一概率,最終完全過渡到 MeanFlow 的采樣方式。這樣做的好處是同時兼顧了前期收斂速度后期全局建模能力,本質上是在易學性與最終性能之間建立了一條更平滑的訓練路徑。

3. 優化技巧 (Other techniques)

第三個方向則是吸收已有連續時間一步擴散方法中已經驗證有效的訓練技巧,并將其系統整合到新的框架中。包括一些已經在原始工作中驗證過的優化手段,例如 variational adaptive loss weighting,進一步提升優化過程的穩定性、緩解訓練早期的脆弱性,并改善不同監督項之間的平衡。此外,在 classifier-free guidance 的訓練場景下,本文額外引入類別一致的批次處理技術(class-consistent mini-batching):通過同類采樣避免 mini-batch 平均過程過度稀釋類別信號,以達到大規模訓練中真正 “跑得穩、訓得動、效果好” 的工程化方案。

綜合上述提出的技術,本文在SiT-B/2的網絡架構上,進行了實驗消融,說明幾種改進的結合可以穩定地提升模型的生成能力。



大規模實驗評估結果

我們在 ImageNet-256x256 的潛空間中使用 SiT-XL/2(約 676M 參數)評估 ESC。遵循 MeanFlow 在分類器自由引導下的訓練協議,ESC 從頭訓練 240 個 epoch(約 120 萬次迭代),ESC+ 延長至 480 個 epoch(約 240 萬次迭代)。

在 ImageNet-256x256 的 1-NFE 設置下,ESC 將 FID 從 3.43 提升至 2.85,ESC+ 進一步提升至 2.53。這一結果不僅大幅超越了此前所有從頭訓練的捷徑模型,甚至超過了 MeanFlow 的兩步結果(2-NFE,FID50k 2.93)。

此外,我們還可以從中觀察到:

1)類別一致的批次處理可以提高收斂速度。

2)即插即用的理想速度幾乎不增加計算開銷 (千分之九),同時提高穩定性。

3) 性能提升在更大的骨干網絡上更明顯,表明降低方差對于模型穩定性的提升,隨著模型容量增長,效果越來越明顯





ESC 在 ImageNet-256x256 上展現出卓越的一步生成能力(SiT-XL/2 架構),且能夠生成高質量、多樣化的圖像。(FID:2.85)

ExplicitShortCut (ESC)通過統一的設計空間分析,系統性地理解了一步擴散模型的關鍵設計選擇。通過改進目標構建和降低監督方差,ESC 在 ImageNet-256x256 上實現了 FID 2.53 的 SOTA 一步生成性能,也為之后設計高效的一步擴散生成提供了關鍵見解。

然而,目前的從頭訓練的一步生成模型仍然面臨著極大的挑戰,比如在連續情形下 jvp 函數的使用以及其導致的顯存開銷、對 CFG 的依賴導致設計不夠靈活、超參數空間龐大等,即便如此,一步生成的擴散模型仍然是未來的研究熱門,正如何凱明在 CVPR 上的演講所說:

“生成模型正處在一個類似「AlexNet 之前」的階段:從多步推理,走向端到端的一步生成。” 一步擴散不是終點,它是下一個 AIGC 時代的開始。

作者及團隊簡介

本文第一作者為林海濤,來自西湖大學,共同一作為胡佩炎,來自中科院數學所。其研究方向關注生成模型,一步擴散與蒸餾,離散擴散模型等,以第一作者在 ICML、ICLR、NeurIPS 等人工智能頂級會議或期刊上發表論文超過十篇;本文的通訊作者為西湖大學李子青、吳泰霖,以及深勢科技柯國霖。李子青實驗室關注人工智能及生命科學交叉領域。吳泰霖實驗室關注生成式 AI(包括擴散模型、多智能體等)及其在聚變、水下具身智能、虛擬細胞領域的應用,長期招募希望在以上領域做出有影響力工作的同學(博士生、博后、助理研究員、實習生)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
黃金“九連跌”!已抹去今年以來全部漲幅,周大福暫緩漲價,搶購者說心在滴血:已虧了10萬元

黃金“九連跌”!已抹去今年以來全部漲幅,周大福暫緩漲價,搶購者說心在滴血:已虧了10萬元

大風新聞
2026-03-24 07:41:54
14點00分!國足VS世界杯魚腩隊,CCTV5直播,邵佳一公布第一隊長

14點00分!國足VS世界杯魚腩隊,CCTV5直播,邵佳一公布第一隊長

何老師呀
2026-03-24 14:06:05
伊朗最高領袖顧問重申結束戰爭條件

伊朗最高領袖顧問重申結束戰爭條件

界面新聞
2026-03-24 15:44:17
伊朗突發!剛剛,直線猛拉

伊朗突發!剛剛,直線猛拉

中國基金報
2026-03-24 11:07:34
穆迪復出重傷!勇士加時送獨行俠正式無緣季后賽 弗拉格32+9

穆迪復出重傷!勇士加時送獨行俠正式無緣季后賽 弗拉格32+9

醉臥浮生
2026-03-24 12:43:30
李在明倒戈了?中國支援韓國一船能源,韓國對美投資耍心眼

李在明倒戈了?中國支援韓國一船能源,韓國對美投資耍心眼

梁訊
2026-03-24 11:14:52
市監局的“間歇性失明”:不曝光,麻醉魚、毒草莓就不存在?

市監局的“間歇性失明”:不曝光,麻醉魚、毒草莓就不存在?

爆角追蹤
2026-03-24 10:17:26
國際油價23日大跌逾10%

國際油價23日大跌逾10%

證券時報
2026-03-24 07:22:02
從熱鬧到門道,豪華MPV市場為什么還是極氪009最穩?

從熱鬧到門道,豪華MPV市場為什么還是極氪009最穩?

AutoBusiness
2026-03-24 15:48:31
老了才明白:最傻的父母攥著大把存款和退休金,卻等著給娃當遺產

老了才明白:最傻的父母攥著大把存款和退休金,卻等著給娃當遺產

小影的娛樂
2026-03-24 13:34:24
特朗普接班人已經明朗?美國或出現歷史上首個,被中國制裁的總統

特朗普接班人已經明朗?美國或出現歷史上首個,被中國制裁的總統

軍機Talk
2026-03-24 15:51:14
樓上打工樓下透析續命!廣州一制衣工廠超半數工人是尿毒癥患者,老板:我做的是一件小事

樓上打工樓下透析續命!廣州一制衣工廠超半數工人是尿毒癥患者,老板:我做的是一件小事

上觀新聞
2026-03-24 07:29:07
拔出蘿卜帶出泥!釋永信“開光”內幕曝光,這4位女星被流言害慘

拔出蘿卜帶出泥!釋永信“開光”內幕曝光,這4位女星被流言害慘

潮鹿逐夢
2026-03-24 12:44:49
外媒:伊朗已通過調解人收到美國信息

外媒:伊朗已通過調解人收到美國信息

參考消息
2026-03-24 13:25:06
周杰倫《太陽之子》詞曲拉胯MV平庸,歌迷:完全記不住旋律

周杰倫《太陽之子》詞曲拉胯MV平庸,歌迷:完全記不住旋律

光影新天地
2026-03-24 14:41:27
18歲男大學生患“桃花癲”,一周揮霍5萬元,半夜頻繁打電話騷擾同學,幻想神秘力量助自己進行偉大發明,經電休克 “重啟” 大腦治療后好轉

18歲男大學生患“桃花癲”,一周揮霍5萬元,半夜頻繁打電話騷擾同學,幻想神秘力量助自己進行偉大發明,經電休克 “重啟” 大腦治療后好轉

觀威海
2026-03-24 10:43:03
這個猥褻案令人發指,為何判決卻是如此之輕?

這個猥褻案令人發指,為何判決卻是如此之輕?

呦呦鹿鳴
2026-03-23 21:13:44
只拍上半身卻被“強制”穿長裙?蘇州一孕婦在海馬體換裝后摔倒致宮腔積液

只拍上半身卻被“強制”穿長裙?蘇州一孕婦在海馬體換裝后摔倒致宮腔積液

揚子晚報
2026-03-23 22:32:59
快船最多領先46分大勝雄鹿 小卡28+5連續48場20+創紀錄

快船最多領先46分大勝雄鹿 小卡28+5連續48場20+創紀錄

醉臥浮生
2026-03-24 12:49:13
破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

破防!小縣城殯儀館大屏流出,中年人扎堆離世,網友:還爭什么?

川渝視覺
2026-03-23 19:26:44
2026-03-24 17:16:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12583文章數 142592關注度
往期回顧 全部

科技要聞

黃仁勛看透中國AI圈 人情世故卷出最快創新

頭條要聞

地鐵吐血女孩最新發聲:目前仍在搶救室

頭條要聞

地鐵吐血女孩最新發聲:目前仍在搶救室

體育要聞

NBA最強左手射手,是個右撇子

娛樂要聞

林峰張馨月全家浙江游 岳母幫忙帶女兒

財經要聞

很多人,都被黃金嚇怕了!

汽車要聞

尚界Z7雙車預售22.98萬起 問界M6預售26.98萬起

態度原創

游戲
家居
教育
手機
時尚

荷爾蒙氣息拉滿!3D大神做出《GTA6》主角逼真模型

家居要聞

智慧生活 奢享家居

教育要聞

坐標湖南高考小語種好學嗎?第六時限26屆高考成績給你答案!

手機要聞

古爾曼:蘋果將推iPhone史上最大規模革新,折疊屏iPhone與20周年紀念版兩年內亮相

她們都在穿的賽車夾克有什么魔力?

無障礙瀏覽 進入關懷版