中科院、港中文等提出HiFi-Inpaint：重塑Inpainting生成范式！

2026-03-23 12:02:18　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

HiFi-Inpaint 的整體框架，包含了數(shù)據(jù)集構(gòu)建流程、高頻特征提取、SEA 模塊以及 DAL 損失。采用固定的高頻權(quán)重（Fixed）往往會導(dǎo)致特征沖突，在重繪區(qū)域產(chǎn)生明顯的視覺偽影；而 SEA 模塊巧妙地引入了可學(xué)習(xí)的權(quán)重因子（Learnable），使高頻細(xì)節(jié)的注入更加平滑、自適應(yīng)，最終生成的 “人 + 商品” 圖像在光影與結(jié)構(gòu)上更加和諧真實(shí)。傳統(tǒng)的 Canny 邊緣檢測會無差別地提取所有輪廓，引入大量無用的背景雜亂信息（如紅框所示）；而 HiFi-Inpaint 采用的特定頻域?yàn)V波方法（Ours）能夠精準(zhǔn)高亮商品上的關(guān)鍵文字、Logo 與精細(xì)紋理（如藍(lán)框所示），從而為 DAL 損失提供最純凈、最精確的像素級監(jiān)督信號。左側(cè)直方圖展示了極為廣泛的 Mask 面積占比分布，這意味著模型在訓(xùn)練后能自適應(yīng)從 “小掛件” 到 “大物件” 的各種生成比例；右側(cè)詞云圖則凸顯了極其豐富的商品類別，為模型學(xué)習(xí)真實(shí)世界中千變?nèi)f化的產(chǎn)品材質(zhì)、形狀和物理結(jié)構(gòu)打下了極其堅(jiān)實(shí)的數(shù)據(jù)基石。與 ACE++、Insert Anything 和 FLUX-Kontext 相比，HiFi-Inpaint 能夠完美還原瓶身上的微小文字、Logo 和瓶蓋紋理，拒絕 “AI 幻覺”。HiFi-Inpaint 在多項(xiàng)自動評估指標(biāo)上取得最佳性能（上：合成測試數(shù)據(jù)，下：真實(shí)測試數(shù)據(jù)）。圖注：無論是戶外無人物理環(huán)境、大姿態(tài)全身視角、復(fù)雜商品遮擋，還是大幅度的風(fēng)格遷移（如漫畫風(fēng)），HiFi-Inpaint 都能游刃有余。

在 AIGC 領(lǐng)域，基于參考圖像的圖像修復(fù)（Reference-based Inpainting）一直是一項(xiàng)備受關(guān)注的核心任務(wù)，它旨在利用參考圖像引導(dǎo)修復(fù)過程，生成視覺一致的內(nèi)容。這一技術(shù)在廣告營銷和電商領(lǐng)域有著巨大的應(yīng)用潛力，例如讓 AI 自動生成 “真人手持或穿戴商品” 的展示圖。然而，真實(shí)世界的商業(yè)應(yīng)用對高保真度有著極其苛刻的要求。現(xiàn)有的模型在處理這類高標(biāo)準(zhǔn)任務(wù)時(shí)常常 “翻車”，尤其是在精細(xì)細(xì)節(jié)的保留上顯得力不從心：品牌 Logo 扭曲、包裝文字亂碼、產(chǎn)品紋理丟失等問題，成為了阻礙技術(shù)落地的最大痛點(diǎn)。

為了攻克這一難題，來自中國科學(xué)院大學(xué)、香港中文大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)聯(lián)合提出了HiFi-Inpaint模型。該工作深入探索了參考圖像修復(fù)的本質(zhì)，通過創(chuàng)新性地引入高頻特征引導(dǎo)機(jī)制，實(shí)現(xiàn)了令人驚嘆的高保真細(xì)節(jié)還原。目前，該項(xiàng)工作已被計(jì)算機(jī)視覺頂級會議CVPR 2026接收。

論文標(biāo)題：HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images
論文鏈接： https://arxiv.org/abs/2603.02210
項(xiàng)目主頁： https://correr-zhou.github.io/HiFi-Inpaint

行業(yè)痛點(diǎn)：為什么商品細(xì)節(jié)這么難搞？

雖然當(dāng)前的擴(kuò)散模型（Diffusion Models）在圖像生成上取得了革命性進(jìn)展，甚至能通過圖像定制或文本驅(qū)動編輯來生成內(nèi)容，但在處理高度定制化的 “人 + 商品” 圖像時(shí)，依然力不從心。

現(xiàn)有的“基于參考圖像的圖像修復(fù)（Reference-based Inpainting）”方法提供了一個(gè)解決思路，但在實(shí)際應(yīng)用中仍面臨三大阻礙：

1.細(xì)節(jié)易丟失：擴(kuò)散模型的去噪過程傾向于將內(nèi)容 “平均化” 或產(chǎn)生幻覺，導(dǎo)致紋理、形狀和品牌元素（如文字）的嚴(yán)重不一致。

2.監(jiān)督信號粗糙：傳統(tǒng)的隱空間（Latent Space）MSE 損失無法提供精確到像素級別的指導(dǎo)，難以約束高頻細(xì)節(jié)。

3.缺乏高質(zhì)量數(shù)據(jù)：大規(guī)模、多樣化且精準(zhǔn)對齊的 “人 + 商品” 開源訓(xùn)練數(shù)據(jù)極度匱乏。

核心洞察與解決方案：HiFi-Inpaint

為了解決上述問題，研究團(tuán)隊(duì)提出了HiFi-Inpaint。它的核心 Insight 在于：既然隱空間容易丟失高頻信息，那就顯式地將 “高頻特征” 提取出來，直接注入到網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)中！

HiFi-Inpaint 能夠?qū)⑸唐穮⒖紙D無縫融合到帶 Mask 的人物圖像中，同時(shí)保持極高保真度的細(xì)節(jié)還原。

HiFi-Inpaint 基于 FLUX.1-Dev 架構(gòu)進(jìn)行了深度改造，其三大核心創(chuàng)新點(diǎn)如下：

1. 結(jié)構(gòu)創(chuàng)新：共享增強(qiáng)注意力（Shared Enhancement Attention, SEA）

為了在重繪區(qū)域精準(zhǔn)保留商品特征，研究團(tuán)隊(duì)設(shè)計(jì)了共享增強(qiáng)注意力模塊。它利用共享的雙流視覺 DiT 塊來細(xì)化 Mask 區(qū)域內(nèi)的視覺 Token。具體而言，模型在另一個(gè)分支中將商品圖像的 Token 替換為對應(yīng)的高頻圖 Token，通過學(xué)習(xí)一個(gè)權(quán)重因子，將高頻特征注入回主干網(wǎng)絡(luò)：

這種設(shè)計(jì)既增強(qiáng)了模型捕獲復(fù)雜商品特征的能力，又因?yàn)閰?shù)共享機(jī)制，保持了模型的緊湊性（每個(gè)模塊僅引入了一個(gè)額外參數(shù)）。

2. 訓(xùn)練策略：細(xì)節(jié)感知損失（Detail-Aware Loss, DAL）

僅僅在模型結(jié)構(gòu)上發(fā)力還不夠。為了彌補(bǔ)隱空間監(jiān)督的不足，研究團(tuán)隊(duì)引入了細(xì)節(jié)感知損失函數(shù)。這是一種利用高頻像素級監(jiān)督的損失函數(shù)：

它專門針對 Mask 區(qū)域內(nèi)的高頻成分（如文字邊緣、圖案紋理）進(jìn)行約束，有效指導(dǎo)了那些難以僅通過潛在級別監(jiān)督恢復(fù)的細(xì)粒度細(xì)節(jié)的重建。

3. 數(shù)據(jù)破局：構(gòu)建 HP-Image-40K 數(shù)據(jù)集

為了打破數(shù)據(jù)瓶頸，團(tuán)隊(duì)提出了一套自動化的 “自合成與過濾” 流水線，構(gòu)建了包含 4 萬多張高質(zhì)量樣本的數(shù)據(jù)集HP-Image-40K。流程包括：使用 FLUX.1-Dev 生成雙聯(lián)圖（左側(cè)商品，右側(cè)人 + 商品）-> 邊緣檢測分割 ->YOLOv8 與 CLIP 進(jìn)行語義一致性過濾 -> InternVL 進(jìn)行文本重合度（Textual Filtering）過濾。這保證了訓(xùn)練數(shù)據(jù)中商品文字和形態(tài)的高度一致性。

驚艷的效果對比

有了高頻特征引導(dǎo)和高質(zhì)量數(shù)據(jù)的加持，HiFi-Inpaint 在定量和定性評估上都展現(xiàn)出了統(tǒng)治力。

在自動評估指標(biāo)中，HiFi-Inpaint 在文本對齊（CLIP-T）、視覺一致性（CLIP-I 達(dá)到 0.950，DINO 達(dá)到 0.919）和結(jié)構(gòu)相似度（SSIM-HF 達(dá)到 0.429）上均取得了 SOTA（State-of-the-Art）的表現(xiàn) 。

此外，即使在更為復(fù)雜、未見過的真實(shí)世界數(shù)據(jù)集（包含復(fù)雜光照、遮擋、室內(nèi)外場景）上，HiFi-Inpaint 依然表現(xiàn)出了強(qiáng)大的泛化能力和魯棒性，能夠自然地將目標(biāo)商品融入場景并保留關(guān)鍵視覺屬性。

總結(jié)與思考 (Takeaways)

HiFi-Inpaint 的出現(xiàn)，為電商海報(bào)生成、商品虛擬試用等商業(yè)落地場景掃清了一大障礙。它的成功給我們帶來了兩個(gè)核心啟發(fā)：

1.高頻信號不可忽視：在生成模型全面走向高保真度要求的今天，單純依賴網(wǎng)絡(luò) “自己領(lǐng)悟” 隱空間特征在某些任務(wù)中是不夠的。顯式地引入傳統(tǒng)圖像處理中的先驗(yàn)（如通過傅里葉變換提取高頻圖），能為模型提供極其精準(zhǔn)的 “錨點(diǎn)”。

2.Data-Centric AI 依然奏效：利用大模型進(jìn)行自動化數(shù)據(jù)合成與多重嚴(yán)格過濾，并進(jìn)行自蒸餾學(xué)習(xí)，是突破領(lǐng)域數(shù)據(jù)匱乏的高效途徑。

目前該工作已被頂級計(jì)算機(jī)視覺會議 CVPR 2026 接收。期待未來能在更多商業(yè)和視頻生成場景中看到它的身影。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.