網易首頁 > 網易號 > 正文申請入駐

EmoStyle：情感也能“風格化”？深大VCC帶你見證魔法！

2026-03-19 12:06:47　來源: 機器之心Pro

河北舉報

分享至

EmoStyle 由深圳大學可視計算研究中心黃惠教授課題組獨立完成，第一作者為楊景媛助理教授，第二作者為研二碩士生柏梓桓。深圳大學可視計算研究中心（VCC）以計算機圖形學、計算機視覺、人機交互、機器學習、具身智能、可視化和可視分析為學科基礎，致力前沿探索與跨學科創新。中心主任黃惠為深圳大學講席教授、計算機學科帶頭人、計算機與軟件學院院長。

論文標題：EmoStyle: Emotion-Driven Image Stylization
論文鏈接：https://arxiv.org/abs/2512.05478
項目主頁：https://vcc.tech/research/2026/EmoStyle
項目代碼：https://github.com/JingyuanYY/EmoStyle

很多時候，我們心里攢滿了表達的愿望，卻因為沒有繪畫功底、缺乏藝術訓練，只能對著相冊里平淡的照片發呆。比如，明明想拍下那個午后的愜意，鏡頭里卻只剩下一片蒼白的過曝；在過年返工的路上，看著窗外灰蒙蒙的天空，心里正泛起一陣陣 “emo”，那一刻你多希望能在畫面里抹上一筆明媚的色彩，去治愈現實的沉悶。

EmoStyle 想做的很簡單：你只需要提供一種 “情感”，剩下的創作，它替你完成。

你不用去學怎么調色，用什么筆觸，也不用糾結什么藝術流派。你只需要告訴它，現在的你想要一點 “明媚”，或者一點 “懷舊”，它就像一個懂你的小畫家，替你點亮腦海里塵封的感受，繪制出一幅幅有溫度、有故事的作品。我們相信，每個人都能夠把生活過得有創意一點，哪怕只是從給照片換個心情開始。

圖像情感風格化（Affective Image Stylization）具有雙重目標：

精準且顯著地喚起目標情感
保持編輯后圖像與原圖的語義一致性

如下圖所示，AIS 融合了風格遷移和 AIM (Affective Image Manipulation) 的優勢，彌補了它們之間的差距：它能夠在像 AIM 一樣喚起情感的同時，像風格遷移一樣生成風格化的結果。AIS 主要面對兩大關鍵挑戰：（1）訓練數據的缺失：現有的數據集無法提供 “內容 - 情感 - 風格化 “的圖像三元組用于情感風格化任務；（2）建立情感和風格之間的映射：生成在保持內容一致性同時又富有情感表現力的風格變體，絕非易事。

為解決上述兩大挑戰，本文的主要貢獻如下：

提出EmoStyle，一種能夠有效融合情感詞與圖像內容，并實現情感感知的圖像風格化任務的方法；
構建首個 AIS 數據集EmoStyleSet，涵蓋 10,041 個三元組，提供高質量且風格豐富的情感風格化基準，推動視覺情感研究。
設計Emotion-Content ReasonerStyle Quantizer模塊，融合 EmoStyleSet 的情感知識，有效提升生成模型的情感感知能力，并推廣到文生圖任務領域。

EmoStyleSet 的構建

鑒于現有數據集的缺失，我們首先利用 UnZipLoRA 將 Artemis 數據集中所涵蓋的藝術圖像解耦進行內容 LoRA 的學習，并結合 ControlNet 生成對應的真實圖像。考慮到藝術圖像內容和風格解耦的復雜性，我們對生成的圖像施行指標測量和人工篩選的過濾過程，以提升數據集的整體質量。

Emotion-Content Reasoner 的設計

在藝術創作中，風格與內容是緊密交織的，藝術家會自然地調整其風格選擇，使其與主題內容和情感意圖相契合。AIS的一大關鍵挑戰在于如何選擇合適的藝術風格以有效激發目標情感。

為此，我們首先提出了 Emotion-Content Reasoner，旨在根據給定內容圖像和目標情感確定最合適的風格。

通過將情感詞編碼為 one-hot 向量，結合由 SigLIP 編碼的圖像特征，由 transformer 完成跨模態推理，推導出一種情感和內容感知的風格查詢，用于后續的風格選擇。

Style Quantizer 的設計

在人類視覺認知中，藝術風格往往認為是離散的類別，而非連續的，例如 Impressionism。因此，我們提出 Style Quantizer，將風格特征離散化為獨立的原型，從而實現可解釋且可控的風格學習。

在訓練過程中，我們通過風格損失，流匹配損失和對齊損失經過兩階段訓練共同優化網絡：

其中，風格損失側重于風格相似性，流匹配損失側重于像素相似性，對齊損失側重于情感正確性。

實驗結果

在對比實驗中，我們從風格遷移，圖像編輯和 AIM 三種不同任務中選擇了對比方法。與其他方法相比，EmoStyle 在情感表達與內容保留之間實現了卓越的平衡，呈現出既美觀又富有情感感染力的風格化效果，使其成為情感驅動的藝術風格化創作的有效框架。

在消融實驗中，若不使用 Style Quantizer，結果往往更接近真實圖像；Emotion Encoder 和 Emotion-Content Reasoner 對情感感知風格化至關重要，移除它們將導致結果情感感染力減弱。通過整合這些關鍵模塊，EmoStyle 能夠生成情感真實、藝術性強且內容一致的圖像。

同時，我們觀察到通過擴大 Scale 能增強情感與風格的表達力，卻會損害結構的完整性，由此揭示了情感與內容之間的權衡關系。EmoStyle 有效平衡了這些方面，并且用戶可根據個人偏好調整情感強度并精細調節風格化效果。

在定量實驗中，我們評估了語義、風格以及情感性三個方面的指標，EmoStyle 在大多數指標上超越了其他對比方法，展現了其在 AIS 任務上的卓越性能。

我們還對情感風格詞典進行了部分可視化，每種風格詞典都提供多樣且美觀的風格類別，能有效喚起目標情緒。用戶可針對每種情緒進一步選擇特定風格，生成符合其偏好的圖像。

除了圖像風格化之外，EmoStyle 還能擴展到文本到圖像的生成，能夠根據文本描述創建富有情感表現力的圖像。

總結與展望

列夫?托爾斯泰曾言：

Art is not a handicraft, it is the transmission of feelings.

藝術不止匠心之精，更在于情感之美

近年來，我們課題組先后提出了情感計算領域的 Emo 系列研究工作：

EmoSet（ICCV 2023）：首個具有豐富屬性標注的大規模視覺情感數據集；
EmoGen（CVPR 2024）：首個針對圖像情感內容生成的研究；
EmoEdit（CVPR 2025）：首個聚焦于圖像情感內容編輯的研究；
EmoStyle（CVPR 2026）：首個聚焦于圖像情感風格化的研究。

我們希望通過這一系列探索，為情感計算（Affective Computing）與生成式人工智能（AIGC）的交叉領域貢獻新的思路與方法。未來，我們將持續深耕這一領域，也期待更多志同道合的朋友加入，共同探索「情感」這片藍海！

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.