![]()
EmoStyle 由深圳大學可視計算研究中心黃惠教授課題組獨立完成,第一作者為楊景媛助理教授,第二作者為研二碩士生柏梓桓。深圳大學可視計算研究中心(VCC)以計算機圖形學、計算機視覺、人機交互、機器學習、具身智能、可視化和可視分析為學科基礎,致力前沿探索與跨學科創新。中心主任黃惠為深圳大學講席教授、計算機學科帶頭人、計算機與軟件學院院長。
![]()
- 論文標題:EmoStyle: Emotion-Driven Image Stylization
- 論文鏈接:https://arxiv.org/abs/2512.05478
- 項目主頁:https://vcc.tech/research/2026/EmoStyle
- 項目代碼:https://github.com/JingyuanYY/EmoStyle
很多時候,我們心里攢滿了表達的愿望,卻因為沒有繪畫功底、缺乏藝術訓練,只能對著相冊里平淡的照片發呆。比如,明明想拍下那個午后的愜意,鏡頭里卻只剩下一片蒼白的過曝;在過年返工的路上,看著窗外灰蒙蒙的天空,心里正泛起一陣陣 “emo”,那一刻你多希望能在畫面里抹上一筆明媚的色彩,去治愈現實的沉悶。
EmoStyle 想做的很簡單:你只需要提供一種 “情感”,剩下的創作,它替你完成。
你不用去學怎么調色,用什么筆觸,也不用糾結什么藝術流派。你只需要告訴它,現在的你想要一點 “明媚”,或者一點 “懷舊”,它就像一個懂你的小畫家,替你點亮腦海里塵封的感受,繪制出一幅幅有溫度、有故事的作品。我們相信,每個人都能夠把生活過得有創意一點,哪怕只是從給照片換個心情開始。
圖像情感風格化(Affective Image Stylization)具有雙重目標:
- 精準且顯著地喚起目標情感
- 保持編輯后圖像與原圖的語義一致性
如下圖所示,AIS 融合了風格遷移和 AIM (Affective Image Manipulation) 的優勢,彌補了它們之間的差距:它能夠在像 AIM 一樣喚起情感的同時,像風格遷移一樣生成風格化的結果。AIS 主要面對兩大關鍵挑戰:(1)訓練數據的缺失:現有的數據集無法提供 “內容 - 情感 - 風格化 “的圖像三元組用于情感風格化任務;(2)建立情感和風格之間的映射:生成在保持內容一致性同時又富有情感表現力的風格變體,絕非易事。
![]()
為解決上述兩大挑戰,本文的主要貢獻如下:
- 提出EmoStyle,一種能夠有效融合情感詞與圖像內容,并實現情感感知的圖像風格化任務的方法;
- 構建首個 AIS 數據集EmoStyleSet,涵蓋 10,041 個三元組,提供高質量且風格豐富的情感風格化基準,推動視覺情感研究。
- 設計Emotion-Content ReasonerStyle Quantizer模塊,融合 EmoStyleSet 的情感知識,有效提升生成模型的情感感知能力,并推廣到文生圖任務領域。
EmoStyleSet 的構建
![]()
鑒于現有數據集的缺失,我們首先利用 UnZipLoRA 將 Artemis 數據集中所涵蓋的藝術圖像解耦進行內容 LoRA 的學習,并結合 ControlNet 生成對應的真實圖像。考慮到藝術圖像內容和風格解耦的復雜性,我們對生成的圖像施行指標測量和人工篩選的過濾過程,以提升數據集的整體質量。
![]()
Emotion-Content Reasoner 的設計
在藝術創作中,風格與內容是緊密交織的,藝術家會自然地調整其風格選擇,使其與主題內容和情感意圖相契合。AIS的一大關鍵挑戰在于如何選擇合適的藝術風格以有效激發目標情感。
為此,我們首先提出了 Emotion-Content Reasoner,旨在根據給定內容圖像和目標情感確定最合適的風格。
通過將情感詞編碼為 one-hot 向量,結合由 SigLIP 編碼的圖像特征,由 transformer 完成跨模態推理,推導出一種情感和內容感知的風格查詢,用于后續的風格選擇。
![]()
Style Quantizer 的設計
在人類視覺認知中,藝術風格往往認為是離散的類別,而非連續的,例如 Impressionism。因此,我們提出 Style Quantizer,將風格特征離散化為獨立的原型,從而實現可解釋且可控的風格學習。
![]()
![]()
在訓練過程中,我們通過風格損失,流匹配損失和對齊損失經過兩階段訓練共同優化網絡:
![]()
![]()
![]()
![]()
其中,風格損失側重于風格相似性,流匹配損失側重于像素相似性,對齊損失側重于情感正確性。
實驗結果
![]()
在對比實驗中,我們從風格遷移,圖像編輯和 AIM 三種不同任務中選擇了對比方法。與其他方法相比,EmoStyle 在情感表達與內容保留之間實現了卓越的平衡,呈現出既美觀又富有情感感染力的風格化效果,使其成為情感驅動的藝術風格化創作的有效框架。
![]()
在消融實驗中,若不使用 Style Quantizer,結果往往更接近真實圖像;Emotion Encoder 和 Emotion-Content Reasoner 對情感感知風格化至關重要,移除它們將導致結果情感感染力減弱。通過整合這些關鍵模塊,EmoStyle 能夠生成情感真實、藝術性強且內容一致的圖像。
![]()
同時,我們觀察到通過擴大 Scale 能增強情感與風格的表達力,卻會損害結構的完整性,由此揭示了情感與內容之間的權衡關系。EmoStyle 有效平衡了這些方面,并且用戶可根據個人偏好調整情感強度并精細調節風格化效果。
![]()
在定量實驗中,我們評估了語義、風格以及情感性三個方面的指標,EmoStyle 在大多數指標上超越了其他對比方法,展現了其在 AIS 任務上的卓越性能。
![]()
我們還對情感風格詞典進行了部分可視化,每種風格詞典都提供多樣且美觀的風格類別,能有效喚起目標情緒。用戶可針對每種情緒進一步選擇特定風格,生成符合其偏好的圖像。
![]()
除了圖像風格化之外,EmoStyle 還能擴展到文本到圖像的生成,能夠根據文本描述創建富有情感表現力的圖像。
總結與展望
列夫?托爾斯泰曾言:
Art is not a handicraft, it is the transmission of feelings.
藝術不止匠心之精,更在于情感之美
近年來,我們課題組先后提出了情感計算領域的 Emo 系列研究工作:
- EmoSet(ICCV 2023):首個具有豐富屬性標注的大規模視覺情感數據集;
- EmoGen(CVPR 2024):首個針對圖像情感內容生成的研究;
- EmoEdit(CVPR 2025):首個聚焦于圖像情感內容編輯的研究;
- EmoStyle(CVPR 2026):首個聚焦于圖像情感風格化的研究。
我們希望通過這一系列探索,為情感計算(Affective Computing)與生成式人工智能(AIGC)的交叉領域貢獻新的思路與方法。未來,我們將持續深耕這一領域,也期待更多志同道合的朋友加入,共同探索「情感」這片藍海!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.