风格迁移应用_图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务...
機器之心報道
編輯:魔王
圖像風格遷移?語音情感遷移?不,是圖像情感遷移。
計算機視覺領域中有很多任務,如目標檢測、圖像轉(zhuǎn)換、風格遷移等,但你聽說過「圖像情感遷移」嗎?
羅切斯特大學羅杰波教授團隊提出了這項研究任務 [1]。與其他計算機視覺任務相比,圖像情感遷移更有挑戰(zhàn)性,需要對圖像中的每個物體進行不同的情感遷移。該研究提出一種靈活有效的物體級圖像情感遷移框架和新模型 SentiGAN,實驗證明該框架可以有效執(zhí)行物體級圖像情感遷移。
什么是圖像情感遷移?
圖像情感遷移是一個待探索的新型研究任務。與圖像轉(zhuǎn)換、圖像風格遷移和面部表情遷移任務相比,圖像情感遷移關注更高級更抽象的對圖像整體外觀和感覺的修改,而不改變其場景內(nèi)容。如圖 1a 所示,將渾濁的海水變得清澈并給海鳥著色后,原本傳遞中性或消極情感的圖像變得積極溫暖,而圖像中的內(nèi)容并未被更改。
與圖像轉(zhuǎn)換和圖像風格遷移相比,該研究認為圖像情感遷移更具挑戰(zhàn)性。其中一個難點在于對不同類別的物體進行情感遷移時需要使用不同的規(guī)則。這有別于風格遷移,后者可以將一種繪畫風格統(tǒng)一添加給圖像中的所有物體。如圖 1 所示,要讓輸入圖像具備積極情感,應把海水遷移成清澈的藍色,海鳥遷移成彩色的。這兩種操作不是基于同一張參考圖像,否則就會像圖 1b 和 1c 那樣不真實。
解決方案
為了解決這一挑戰(zhàn),該研究提出了一種有效框架,可以在物體級別執(zhí)行圖像情感遷移。整個過程可分為兩步:
1. 給定一張輸入圖像,該框架利用圖像描述生成模型和語義分割模型檢測所有物體,找出其像素級掩碼。結(jié)合使用兩個模型的目的是,維護高質(zhì)量的物體掩碼,同時大幅擴大物體集的范圍。
2. 對于輸入圖像中每一個檢測出的物體,使用包含同樣物體的參考圖像進行情感遷移。該設計成功地解決了前述問題,并使框架保持強大的靈活性,例如用戶可以給輸入圖像中的每一個物體賦予不同的情感。此外,它還可以使用戶無需提供參考圖像,直接輸入想要賦予每一個檢測出物體的情感詞匯即可執(zhí)行情感遷移(如對鳥輸入「colorful」、對天空輸入「sunny」、對山輸入「magnificent」)。有了物體和情感詞匯,系統(tǒng)就可以自動檢索對應的參考圖像,并執(zhí)行情感遷移。
該框架的整體性能由第二步?jīng)Q定,即目標級情感遷移。這里可以直接應用風格遷移模型,但是情感遷移任務需要遷移后的圖像看起來自然,不需要局部模式(如紋理)的顯式遷移,而這正是風格遷移模型的固有元素。因此,研究人員轉(zhuǎn)而利用多模態(tài)圖像轉(zhuǎn)換模型,如 MUNIT 和 DRIT。它們可以分離內(nèi)容和風格信息,為輸入圖像保存更多基于內(nèi)容的元素。只需要對這些雙領域映射模型做簡單的修改,就可以使其適用于情感遷移任務,而這并不會明顯限制輸入和遷移圖像的域。
但是,使用以上模型仍然存在缺陷。首先,MUNIT 和 DRIT 最初是為圖像級變換任務設計的,它們在細粒度物體級遷移任務上表現(xiàn)不好。第二個問題與情感遷移的本質(zhì)有關。相比于輪廓、紋理和繪畫風格,圖像情感更敏感,往往與基于顏色的元素有關,如對比度、飽和度、亮度和主色。
理想情況下,我們希望模型能夠?qū)⑤斎雸D像的這些元素完全遷移為參考圖像。現(xiàn)有的多模態(tài)模型通常將視覺表示分解為內(nèi)容碼和風格碼。遷移即通過自適應實例歸一化 (AdaIN),將參考圖像 / 物體的風格碼注入輸入圖像 / 物體的內(nèi)容碼。但是,如下圖 2 所示,具備不同內(nèi)容碼的物體即使使用相同的風格碼,得到的整體色彩分布仍然大不相同。這表明,現(xiàn)有模型無法充分將色彩信息和內(nèi)容碼分離開,因而導致不完全的顏色遷移。
為解決以上缺陷,該研究提出了一種新方法 Sentiment-aware GAN (SentiGAN)。對于第一種缺陷,該研究創(chuàng)建了對應的物體級損失函數(shù),與圖像級損失一起訓練模型。對于第二種缺陷,其解決方案基于以下觀察:額外遷移內(nèi)容碼全局信息可以更好地遷移輸入物體的顏色信息。同時,研究人員還通過維護空間信息來阻止其他內(nèi)容信息(如紋理)的改變。為此,他們使用有效的約束,使遷移物體的內(nèi)容碼與參考物體的內(nèi)容碼全局接近,但與輸入物體的內(nèi)容碼局部接近。這些約束通過訓練過程中的內(nèi)容分離損失和推斷過程中的內(nèi)容對齊步驟來實現(xiàn)。該研究表明這兩種方法具備互補性,能夠顯著提高情感遷移的性能。
該研究提出的圖像風格遷移框架如下圖 3 所示:
框架原理如下:
給定輸入圖像,首先執(zhí)行物體掩碼提取來提取物體和對應的掩碼;然后使用圖像描述生成和圖像語義分割來獲取所有物體和高質(zhì)量掩碼;最后,使用 SentiGAN 逐個物體地執(zhí)行情感遷移。
核心組件 SentiGAN 的架構(gòu)如下圖所示:
實驗
研究人員創(chuàng)建了三個任務來評估圖像情感遷移模型的性能。這三個任務均基于 50 張選自測試集的輸入圖像,這些圖像具備精確的物體掩碼和相對中性或模糊的情感信息(方便向積極或消極情感方向遷移)。
任務 1:粗粒度情感遷移
第一個任務旨在衡量模型在執(zhí)行圖像粗粒度情感遷移時的性能。研究人員訓練一個圖像情感二分類模型來用于預測提取測試集中的典型積極圖像和典型消極圖像。對于每一張輸入圖像,不同的情感遷移模型可從十組采樣的積極參考圖像和十組采樣的消極參考圖像中,對輸入圖像進行情感遷移。圖像情感分類模型對于各個情感遷移模型得到的遷移圖形評估結(jié)果參見下表 1:
從表 1 中可以看出,SentiGAN 獲得了最高的平均真正率和真負率。這表明,SentiGAN 可以有效執(zhí)行圖像粗粒度情感遷移。
此外,研究人員還請五位志愿者從 SentiGAN 輸出的 500 張遷移圖像對(積極圖像和消極圖像)中選擇積極圖像。如表 2 所示,選擇正確的概率為 72.4%,這表明情感遷移效果可以被用戶觀察到。圖 5 展示了 SentiGAN 輸出的情感遷移示例。
任務 2:驗證物體級情感遷移的效果
第二個任務是驗證物體級情感遷移的效果。
研究人員令 SentiGAN 執(zhí)行三種遷移策略——物體 級遷移、全局遷移、非對應物體的物體級遷移,并生成 50 組遷移圖像。令五位志愿者在每組中選擇最真實的圖像,每人負責 50 組。如表 3 所示,對于大多數(shù)組,志愿者認為目標級情感遷移生成的圖像最真實,這與圖 7 示例表現(xiàn)一致。
任務 3:遷移圖像與參考圖像間的情感一致性
第三個任務是評估遷移圖像和參考圖像之間的情感一致性(sentiment consistency)。研究者對每個輸入圖像收集了不同模型預測的遷移圖像,并請五位志愿者從中選擇出一或多個與參考圖像最具情感一致性的遷移圖像。
如下表 4 所示,SentiGAN 獲得了最高的選中率,而且大幅領先,這表明它在遷移參考圖像的情感中實現(xiàn)了最優(yōu)性能。示例參見圖 6。
羅杰波教授團隊還提出了一種基于全局的圖像情感遷移方法 [2],感興趣的讀者可查看原論文。
參考文獻
[1] Image Sentiment Transfer
Authors: Tianlang Chen, Wei Xiong, Haitian Zheng, Jiebo Luo. 2020 ACM Multimedia Conference. arXiv: 2006.11337.
[2] Global Image Sentiment Transfer
Authors: Jie An, Tianlang Chen, Songyang Zhang, Jiebo Luo. 2020 International Conference on Pattern Recognition. arXiv:2006.11989.
總結(jié)
以上是生活随笔為你收集整理的风格迁移应用_图像也能做情感迁移?罗切斯特大学团队提出计算机视觉新任务...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 魔兽世界冰DK怎么玩 冰DK大型玩法攻略
- 下一篇: 操作系统的并行性与并发性