CVPR 2021 | 澳洲国立大学提出基于模型的图像风格迁移
?作者|侯云鐘
學(xué)校|澳洲國立大學(xué)博士生
研究方向|計算機視覺
本文從另外一個角度解讀,澳洲國立大學(xué)鄭良老師實驗室 CVPR 2021 新工作。一般而言,我們需要同時利用兩張圖片完成圖像的風(fēng)格遷移(style transfer):一張圖片指導(dǎo)內(nèi)容(content);一張圖片指導(dǎo)風(fēng)格(style)。在本文中, 我們探尋如何在僅利用一張圖片作為內(nèi)容指導(dǎo)的情況下,通過訓(xùn)練好的模型作為指導(dǎo),將該圖片遷移至一種未曾見過的風(fēng)格。我們首先展示一些示例結(jié)果,如下圖,在只利用目標(biāo)(target)圖片的情況下,我們可以將其有效遷移至未曾見過的源(source)圖片風(fēng)格。
基于模型的圖像風(fēng)格遷移。在沒有利用源圖片(c)作為圖像風(fēng)格指導(dǎo)的情況下,我們僅利用目標(biāo)圖片(a),即可將其遷移至源域風(fēng)格(b)。
論文標(biāo)題:
Visualizing Adapted Knowledge in Domain Transfer
論文地址:
https://arxiv.org/abs/2104.10602
代碼地址:
https://github.com/hou-yz/DA_visualization
基于圖片的圖像風(fēng)格遷移
不論是風(fēng)格遷移(style transfer)還是圖像變換(image translation)工作,想要在保持圖片內(nèi)容的條件下變換圖像的風(fēng)格,都需要同時利用兩張圖片:一張圖片??指示內(nèi)容;一張圖片??指示風(fēng)格。此外,它們還需要一個特定的評價網(wǎng)絡(luò) d,來推動圖像風(fēng)格的變換。在風(fēng)格遷移中(如 neural style transfer [1]),d 可能是 ImageNet 預(yù)訓(xùn)練 VGG 的特征分布;在圖像變化中(如 cyclegan [2]),d 可能是兩個域分別對應(yīng)的判別器網(wǎng)絡(luò)(discriminator)。
neural style transfer [1] 利用內(nèi)容圖像、風(fēng)格圖像、和基于ImageNet預(yù)訓(xùn)練的VGG的評價網(wǎng)絡(luò)
cyclegan [2] 利用內(nèi)容圖像數(shù)據(jù)集、風(fēng)格圖像數(shù)據(jù)集(兩者互易)、和判別器形式的評價網(wǎng)絡(luò)
對于傳統(tǒng)的風(fēng)格遷移,可以形式化的記為?,其中??為生成圖片,?分別代表風(fēng)格圖像和內(nèi)容圖像,d 代表某一特定評價網(wǎng)絡(luò)。
基于模型的圖像風(fēng)格遷移
在本文中,不同于兩張圖片,我們利用訓(xùn)練好的兩個模型,來指導(dǎo)圖像的風(fēng)格遷移。特別的,我們考慮域遷移(domain adaptation)的任務(wù)情景:給定源域(source domain)和目標(biāo)域(target domain),以及訓(xùn)練好的適用于源域的網(wǎng)絡(luò)??和適用于目標(biāo)域的網(wǎng)絡(luò)?,且默認這兩個網(wǎng)絡(luò)共享分類層 p(域遷移中常見設(shè)置)。
域遷移:可以得到分別適用于源域和目標(biāo)域的兩個神經(jīng)網(wǎng)絡(luò)模型,以此推動圖像風(fēng)格遷移
基于這兩個網(wǎng)絡(luò),我們探尋能否將目標(biāo)域圖像直接遷移至源域風(fēng)格。我們可以進一步給出任務(wù)目標(biāo)的形式化定義?,其中圖片 x 指導(dǎo)生成圖片??的內(nèi)容。對比傳統(tǒng)的圖像風(fēng)格遷移?,基于模型的風(fēng)格遷移存在以下區(qū)別:
1. 不能基于內(nèi)容-風(fēng)格圖像對??訓(xùn)練,而是憑借源域模型??和目標(biāo)域模型??指導(dǎo)圖像風(fēng)格差異;
2. 風(fēng)格遷移的標(biāo)準不依賴于特定的評價網(wǎng)絡(luò) d,而仍是依賴源域模型??和目標(biāo)域模型?。
Source-Free Image Translation 方法
面對基于模型的風(fēng)格遷移目標(biāo)?,我們設(shè)計了一套方法,完成基于模型的圖像風(fēng)格遷移任務(wù)。特別的,我們只利用目標(biāo)域圖片??作為內(nèi)容指導(dǎo)(即作為 x),而完全避免在圖像遷移的過程中利用源域圖片?。由此,我們的方法也得名source-free image translation(SFIT),即不依賴源域數(shù)據(jù)的圖像風(fēng)格遷移。
基于模型的風(fēng)格遷移:不依賴風(fēng)格圖像和評價網(wǎng)絡(luò);而是依賴源域模型、目標(biāo)域模型
SFIT 方法的流程設(shè)計如下。給定(目標(biāo)域)內(nèi)容圖片 x,我們訓(xùn)練一個生成器 來將其遷移至(源域)風(fēng)格,生成圖片 。面對原始的內(nèi)容圖片 x 和生成的風(fēng)格化圖片 ,傳統(tǒng)的基于圖像的風(fēng)格遷移和本文中提出的基于模型的風(fēng)格遷移存在以下區(qū)別:
基于圖片的風(fēng)格遷移(neural style transfer)約束生成圖片 內(nèi)容上接近 (content loss: 評價網(wǎng)絡(luò) d 特征圖之差),風(fēng)格上接近 (style loss: 評價網(wǎng)絡(luò) d 特征圖分布的區(qū)別)
基于模型的風(fēng)格遷移(SFIT)約束這內(nèi)容圖片 x 和生成的風(fēng)格化圖片 在經(jīng)過(預(yù)訓(xùn)練且固定的)目標(biāo)域模型 和源域模型 后,能獲得相似的輸出。我們通過約束最終輸出的相似和特征圖的分布相似,完成對生成圖片內(nèi)容和風(fēng)格上的約束。
損失函數(shù)設(shè)計
知識蒸餾(knowledge distillation):直接約束風(fēng)格化前后圖片在源域和目標(biāo)域模型上輸出相似。
由于這兩個模型描述相同的語義,相似輸出保證內(nèi)容(按照網(wǎng)絡(luò)準確率的概率)不變。?
關(guān)系保持(relationship preserving):歸一化版本的 style loss,約束兩路特征圖輸出在特征分布(Gram 矩陣,即特征圖關(guān)于通道的自相關(guān)矩陣:抵消 HW 維度,剩余通道數(shù) D 維度)上接近。
傳統(tǒng)的style loss約束兩張圖片在同一個評價網(wǎng)絡(luò) d 上特征圖分布相似;
relationship preserving loss約束兩張圖片分別經(jīng)過源域模型 和目標(biāo)域模型 后,得到的特征圖歸一化分布相似。
由于兩個模型適用場景不同,相似輸出分布保證兩張圖片分別適應(yīng)兩種風(fēng)格(原始圖像及兩個域?qū)?yīng)模型固定不變,則生成圖像需適應(yīng)源域風(fēng)格)。
為何約束不同網(wǎng)絡(luò)的特征圖分布可以遷移風(fēng)格?
Demystifying neural style transfer [3] 一文證明,傳統(tǒng) style loss 可以以類似域遷移中 Maximum Mean Discrepancy (MMD) loss 的方式,通過不同圖片在同一網(wǎng)絡(luò)的 Gram 矩陣以及二階統(tǒng)計量,遷移圖像的風(fēng)格。
由于我們假設(shè),源域的網(wǎng)絡(luò) 和一個適用于目標(biāo)域的網(wǎng)絡(luò) 共享分類層 p (域遷移中常見設(shè)置),我們可以認為這兩個網(wǎng)絡(luò)在通道維度上語義是相對對齊的(共享分類層,需要global average pooling之后的特征向量在通道上對齊,才能在兩個不同的域上都獲得較好的結(jié)果)。鑒于此,我們可以認為, 和 這兩個網(wǎng)絡(luò)以一種松散的方式,保持著類似于同一網(wǎng)絡(luò)的特性,即通道維度語義對齊。
但畢竟,兩個網(wǎng)絡(luò)肯定還是存在差別,通道之間的關(guān)系也不可能嚴格維持不變。由此,我們在 relationship preserving loss 中,使用歸一化的 Gram 矩陣而非原始的 Gram 矩陣(如傳 統(tǒng)style loss)。
如下圖,歸一化的?Gram 矩陣能提供更加均勻的約束,而且能免于對某些維度的過度自信(傳統(tǒng) style loss 存在過大 loss 值,在網(wǎng)絡(luò)不嚴格一致的情況下,可能過于自信)。
relationship preserving loss和傳統(tǒng)style loss對應(yīng)的歸一化/原始Gram矩陣差別:歸一化的更加均勻,且避免過強(過度自信)的約束
實驗結(jié)果
實驗結(jié)果表明,僅依賴模型,也可以將目標(biāo)域圖像有效遷移至源域風(fēng)格。
VisDA數(shù)據(jù)集上風(fēng)格遷移更多結(jié)果。左為原始圖片,右為風(fēng)格化圖片。
我們也同時對比了利用不同方式遷移圖像風(fēng)格的效果。如下圖,直接對齊Batch Norm 層中的統(tǒng)計量可以輕微遷移圖像風(fēng)格 (b);傳統(tǒng)的 style loss 有效遷移風(fēng)格,但存在邊緣和前景的過度白化 (c);文章中提出從 relationship preserving loss 則是在保持前景的同時(更加銳利的邊緣、和背景的區(qū)別更明顯),有效遷移的圖像風(fēng)格。?
此外,我們還利用定量實驗驗證了風(fēng)格遷移的結(jié)果是對源域和目標(biāo)域模型知識差異的有效刻畫,且生成的風(fēng)格圖片可進一步幫助微調(diào)域遷移模型。關(guān)于這方面的分析,請見論文原文,或從域遷移任務(wù)可解釋新角度的分析文章:
https://zhuanlan.zhihu.com/p/371101640
參考文獻
[1] Gatys, L. A., Ecker, A. S., & Bethge, M. (2016). Image style transfer using convolutional neural networks. InProceedings of the IEEE conference on computer vision and pattern recognition(pp. 2414-2423).?
[2]. Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. InProceedings of the IEEE international conference on computer vision(pp. 2223-2232).?
[3]. Li, Y., Wang, N., Liu, J., & Hou, X. (2017, August). Demystifying neural style transfer. InProceedings of the 26th International Joint Conference on Artificial Intelligence(pp. 2230-2236).
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標(biāo)準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2021 | 澳洲国立大学提出基于模型的图像风格迁移的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 17.5米大板都落着,超牌车2023年还
- 下一篇: 购车时最重要的是看什么呢?