综述:基于GAN的图像翻译模型盘点
作者丨薛潔婷
學校丨北京交通大學碩士生
研究方向丨圖像翻譯
圖像翻譯(Image translation)是將一個物體的圖像表征轉換為該物體的另一種圖像表征,也就是找到一個函數能讓 A 域圖像映射到 B 域內,其可以應用于許多的實際問題上,如風格遷移,屬性遷移,提升圖像分辨率等(如圖 1 所示)。
隨著生成式對抗網絡(GAN)的研究逐漸走向成熟,基于 GAN 的圖像翻譯模型的研究也越來越火熱,如 Pix2Pix, CycleGAN, BicycleGAN, MUNIT, DRIT 等。本文針對近年來基于 GAN 的圖像翻譯模型進行簡短匯總。
▲?圖1. 圖像翻譯應用(來源:BicycleGAN)
有監督的圖像翻譯
最開始接觸圖像翻譯是從 Phillip Isola 等人提出的基于 CGAN 的有監督圖像翻譯模型(Pix2pix)[1]?入手的,在這里也非常推薦想要入坑該方向的“小可愛”以這篇論文為起點。
有監督很好理解就是我們訓練時采用的訓練集是成對圖片,Pix2Pix 模型以 GAN 為基礎采用端到端架構,其中生成器架構中引入跳連接以便能保留圖像潛層結構,其輸入是原域圖像 x,輸出是翻譯后的目標域圖像?G(x),原域圖像和真/偽目標域圖像分別結合后作為鑒別器的輸入,鑒別器輸出分類結果并和生成器產生對抗。
整個模型的架構如圖 2 所示,在具體訓練中采用了重建損失(y,G(x)),對抗損失來引導模型。
▲?圖2. Pix2Pix架構
但是 Pix2Pix 存在的問題是由于在訓練模型時使用原域-目標域一對一映射而導致模型的多樣性很差,隨后 Jun-Yan Zhu 等人提出了 BicycleGAN?[2]?來解決這一問題,BicycleGAN 通過引入潛層編碼,約束輸出和潛層編碼的雙射一致性來提高模型的多樣性,其架構如圖 3 所示。
▲?圖3. BicycleGAN架構
BicycleGAN 結合了 cVAE-GAN 以及 cLR-GAN 來約束輸出和潛層編碼的雙射一致性,其中 cVAE-GAN 在生成器中加入了目標域圖像 B 的潛層編碼信息來輔助圖像翻譯,并通過 KL 損失強迫潛層信息滿足高斯分布從而最終在測試時直接從高斯分布中采樣即可生成多樣的輸出結果。
但該模型存在的問題是 KL 損失難以優化導致最終采樣有困難,cLR-GAN 是在生成器中引入滿足高斯分布的潛層變量來提高模型多樣性,該模型存在的問題是由于生成器中的潛層變量的隨機采樣的,因此生成結果不一定和目標域圖像 B 一致,也就是完全忽略了成對圖像帶來的優勢。因此作者結合了兩個模型來取長補短,最終提高翻譯效果。
無監督的圖像翻譯
有監督的圖像翻譯模型存在的最大問題是現實情況中壓根沒有那么多的成對數據集來幫助訓練,因此最近有越來越多的基于無監督的圖像翻譯模型被提出,其中最為經典的就是 CycleGAN?[3],其設計了循環一致性來代替之前的重建損失從而實現圖像翻譯。
作者定義了兩個生成器 G 和 F,兩個鑒別器 Dx 和 Dy,生成器 G 的目的是將 X 域的圖像轉化為 Y 域,而 F 的目的是將 Y 域的圖像轉化為 X 域,其中鑒別器 Dx 是用于判斷由 F 生成的 X 域圖像是否是 X 域內的真實圖像,Dy 是判斷由 G 生成的 Y 域圖像是否是 Y 域內的真實圖像,模型架構如圖 4 所示。
▲?圖4.?CycleGAN架構
近期的研究提出可以通過加入第三個網絡 Siamese 來代替循環一致性損失,從而降低模型的復雜度以及訓練成本,Siamese 網絡用于學習圖像高級語義特征從而保證翻譯后的圖像與原域圖像相似,有興趣的讀者可以參考 TraVeLGAN?[4]。
另外一類比較經典的圖像翻譯模型就是對全局圖像進行內容和屬性編碼,通過交換其屬性編碼來實現圖像翻譯,其中比較有代表性的模型如 DRIT?[5],MUNIT?[6]。
這里以 DRIT 為例簡單介紹一些這類方法,DRIT 中也是通過建立循環一致性來約束生成器,和 CycleGAN 不同的是 DRIT 利用編碼器將圖像分解為屬性編碼和內容編碼,之后交換原域和目標域的屬性編碼來翻譯圖像,最后將翻譯的結果再經過一次屬性交換來生成原域圖像 (),通過優化??和 x 的 L1 損失來約束生成器,其架構如圖 5 所示。
▲?圖5. DRIT架構
當然除了上述我所總結的幾個模型外,圖像翻譯領域內還有非常多有趣的模型可以深入了解,如 StarGAN?[7],CollaGAN?[8]?等,最近通過引入注意力機制來引導圖像翻譯的模型也越來越多,如 Selection GAN?[9],CSA?[10]?等。總之,圖像翻譯模型及其變種可以解決很多非常有意思的任務,有興趣的讀者可以多多關注該領域,希望今后能有更多有趣的模型被提出。
參考文獻
[1]?Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 11?
[2]?Jun-Yan Zhu, Richard Zhang, Deepak Pathak, Trevor Darrell, Alexei A Efros, Oliver Wang, and Eli Shechtman. Toward?multimodal image-to-image translation. In Advances in Neural Information Processing Systems, 2017. 2
[3]?J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2017. 1, 2, 3, 4, 5, 8?
[4]?Matthew Amodio, Smita Krishnaswamy. TraVeLGAN: Image-to-image Translation by Transformation Vector Learning. In CVPR, 2019.2
[5] Hsin-Ying Lee, Hung-Yu Tseng, Jia-Bin Huang, Maneesh Singh, and Ming-Hsuan Yang. Diverse image-to-image translation via disentangled representations. In ECCV, 2018. 1, 2, 3, 4, 5, 6
[6] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal unsupervised image-to-image translation. In ECCV, 2018. 1, 2, 3, 4, 6, 7, 8?
[7] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo. StarGAN: Unifified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711, 2017.
[8]?Dongwook Lee,?Junyoung Kim, Won-Jin Moon,?Jong Chul Ye. CollaGAN: Collaborative GAN for Missing Image Data Imputation. In CVPR, 2019.4
[9] Hao Tang, Dan Xu. Multi-Channel Attention Selection GAN with Cascaded Semantic Guidance for Cross-View Image Translation.In CVPR, 2019.4
[10]?Hongyu Liu, Bin Jiang,Yi Xiao,Chao Yang. Coherent Semantic Attention for Image Inpainting. In ICCV, 2019.7
點擊以下標題查看更多往期內容:?
GAN做圖像翻譯的一點總結
ICCV 2019 | 基于持續學習的條件圖像生成模型
基于級聯語義引導下的多通道注意力選擇圖像翻譯
ICCV 2019 | 關注邊界的顯著性目標檢測
Github大熱論文 | 基于GAN的新型無監督圖像轉換
Grid R-CNN Plus:基于網格的目標檢測演化
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取更多論文推薦
總結
以上是生活随笔為你收集整理的综述:基于GAN的图像翻译模型盘点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 作者招募 | 听我的,各路炼丹师都来加入
- 下一篇: 2019 IROS—终生机器视觉数据集全