ICCV 2019开源论文 | 捕捉图像DNA——单幅图像下可实现任意尺度自然变换
作者丨武廣
學校丨合肥工業大學碩士生
研究方向丨圖像生成
圖像翻譯這個領域的應用是相當的多,圖像風格遷移、圖像修復、圖像屬性變換、圖像分割、圖像模態的轉換等都可以統稱為圖像翻譯的任務。本文將介紹一個圖像翻譯中比較新穎和有趣的應用——圖像的重定向,也就是對圖像進行自然的放大和縮小而不影響圖像的整體,這是區別于簡單的圖像拉伸和壓縮的過程,而是通過圖像到圖像轉換的過程來實現的。
本文將介紹的 InGAN 通過捕獲圖像的內部色塊分布,實現了圖像的擴充和拉伸,同時文章也是 ICCV 2019 的 Oral。
論文引入
每個自然圖像都有其獨特的內部統計數據:構成圖像的小塊,這些小塊在圖像中多次出現,從而也可以作為該圖像的特異性的表示 [1]。例如,假設根據一個輸入圖像,希望將其轉換為形狀,大小和縱橫比完全不同的新圖像。但是又要求不能扭曲其內部任何元素,將它們全部保留為其原始大小,形狀,長寬比以及圖像中相同的相對位置。這個過程可以由圖 1 所示:
▲?圖1. 圖像在保留內部元素下的拉伸
當放大圖 1 中的水果攤圖像時,每個水果盒中會添加更多的水果,同時保持每個水果的大小相同。反之亦然,當圖像變小時,水果的數量變小,同時保持其大小和在圖像中的相對位置。此外,請注意,目標圖像不一定是矩形的。如果能夠捕獲并可視化了這種獨特的圖像特定小塊分布,就可以將其映射到不同大小和形狀的新目標圖像(所有目標圖像都具有與輸入圖像相同的內部小塊分布) 。?
如何才能做到這一點?滿足這些標準首先是要求目標圖像中的小塊分布與輸入圖像中多個圖像尺度上的小塊分布相匹配,分布匹配允許合成不同大小和形狀的新目標圖像。雙向相似性[2]是目前實現該轉換最先進的方法,雙向相似性變換將目標圖像限制為僅包含來自輸入圖像的色塊(“視覺一致性”),輸入目標應僅包含來自目標的色塊(“視覺完整性”)。
因此,在目標圖像中不會引入新的偽像,并且也不會丟失任何關鍵信息。InGAN 的設計目的在雙向相似性的基礎上進一步實現:?
不僅要求所有輸入色塊都在輸出中,而且還需要保持這些色塊的頻率相同;?
通過匹配分布而不是單個補丁;
通過已訓練的網絡進行一次前向遍歷可以生成任何大小/形狀/長寬比的目標圖像。?
這里實現分布的匹配就依賴于生成對抗網絡(GAN)來實現了,但是 InGAN 并不是簡單的匹配完整圖像的分布,而是通過對圖像的不同尺度下的分塊分布進行匹配,這也正是文章的題目 InGAN: Capturing and Remapping the “DNA” of a Natural Image 的核心,實現這種內部分塊分布的學習,可以進一步地理解和應用在超分辨率圖像、修復從圖像中刪除的補丁、從圖像中合成紋理等。
總結一下 InGAN 的優勢:
InGAN 為各種不同的任務和不同的數據類型提供統一的框架,所有這些都具有一個單一的網絡體系結構;
InGAN 可以產生大小,形狀和縱橫比明顯不同的輸出,包括非矩形輸出圖像;
InGAN 是第一個在單個自然圖像上訓練 GAN(訓練過程中只是對一張圖像進行訓練和學習)。
InGAN框架
InGAN 是如何訓練一張圖像達到圖像重定向的呢?我們先從整體架構上去理解,圖 2 展示了 InGAN 的框架:
▲?圖2. InGAN整體框架我們先宏觀地分析一下 InGAN 模型,整體結構就是簡單的由生成器和判別器構成,生成器的輸入就是輸入圖像 x 和目標尺度 T,得到的輸出就是目標尺寸下的圖像 y。為了緩解 GAN 生成多樣性不足的問題,這里引入了類似于“循環一致”的思想,就是將由 x 得到的 y 再次送入到生成器還原為原尺度圖像 x′,理想情況下 x 與 x′ 應該完全一致。
但是這個過程和 CycleGAN[3]等"循環一致"是有本質區別的,CycleGAN 中的生成器和判別器是有兩路的,也就是由 A→B 和 B→A 兩路,然而 InGAN 中是只有一路的,因為 InGAN 的目的是為了學習到圖像的內部塊,并不是對圖像做任何結構和風格的變換。
所以,只是圖像的尺度發生了改變,這里用一個生成器就可以實現,作者也將這種設計稱之為 Encoder-Encoder 結構。在優化階段,判別器 D 是一個多尺度的判別器,它會根據對比不同尺度下的真實圖像和生成圖像的真假,在不同尺度下進行加權得到最后的得分,用于優化對抗損失。
整體架構分析下來可以對整個網絡有了一個大概上的了解,這里涉及到的損失函數也很簡單,一個是生成對抗損失,另一個就是循環一致損失:
這里采用的生成對抗損失來自于 LSGAN [4],循環一致損失就是重構損失:
總的損失可表示為:
設計細節
如果你只是想了解一下 InGAN 的工作原理的話,上面一節已經大致上解釋了,這一部分將對網絡的具體設計細節進行討論。
靈活的生成器
生成器的具體設計如圖 3 所示:
▲?圖3. InGAN中生成器的詳細結構
整個生成器由三部分組成,用于上下采樣和圖像特征提取的卷積層、用于圖像尺度變換的幾何變換層、用于加深圖像特征提取的殘差層三部分組成。
在圖像輸入階段經過 kernel 為 7 的卷積進行 channel 的加深,并得到圖像的特征表示 map,接著送入到幾何變換層,所謂的幾何變換層就是根據目標尺度 T 進行的圖像的尺度上的簡單轉換過程,根據 T 來得到對應于 T 的尺度圖像,在訓練階段這個 T 是由 random_size 函數隨機產生的,詳細的可以參看作者公布的源碼。
接著就是三層下采樣,kernel 的大小都是 3,尺度都是 0.5,然后在 6 層殘差層下加深網絡后送到上采樣為 2,最后得到 T 尺度的圖像的彩色輸出。需要強調的是在上下采樣階段,利用了 U-Net 的跳躍連接的思想對特征層進行了前后的聯系進一步提高了圖像轉換中內容和結構的質量,下采樣通過 max pooling 實現,上采樣都過最近鄰方式實現。?
當訓練完成,在訓練階段尺度 T 就可以人為的指定,從而得到需求下圖像的尺度變換。?
多尺度判別器?
判別器采用的全卷積結構設計,整體結構如圖 4 所示:
▲?圖4.?InGAN中判別器的詳細結構提取出判別器一個尺度下結構進行分析,一個標準的網絡由 4 個卷積層組成,一個卷積提取層,接著一個下采樣層,再來一個常規卷積層,最后接上 sigmoid 激活函數下卷積層到 [0,1] 得分輸出。這是一個尺度下的,對于多尺度,則將每一個尺度下的判別得分進行加權,最后得到最終的輸出。
至于這個多尺度是怎么得到的,這里就涉及到源碼下的分析了,作者是通過設計 scale_weight 實現圖像的多尺度的判別,設定的多尺度的上限為 99,也就是在圖像中進行了 99 個尺度的分布匹配。?
實施細節
使用 ADAM 優化器和線性衰減學習率,batch size 設定為 1,對于循環一致損失的超參設定為 0.1,在每次迭代中,T 的參數都是隨機采樣的,從而導致不同的輸出大小,形狀和縱橫比,在 T 的設計上在最初的時候是變化較小的,隨著訓練的進行,允許的變形范圍在整個訓練期間(10k 次迭代)逐漸增大,直到最終覆蓋整個所需范圍。判別器和發生器中的譜歸一化用于除最后一層以外的所有層,Batch Normalization 在大多數 conv 塊中使用,在實際事例中加入范圍內的均價噪聲。
實驗
在圖像的重定向上,InGAN 展示了合理而強大的轉換效果:
▲?圖5.?InGAN與其它模型的圖像重定向結構對比
在紋理合成上也展示了不錯的結果:
▲?圖6.?InGAN與其它模型的圖像紋理合成對比
實驗就一步做了消融實驗,展示了循環一致和多尺度對抗的重要性:▲?圖7.?InGAN消融實驗對比
總結
InGAN 通過對單一圖像的內部色塊分布進行學習和分布匹配,在內部色塊被學習到后可以實現圖像的自然拉伸和重定向(可以產生大小,形狀和縱橫比明顯不同的輸出,包括非矩形輸出圖像)等任務,同時這個框架便可適用于這些任務而不需要再去更改。
但是 InGAN 每次只能訓練一張圖像,這可能有好處也有弊端。好處就是需要的訓練集比較小,至于為什么一張圖像就能訓練網絡,這也歸功于文中隨機變換尺度T的設計。然而每次只能訓練一張圖像,這樣的話當需要處理另一張圖像是還需要重新訓練網絡,這就增加了訓練和時間成本了。能否通過設計普適性的預訓練模型再通過具體的圖像進行微調達到快速處理圖像是可以進一步研究的方向。一旦訓練成本降低,通過 InGAN 去擴充數據集,去處理數據集都是很不錯的方法。
參考文獻
[1] A. Buades, B. Coll, and J.-M. Morel. A non-local algorithm for image denoising. In CVPR, volume 2, pages 60–65, 2005. 1?
[2] D. Simakov, Y. Caspi, E. Shechtman, and M. Irani. Summarizing visual data using bidirectional similarity. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2008. 1, 4, 5, 7?
[3] Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2223-2232.?
[4] X. Mao, Q. Li, H. Xie, R. Y. K. Lau, and Z. Wang. Least squares generative adversarial networks. In Computer Vision (ICCV), IEEE International Conference on, 2017. 4
點擊以下標題查看更多往期內容:?
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
📝?來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
📬 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文 & 源碼
總結
以上是生活随笔為你收集整理的ICCV 2019开源论文 | 捕捉图像DNA——单幅图像下可实现任意尺度自然变换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 交通银行信用卡身份证更新
- 下一篇: 花呗付款商家显示什么