CVPR 2020 Oral | 无域标签下高清场景时移变换
?PaperWeekly 原創 ·?作者|武廣
學校|合肥工業大學碩士生
研究方向|圖像生成
同一個場景在不同時間段存在著一定的變化,這主要取決于光照對圖像的成像的影響,如何通過一個時間段的場景圖像在無域標簽的情況下合成出不同時間段下的高分辨率場景圖像是本文要介紹的 CVPR 2020 oral 中?High-Resolution Daytime Translation Without Domain Labels (HiDT)?所做的工作。
論文標題:High-Resolution Daytime Translation Without Domain Labels
論文來源:CVPR 2020
論文鏈接:https://arxiv.org/abs/2003.08791
代碼鏈接:https://github.com/saic-mdal/HiDT
論文引入
大部分使用 Mac 系統的用戶默認動態壁紙是位于洛杉磯卡特琳娜島的一天場景變化,對應著清晨、日出、正午、傍晚、入夜、凌晨的時移變化,固定機位間隔拍攝可以作為取景,然而這將花費一天時間。如何利用一張高分辨率圖像達到時移自然場景的合成,是 HiDT 要實現的任務,文章稱之為 Daytime Translation,圖 1 展示了任務效果。
▲?圖1.HiDT在自然場景時移變換的結果圖
自然場景的時移變換其實就是圖像翻譯的一類應用,早期的圖像翻譯在訓練以及推理時都需要域標簽,而 MUNIT [1] 和 FUNIT [2] 提出了目標域的幾幅圖像作為翻譯指導,同時期的 StarGAN v2 [3] 更是提出了在一個生成器中根據不同的 style code 實現多域轉換,這些或多或少都要有域標簽的參與。
在時移場景變換下,域對應于一天中的不同時間和不同的照明,這個域標簽定義起來是繁瑣的,如何在無域標簽的情況下實現高分辨率時移場景的合成是一個大的挑戰。
然而大部分圖像翻譯任務在處理的圖像上的尺寸多為中等尺寸,即?居多,如何實現高分辨率下()的圖像翻譯仍是一個值得研究的問題,同時自然場景時移變換更是面臨著不能完全依賴圖像色彩空間的全局仿射變換,不能依賴時間戳和高分辨率下如何消去偽影等問題。
HiDT 通過對高分辨率源域圖像進行分步轉換,最后通過融合實現高分辨率圖像合成,在處理圖像偽影和細節上,文章將跳躍連接(Skip connections)和 AdaIN 進行結合,總結一下 HiDT 相比較已有的圖像翻譯方法的優勢。
在僅有語義分割圖的弱標簽下實現了多域圖像轉換
在圖像細節轉換上通過跳躍連接和 AdaIN 結合實現高質量轉換
通過拆分轉換和融合達到高分辨圖像轉換
網絡架構和優化
HiDT 的架構是建立在跳躍連接和 AdaIN 結合的基礎上,采用 UNet 和 AdaIN 架構起網絡的編碼和解碼器的主體,這個結構如圖 2 所示。
▲ 圖2.HiDT編碼和解碼器網絡
由架構圖可以看到對于輸入?,通過下采樣進行編碼得到對應的圖像內容編碼?,解碼端(生成器)將內容編碼?,風格編碼?與不同下采樣進行跳躍連接再配合 AdaIN 嵌入進行上采樣生成對應的目標域圖像。
決定轉換后圖像風格(可以理解為自然場景的不同時刻和光照)的是由風格編碼?決定。而風格編碼?在訓練階段是由目標域圖像編碼得到,在測試階段則是通過在先驗分布下采樣得到,這部分我們待會再詳細討論。
HiDT 的整體架構倒是很直觀,詳細的網絡結構只能通過代碼去進一步查看,作者放出了項目地址,但是代碼還在更新中。不過值得說的是 HiDT 對于模型的優化過程介紹的很好,這也算是圖像翻譯中比較詳細和先進的模型優化方式。
▲ 圖3.HiDT網絡優化過程
在介紹之前,先來梳理一下圖 3 中的符號,表示源域輸入圖像,表示內容編碼器相對應的?為內容編碼,表示風格編碼器相對應的為風格編碼,為生成器,為目標域風格編碼,為風格編碼的先驗分布,為在風格編碼的先驗分布下隨機采樣的風格編碼。
生成器?不光光輸出的是轉換后的圖像,同時也輸出相對應的風格掩碼圖?。
從上到下分析,隨機風格采樣?與內容編碼?生成?,此時?的風格取決于隨機風格?,掩碼?則是受內容?的影響,對?繼續進行內容和風格編碼得到?,將?饋送到生成器?得到重構的?,為什么說是重構呢?
因為此時輸入的風格是?自身的風格編碼;中間一路就是對?進行編碼后再重構得到?;最下面一路則是先根據源域內容編碼?與目標域風格編碼?生成得到目標域圖像和分割掩碼?,再由?編碼得到的內容編碼?與風格編碼?得到最原始源域圖像?,由于?給出的損失為?,這里推測風格編碼?就是源域圖像的風格表示,此處在原文中并沒有做詳細交代,等作者公布代碼可以做進一步驗證。
上述分析,總結起來就是模型在優化階段由三種模式,一是隨機風格的轉換和重構,二是原始圖像的重構,三是目標域圖像轉換和循環一致的轉換。
最后就是如何對模型進行損失優化,正由圖 3 中所展示的,重構損失?,風格掩碼損失?,內容編碼損失?,風格編碼損失?,風格編碼下趨緊先驗分布的損失?以及循環一致損失?,由此衍生的?也是一樣的含義,圖 3 中省略了對抗損失?,對抗損失主要是對轉換后的?和?進行優化。
重構損失為?損失,即?,類似的有?,循環一致損失也是采用?損失?。對于分割掩碼損失則是采取交叉熵損失:
則有:
由于風格編碼的維度較低,此時可以通過均值和方差拉向正態分布,達到風格編碼向先驗分布靠近:
對于內容編碼損失?和風格編碼損失?,則是通過?損失一致性優化,即:
總的損失可變式為:
其中?為超參數,HiDT 的模型優化算是對圖像翻譯下的損失進行了一個系統的介紹。
增強處理
由于內存和計算時間的限制,在高分辨率圖像上進行圖像翻譯是不可行的。文章進行了一個增強處理,整個過程如圖 4 所示。
▲?圖4.HiDT增強處理下拆分和融合方案
雖然內存和時間的限制可以通過在中等分辨率訓練,并以完全卷積的方式應用于高分辨率圖像;或者可以使用引導過濾 [4] 對中等分辨率的處理結果進行升采樣。
但是,經過實驗文章發現完全卷積的應用可能會由于感受野有限而導致場景崩塌,在夕陽下可能會出現多個太陽,或者在水反射下可能會混淆天空和水面之間的邊界。
另一方面,引導過濾在水或陽光下能較好地實現轉換,但如果通過樣式轉換更改細小細節,則引導過濾將失敗,在高對比度邊界附近產生光暈偽影。
為此,作者提出了圖 4 所示的增強處理拆分和融合方案,對原始的高分辨率圖像?分為不同的移位版本,根據保留移位位置像素,對于中間的像素用 0 去替代,得到移位的高分辨率圖像?,對移位后的圖像進行雙線性下采樣得到中等分辨率圖像?,文中的移位版本設置為 16,對這 16 個中等分辨率圖像進行圖像翻譯,即:
再由這 16 個中等分辨率圖像經過融合網絡?融合得到高分辨率圖像輸出,圖 4 則是大致的演示過程。
實驗
對于對比的基線選擇,文章選擇了 FUNIT [2] 和 DRIT [5],在定性對比上,得到的結果如圖 5 所示,從左到右對應的是原始圖像、FUNIT-T、FUNIT-O、HiDT。
▲?圖5.HiDT定性結果對比
定量上也展示了優越的結果。
▲?圖6.HiDT定量結果對比
對于自然場景圖像時移變換下,通過隨機采樣?的設置,可以實現多域的生成,圖 7 展示了時移圖像的轉換結果。
▲?圖7.HiDT自然場景時移結果
由于模型的設計,HiDT 可根據指導圖像進行指導轉換,圖 8 為展示結果。
▲ 圖8.HiDT指導圖像進行轉換
在消融實驗上,當去掉分割掩碼損失,轉換結果上大幅度下降。
▲?圖9.HiDT去掉分割掩碼損失后的結果
在高分辨率上的拆分和融合上展示了一定的結果。
▲?圖10.HiDT高分辨率圖像下的結果
總結
HiDT 作為圖像翻譯模型,在訓練和推理過程中均不依賴域標簽,通過增強方案解決了圖像翻譯下高分辨率圖像的轉換。模型主要用于自然場景時移圖像的合成,在定性和定量結果上展示了優越的結果。
整體而言,HiDT 與 MUNIT 存在著一定的相似性,但是網絡結構中通過 U-Net 和 AdaIN 的結合實現了更好的翻譯結果,同時在高分辨率轉換上也取得了一定的成效,這歸功于 HiDT 的拆分和融合思想,同時自然場景時移變換在很多場合下有著積極的意義。
參考文獻
[1] Xun Huang, Ming-Yu Liu, Serge Belongie, and Jan Kautz. Multimodal Unsupervised Image-to-Image Translation. In Vittorio Ferrari, Martial Hebert, Cristian Sminchisescu, and Yair Weiss, editors, Computer Vision – ECCV 2018, pages 179–196, Cham, 2018. Springer International Publishing. 1, 2, 6
[2] Ming-Yu Liu, Xun Huang, Arun Mallya, Tero Karras, Timo Aila, Jaakko Lehtinen, and Jan Kautz. Few-shot unsupervised image-to-image translation. In The IEEE International Conference on Computer Vision (ICCV), October 2019. 1, 2, 3, 6
[3] Choi Y, Uh Y, Yoo J, et al. StarGAN v2: Diverse Image Synthesis for Multiple Domains[J]. arXiv preprint arXiv:1912.01865, 2019.
[4] K. He, J. Sun, and X. Tang. Guided Image Filtering. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(6):1397–1409, June 2013. 2, 4
[5] Hsin-Ying Lee, Hung-Yu Tseng, Qi Mao, Jia-Bin Huang, Yu-Ding Lu, Maneesh Singh, and Ming-Hsuan Yang. DRIT++: diverse image-to-image translation via disentangled representations. CoRR, abs/1905.01270, 2019. 1, 2, 6
點擊以下標題查看更多往期內容:?
多目標跟蹤(MOT)領域近期值得讀的幾篇論文
時間交錯網絡:ICCV19多標簽視頻理解冠軍方案
CVPR 2020 | 港中文提出3D目標檢測新框架DSGN
基于深度學習的多目標跟蹤:端到端的數據關聯
從近年CVPR看域自適應立體匹配
大規模計算時代:深度生成模型何去何從
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的CVPR 2020 Oral | 无域标签下高清场景时移变换的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基金涨跌谁说了算 关注基金持仓非常重要
- 下一篇: iQOO 13 手机采用单层主板、全新散