CVPR 2019 | 全新缺失图像数据插补框架—CollaGAN
在同一域下的圖像和數據是符合一個整體流形分布的,一旦域中的數據缺失,能否利用已有的域中數據去還原丟失的數據呢?
Collaborative GAN 提出了一種新的缺失圖像數據插補框架,稱為協同生成對抗網絡 (CollaGAN)。CollaGAN 是在現在已經成熟的單圖像到圖像生成的基礎上,研究多域圖像到圖像的翻譯任務,以便單個生成器和判別器網絡可以使用剩余的干凈數據集成功估計丟失的數據。
作者丨武廣
學校丨合肥工業大學碩士生
研究方向丨圖像生成
論文引入
無論是人眼還是攝像頭都不可能實現單采樣下全視角的視角采集,往往一個物體的描述需要多視角的結合才能得到完整的性質描述。所以一個完整的數據在實現視覺分析起到很重要的作用,例如在從多個視圖相機圖像生成三維體積時,大多數算法都需要預先定義視角集,可是由于采集成本和時間,數據集中的(系統)錯誤等,通常很難獲得完整的輸入數據集。?
估算缺失數據對于物體建模和分析影響很大,有幾種標準方法可以根據整組的建模假設來估算缺失數據,如均值插補,回歸插補,隨機插補等 [1]。然而,這些標準算法對諸如圖像這類高維數據具有限制,因為圖像插補需要知道高維圖像數據流形。圖像到圖像翻譯試圖解決高維圖像的缺失修復,諸如超分辨率、去噪、去模糊、風格遷移、語義分割、深度預測等任務可被視為將圖像從一個域映射到另一個域中的對應圖像。?
圖像翻譯的高質量決定著缺失模態估算的準確性,生成對抗網絡 (GAN) 的提出大大改善了圖像翻譯的實現任務。已經很熟悉的模型有 CycleGAN、DiscoGAN、UNIT,這一類實現了兩個域之間的單圖像到單圖像的轉換。
StarGAN [2] 和 MUNIT [3] 則可以實現單個生成器學習多個域之間的轉換映射,這就是單張圖像轉換到多張圖像。這些基于 GAN 的圖像傳輸技術與圖像數據插補密切相關,因為圖像翻譯可以被認為是通過對圖像流形結構建模來估計丟失圖像數據庫的過程。
然而,圖像插補和圖像轉換之間存在根本差異。例如,CycleGAN 和 StarGAN 有興趣將一個圖像轉移到另一個圖像,但不考慮剩余的域數據集。然而,在圖像插補問題中,丟失的數據不經常發生,并且目標是通過利用其他清潔數據集來估計丟失的數據。?
因此 Collaborative GAN 通過設計一個生成器去使用剩余的有效數據集來估計丟失的數據。由于丟失的數據域不難以估計先驗,因此應該設計插補算法,使得一種算法可以通過利用其余域的數據來估計任何域中的丟失數據。這一過程和之前所提模型的區別可由下圖展示:
上圖 (a) 可以表示單圖到單圖的模型,代表由 CycleGAN;(b) 圖為 StarGAN 轉換圖示,它是由原輸入去轉換成對應標簽的圖像;(c) 則是利用除目標域圖像外的其余圖像一起作用生成目標標簽圖像。總結一下協同生成對抗網絡(CollaGAN)的優點:
可以從共享相同流形結構的多輸入數據集而不是單個輸入中更加協同地學習基礎圖像流形,達到更準確估計丟失數據。
CollaGAN 保留了 StarGAN 類似的單生成器架構,與 CycleGAN 相比,它具有更高的內存效率。
模型實現
首先貼上 CollaGAN 的模型實現框圖:
這個圖咋一看有些抽象,我們待會再詳細分析,先把涉及到的參量做個定義。原文為了便于解釋,假設域中含有 4 類樣本:a、b、c、d。比如,生成器為了生成域a的樣本,則生成器則會參考圖像域 b、c、d,將 b、c、d 協同送入生成器獲得圖像集。其中上標 C 表示補充集,完整表示為:
其中 k∈{a,b,c,d} 表示目標域索引,用于指導生成適當目標域的輸出 κ。由于存在多個輸入和單輸出組合的 N 個組合,在訓練期間隨機選擇這些組合,以便生成器學習到多個目標域的各種映射。
我們來分析一下如何實現 CollaGAN,類似于 StarGAN,判別器的作用有兩個,一個是實現對生成圖像判斷真假,另一個是實現域分類作用,確定圖像是來自哪一個域。判別器的分類和判斷只在最后一層分出,其余網絡部分均共享參數,模型框圖的最左側就是預訓練判別器的分類參數。
通過固定網絡的其余部分只對判別器實現圖像域分類做優化,這一實現可以通過僅送入真實域圖像下利用交叉熵損失實現:
其中可以解釋為將實際輸入 xk 正確分類為類 κ 的概率。?
訓練好判別器的分類就可以對模型的正式部分進行訓練,對于生成器 G(圖中的中間部分)輸入的是要生成目標域的類別標簽 Target Domain,和其余域類的協同輸入 Input Image,經過生成器得到目標域圖像 Fake Image,為了實現循環一致的思想,用生成的 Target Image 作為協同輸入的一部分去生成其余的域圖像。
對于 a、b、c、d 的 4 類輸入下,假設目標域是 a,這個循環思想的思想就要再重構其余 3 類:
優化循環一致損失為:
這里的 ‖?‖ 表示的是 L1 損失,這個循環一致的推廣到各類域可進一步表示為:
此時:
模型框圖的最右側就是訓練中判別器的,判別器在訓練階段除了分清圖片的真假還有就是通過分類器去優化生成器網絡。我們解釋下怎么通過分類去優化生成器,通過訓練發生器 G 以產生由 Dclsf 正確分類的假樣本。因此,對于 G,在優化生成域分類當最小化損失:
至于生成對抗損失,文章采用的是較為穩定的 LSGAN:
域標簽的嵌入采用經典的 one-hot 形式。
這里提一下如何實現生成器輸入端的協同輸入,這個的實現在文章中是根據不同的數據集采取的方式是不同的,對于面部表情數據集 RaFD 下八個面部表情,對生成器重新設計有八個編碼器分支,并且在生成器的中間階段的編碼處理之后將它們連接起來。生成器的架構是包含編碼解碼過程的,整體采用 U-Net 實現,判別器采用 PatchGAN 的設計思路。
實驗
文章主要在三個數據集下進行實驗測試,MR contrast synthesis 數據集是通過多動態多回波序列和來自 10 個受試者的附加 T2 FLAIR(流體衰減反轉恢復)序列掃描總共 280 個軸腦圖像。
在數據集中有四種類型的 MR 對比圖像:T1-FLAIR (T1F),T2-weighted(T2w),T2-FLAIR (T2F) 和 T2-FLAIR (T2F)。前三個對比度是從磁共振圖像編譯(MAGiC,GE Healthcare)獲得的,T2-FLAIR * 是通過第三對比度(T2F)的不同MR掃描參數的附加掃描獲得的。MR contrast synthesis 數據集也是作者進行本次研究的目的性數據集。
CMU Multi-PIE 數據集使用了 Carnegie Mellon Univesity 多姿態照明和表情面部數據庫的子集,250 名參與者,并且在以下五種照明條件下選擇中性表情的正面:-90°(右), - 45°,0°(前),45° 和 90°(左),并將圖像裁剪為 240×240,其中面部居中。
對于此數據集的實驗上,使用 YCbCr 顏色編碼代替 RGB 顏色編碼。YCbCr 編碼由 Y 亮度和 CbCr 色空間組成。在五種不同的照明圖像,它們幾乎共享 CbCr 編碼,唯一的區別是 Y-亮度通道。因此,處理唯一的 Y 亮度通道用于照明轉換任務,然后重建的圖像轉換為 RGB 編碼圖像。
Radboud Faces 數據集(RaFD)包含從 67 名參與者收集的八種不同的面部表情;中立,憤怒,輕蔑,厭惡,恐懼,快樂,悲傷和驚訝(這個數據集在 StarGAN 中也被使用)。此外,有三個不同的凝視方向,總共 1,608 個圖像,并將圖像裁剪為 640×640 并將 resize 為 128×128。?
在 MR 的數據集上,實驗對比了 CycleGAN、StarGAN 和 CollaGAN:
從醫學分析上 T2-weighted 圖像中的腦脊液(CSF)應該是明亮的,上圖中的第二行結果,這個在 CollaGAN 上效果最佳,在 StarGAN 和 CycleGAN 上則是暗淡的,在另外兩個數據集下的定性測試上,CollaGAN 也展示優勢:?
文章還對不同域下的圖像彌補缺失輸入下進行了測試,得到的結果依舊是正向的:
在定量分析上,作者采用重建和目標之間計算歸一化均方誤差(NMSE)和結構相似性指數(SSIM)來衡量,文章還花了一定篇幅介紹了 SSIM 的度量計算公式(感興趣的可以自行閱讀原文)。在定量上對比 CycleGAN 和 StarGAN 得到了優異的效果。
總結
CollaGAN 通過在單個發生器和判別器的幫助下協同組合來自可用數據的信息,提出了一種新穎的 CollaGAN 架構,用于丟失圖像數據插補。與現有方法相比,所提出的方法產生了更高視覺質量的圖像。
CollaGAN 的創新在于生成器的多輸入下生成域中缺失信息,這個想法是以往模型中沒有的,同時利用多域下的有效信息去恢復缺失信息也很符合人類的思考方式。
參考文獻
[1]?A. N. Baraldi and C. K. Enders. An introduction to modern missing data analyses. Journal of school psychology,48(1):5–37, 2010.?
[2] Y. Choi, M. Choi, M. Kim, J.-W. Ha, S. Kim, and J. Choo.StarGAN: Unified generative adversarial networks for multi-domain image-to-image translation. arXiv preprint, 1711,2017.?
[3] Huang X, Liu M, Belongie S J, et al. Multimodal Unsupervised Image-to-Image Translation[J]. european conference on computer vision, 2018: 179-196.
點擊以下標題查看更多往期內容:?
最新Anchor-Free目標檢測模型—FoveaBox
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
天秤座R-CNN:全面平衡的目標檢測器
萬字綜述之生成對抗網絡(GAN)
從DCGAN到SELF-MOD:GAN模型架構發展一覽
小米拍照黑科技:基于NAS的圖像超分辨率算法
PFLD:簡單高效的實用人臉關鍵點檢測算法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的CVPR 2019 | 全新缺失图像数据插补框架—CollaGAN的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 全球最大的AI创意梦工厂!2019中国高
- 下一篇: 清华大学人工智能研究院成立基础理论研究中