裤子换裙子,就问你GAN的这波操作秀不秀
全世界只有3.14 %?的人關注了
數據與算法之美
把照片里的綿羊換成長頸鹿、牛仔長褲換成短裙。聽起來有點不可思議,但韓國科學技術院和浦項科技大學的研究人員目前已實現了這一騷操作。
他們開發的一種機器學習算法可在多個圖像數據集上實現這種操作。其論文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。
長褲變短裙
圖像到圖像的轉換系統——即學會把輸入圖像映射到輸出圖像的系統——并非什么新鮮事。去年 12 月,Google AI 研究人員開發了一種模型,該模型通過預測對象的大小、遮擋、姿勢、形狀等,可以逼真地將其插入照片中的合理位置。但正如 InstaGAN 的創建者在論文中所說的一樣,即使當前最先進的方法仍是不夠完美的。
本文要介紹的這項新研究基于 CycleGAN 實現了實例級別的圖像轉換。
圖源:Context-Aware Synthesis and Placement of Object Instances
克服了 pix2pix 在圖像轉換中必須一一配對的限制,給定兩個無序圖像集 X 和 Y,CycleGAN 可以自動對它們進行互相「翻譯」。
但它無法編碼圖像中的實例信息,因此在涉及目標類別特征的圖像轉換時,效果不太理想。
「由于其近期基于生成對抗網絡取得的進步令人印象深刻,無監督的圖像到圖像轉換已受到大量關注。然而,以前的方法在面對具有挑戰性的任務時常常失敗,尤其是當圖像具有多個目標實例并且任務涉及形狀的大幅變化時。」研究人員表示。
他們的解決方案是 InstaGAN 系統,該系統結合了多個任務目標的實例信息。InstaGAN 會生成圖像的實例分割掩碼(屬于同一實例的像素組),它會結合目標的邊界并同時忽略顏色等細節。
新奇的是,InstaGAN 轉換了一幅圖像和一組相應的實例屬性,并同時力求保留背景語境。當與一種創新的技術(該技術允許其在傳統硬件上處理大量實例屬性)結合時,它可以推廣到具有許多實例的圖像。如下圖所示,把兩個人的牛仔褲換成裙子,把四只綿羊換成長頸鹿都不是問題。
「據我們所知,在我們之前,還沒有人實現過圖像到圖像轉換中的多實例轉換任務。和以前在簡單設置中的結果不同,我們的重點是和諧,讓實例與背景自然地渲染。」
研究人員為 InstaGAN 系統提供了來自不同數據集(包括 multi-human parsing(MHP)數據集、MS COCO 數據集和 clothing co-parsing(CCP)數據集)的兩類圖像。與圖像到圖像轉換的公認基線 CycleGAN 相比,InstaGAN 能夠更成功地在保留原始語境的同時生成目標實例的「合理形狀」。
「在不同數據集上的實驗成功實現了圖像至圖像轉換中的挑戰性任務——多實例轉換,包括把時尚圖像中的牛仔褲換成短裙等新任務。探索新任務和新信息將是未來有趣的研究方向。」研究人員寫道。
這篇論文已被 ICLR2019 接收為 Poster 論文,獲得了 7、8、7 的高分,其中一位評審在評審意見中寫道:
本文作者對多圖像實例進行非成對的跨域轉換,他們提出了一種方法——InstaGAN。該方法基于 CycleGAN,考慮了以每個實例分割掩碼形式存在的實例信息。
本文文筆較好,容易理解。該方法很新穎,解決了一類之前方法無法解決的信息問題。該模型及訓練目標每個部分的動機在該問題的語境中都得到了清晰的解釋。結果看起來相當不錯,明顯優于 CycleGAN 和其它基線。
論文:INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION
論文鏈接:https://arxiv.org/pdf/1812.10889.pdf
項目地址:https://github.com/sangwoomo/instagan
ICLR 鏈接:https://openreview.net/forum?id=ryxwJhC9YX
摘要:由于生成對抗網絡的快速發展,無監督圖像到圖像的轉換吸引了大量研究者的目光。然而,之前的方法通常不適用于較難的任務,尤其是在圖像擁有多個目標實例或轉換任務涉及極具挑戰性的形狀問題時,如將時尚圖片中的褲子轉換成短裙。
為了解決這一問題,本文提出了一種新的方法——instance-aware GAN(InstaGAN),這種 GAN 結合了實例信息(如目標分割掩碼),提高了多實例轉換的能力。在保持實例置換不變性的同時,該 GAN 對圖像和相應的實例屬性集進行轉換。為此,研究人員引入了一個語境保留損失函數,鼓勵網絡學習目標實例之外的恒等函數。
此外,他們還提出了一種序列 mini-batch 推理/訓練技術,這種技術借助有限的 GPU 內存處理多個實例,增強了該網絡在多實例任務中的泛化能力。對比評估證明了該方法在不同圖像數據集上的有效性,尤其是在上述具有挑戰性的情況下。
圖 1:先前方法(CycleGAN, Zhu et al. (2017))的轉換結果 vs InstaGAN。后者在多實例轉換問題中得到的結果更好。
在谷歌搜索圖片上的結果(褲子→短裙)
在 YouTube 視頻上的結果(褲子→短裙)
研究者還在 GitHub 給出了兩個預訓練模型,感興趣的讀者可以下載試試。點擊以下鏈接下載預訓練模型(褲子→短裙及/或綿羊→長頸鹿):
地址:https://drive.google.com/drive/folders/10TfnuqZ4tIVAQP23cgHxJQKuVeJusu85
圖 2:(a)InstaGAN 架構概覽,其中的生成器 G_XY、G_YX 和判別器 D_X、D_Y 分別遵循(b)和(c)中的架構。每個網絡都同時編碼一幅圖像及相應的一套實例掩碼。
InstaGAN 成功地把牛仔褲和短裙互換,把短褲和長褲互換。
圖 4:在 clothing co-parsing(CCP)(Yang et al., 2014)數據集上的轉換結果。
綿羊和長頸鹿互換,杯子和瓶子互換都不是問題。
圖 6:在 COCO(Lin et al., 2014)數據集上的轉換結果。
我們可以只給第一位小姐姐換短裙,也可以只給第二位小姐姐換,當然一起換也 OK。
圖 7:輸入掩碼不同,InstaGAN 得到的結果也不同。
具體的玩法自然不限于此,作者可沒說需要限制性別。
圖 13:在 MHP 數據集上的更多轉換結果(褲子→短裙)。
從展示的案例中也可以發現,CycleGAN 的轉換效果總是受到源圖像的形狀偏差影響,所以其轉換偏向于目標的紋理層面。比如,在下圖中,CycleGAN 就把短脖子的綿羊變成了短頸鹿。
圖 15:在 COCO 數據集上的更多轉換結果(綿羊→長頸鹿)。
給予贊賞的同時,同一位評審也指出了該論文的一些不足,并給出了相應的建議:
就測試領域的數量(三類圖像對——長頸鹿/綿羊,長褲/短裙,杯子/瓶子)來看,結果有一定的局限性。從某種意義上來說,這也是可以理解的。誰也不會沒事用它來轉換從未在相同語境出現過或者大小不同的目標(如杯子和長頸鹿)。但如果示例對更多會更好,也會使該系統更具說服力。
此外,如果單個模型可以在多個類別對上訓練并從它們之間共享的信息中受益,那將很有趣。
評估主要是定性的。我希望看更多該模型的控制變量實驗。
圖 9:關于本文所述方法每個組成部分效果的控制變量研究。這些部分包括:InstaGAN 架構、語境保留損失函數、序列 mini-batch 推理/訓練算法,分別表示為 InstaGAN、L_ctx 及 Sequential。
圖 10:關于序列 mini-batch 推理/訓練技術效果的控制變量研究。「One」和「Seq」分別表示「one-step」推理和序列推理。
參考:李宏毅老師slides?
版權歸原作者所有,轉載僅供學習使用,不用于任何商業用途,如有侵權請留言聯系刪除,感謝合作。
精品課程推薦:
選購數學科普正版讀物
嚴選“數學思維好物”
送給孩子的益智禮物? ?| ??辦公室神器
算法工程師成長閱讀? ?| ??居家高科技
理工科男女實用型禮物精選? ?
----點擊頭像關注----
超級數學建模
數據與算法之美
少年數學家
數銳學堂
驚喜醬(個人號)
玩酷屋COOL
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎
總結
以上是生活随笔為你收集整理的裤子换裙子,就问你GAN的这波操作秀不秀的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习都需要有哪些数学知识?
- 下一篇: 这里聚集了优秀的数学老师、家长,有超多惊