利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23
在碎片化閱讀充斥眼球的時代,越來越少的人會去關(guān)注每篇論文背后的探索和思考。
在這個欄目里,你會快速 get 每篇精選論文的亮點和痛點,時刻緊跟 AI 前沿成果。
點擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第?23?篇文章本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @Aidon。這個名為 pix2pixHD 的項目來自英偉達和 UC Berkeley,利用條件 GAN 進行 2048 x 1024 分辨率的圖像合成和處理。
本文從三個方面對 pix2pix 方法做了改進,還將他們的方法擴展到交互式語義操作,這對于傳統(tǒng)的圖像逼真渲染是一個顛覆性的工作。
如果你對本文工作感興趣,點擊底部的閱讀原文即可查看原論文。
關(guān)于作者:鄭琪,華中科技大學(xué)碩士生,研究方向為計算機視覺和自然語言處理。
■?論文 | High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
■ 鏈接 | https://www.paperweekly.site/papers/1278
■ 作者 | Aidon
論文導(dǎo)讀
現(xiàn)有的用于圖像逼真渲染的圖形學(xué)技術(shù),在構(gòu)建和編輯虛擬環(huán)境時往往非常復(fù)雜并且耗時,因為刻畫真實的世界要考慮的方面太多。
如果我們可以從數(shù)據(jù)中學(xué)習(xí)出一個模型,將圖形渲染的問題變成模型學(xué)習(xí)和推理的問題,那么當(dāng)我們需要創(chuàng)造新的虛擬環(huán)境時,只需要在新的數(shù)據(jù)上訓(xùn)練我們的模型即可。
之前的一些利用語義標(biāo)簽合成圖像的工作存在兩個主要問題:1. 難以用 GANs 生成高分辨率圖像(比如 pix2pix 方法);2. 相比于真實圖像,生成的圖像往往缺少一些細(xì)節(jié)和逼真的紋理。
本文從三個方面對 pix2pix 方法做了改進:一個 coarse-to-fine 生成器,一個 multi-scale 判別器和一個魯棒的 loss,從而成功合成出 2048 x 1024 的逼真圖像。此外,本文還將他們的方法擴展到交互式語義操作,這對于傳統(tǒng)的圖像逼真渲染是一個顛覆性的工作。
模型介紹
1. The pix2pix Baseline?
給定語義標(biāo)簽圖和對應(yīng)的真實照片集 (si,xi),該模型中的生成器用于從語義標(biāo)簽圖生成出真實圖像,而判別器用于區(qū)分真實圖像和生成的圖像,該條件GANs對應(yīng)的優(yōu)化問題如下:
其中:
pix2pix 采用 U-Net 作為生成器,在 Cityscapes 數(shù)據(jù)集上生成的圖像分辨率最高只有 256 x 256。
2. Coarse-to-fine 生成器?
這里一個基本的想法是將生成器拆分成兩個子網(wǎng)絡(luò) G={G1,G2}:全局生成器網(wǎng)絡(luò) G1 和局部增強網(wǎng)絡(luò) G2,前者輸入和輸出的分辨率保持一致(如 1024 x 512),后者輸出尺寸(2048 x 1024)是輸入尺寸(1024 x 512)的 4 倍(長寬各兩倍)。
以此類推,如果想要得到更高分辨率的圖像,只需要增加更多的局部增強網(wǎng)絡(luò)即可(如 G={G1,G2,G3}),具體的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示:
其中 G1 由卷積前端,一系列殘差塊和一個轉(zhuǎn)置卷積后端組成,G2 也由卷積前端,一系列殘差塊和一個轉(zhuǎn)置卷積(有時也叫反卷積)后端組成。從圖中可以看到,的輸入是由的輸出和最后一層的 feature map 相加得到,這樣就使得全局信息可以傳遞到 G2。
3. Multi-scale 判別器?
要在高分辨率下區(qū)分真實的與合成的圖像,就要求判別器有很大的感受野,這需要更深的網(wǎng)絡(luò)或者更大的卷積核才能實現(xiàn),而這兩種選擇都會增加網(wǎng)絡(luò)容量從而使網(wǎng)絡(luò)更容易產(chǎn)生過擬合問題,并且訓(xùn)練所需的存儲空間也會增大。
這里用 3 個判別器 {D1,D2,D3} 來處理不同尺度的圖像,它們具有相同的網(wǎng)絡(luò)結(jié)構(gòu):
4. 改進的 adversarial loss?
由于生成器要產(chǎn)生不同尺度的圖像,為使訓(xùn)練更加穩(wěn)定,這里引入特征匹配損失:
其中表示判別器 Dk 提取的第 i 層特征,T 為總的層數(shù),Ni 為該層總元素的個數(shù)。于是,總的目標(biāo)函數(shù)如下:
5. 學(xué)習(xí) instance-level 的特征嵌入?
當(dāng)前的圖像合成方法都只利用了 pixel-level 的語義標(biāo)簽圖,這樣無法區(qū)分同類物體,而 instance-level 的語義標(biāo)簽為每一個單獨的物體提供了唯一的標(biāo)簽。
文章指出,示例圖(instance map)所提供的最重要的信息其實是物體的邊緣。所以本文首先計算出示例邊緣圖(instance boundary map),如圖所示:
然后將語義標(biāo)簽圖和示例邊緣圖連接起來,輸入到生成器網(wǎng)絡(luò)中。?
考慮到一個理想的圖像合成算法應(yīng)該能夠從同一個語義標(biāo)簽圖產(chǎn)生出多種逼真的圖像,而現(xiàn)有的方法無法讓用戶直觀地控制產(chǎn)生什么樣的圖像,并且不允許 object-level 的控制,于是本文提出將額外的低維特征也輸入到生成器網(wǎng)絡(luò)中。
為此,需要訓(xùn)練一個編碼器網(wǎng)絡(luò) E,用于確定與真實圖像中每個目標(biāo)示例的低維特征向量,以 G(s,E(x)) 代替之前的 G(s),如圖所示:
在編碼器訓(xùn)練好之后,輸入訓(xùn)練圖像,找出圖像中的所有示例,并記錄對應(yīng)的特征。然后利用 KK-means 聚類得到每一個語義類別的特征編碼。推斷時,隨機選取一個聚類中心作為編碼特征,與之前的標(biāo)簽圖連接輸入到生成器網(wǎng)絡(luò)中。
實驗結(jié)果
實驗中設(shè)置 λ=10,K=10,用 3 維向量對示例特征進行編碼,采樣 LSGANs 用于穩(wěn)定訓(xùn)練。實驗比較了不同的圖像合成算法,包括 pix2pix 和 CRN,還比較了加入感知損失(w/o VGG)的結(jié)果,其中 F(i) 表示 VGG 網(wǎng)絡(luò)的第 i 層。
在 Cityscapes 數(shù)據(jù)集上的實驗結(jié)果如下:
在 NYU Indoor RGBD 數(shù)據(jù)集上的實驗結(jié)果如下:
更多關(guān)于的實驗結(jié)果可以閱讀原文或者訪問 project 網(wǎng)頁:
https://tcwang0509.github.io/pix2pixHD/
總結(jié)
本文提出了一個有通用性的基于條件 GANs 的網(wǎng)絡(luò)框架,用于高分辨率圖像合成和語義操作。相比于 pix2pix,本文在語義分割結(jié)果和圖像合成的清晰度以及細(xì)節(jié)上都有了很大的提升。
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計算機視覺、人工智能、機器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點擊「閱讀原文」即刻加入社區(qū)!
? ? ? ? ??
?我是彩蛋
?PaperWeekly x 百度
深度學(xué)習(xí)有獎?wù){(diào)研
你最喜歡的深度學(xué)習(xí)框架是...
TensorFlow? PyTorch? Caffe?
?
?獎品福利?
我們將從認(rèn)真作答的同學(xué)中抽取50名
贈送限量版禮品一份作為答謝
?
長按識別二維碼,參與調(diào)研
*本次活動獎品由百度提供
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看原論文
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的利用条件GANs的pix2pix进化版:高分辨率图像合成和语义操作 | PaperDaily #23的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 亚马逊高级应用科学家熊元骏:人类行为理解
- 下一篇: 当我们谈论「Chatbot」时,我们在读