Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)
Paper之BigGAN:ICLR 2019最新論文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待續(xù))
?
?
目錄
效果
論文
摘要
1、INTRODUCTION介紹
2、BACKGROUND背景
3、SCALING UP GANS
4、 ANALYSIS分析
5、EXPERIMENTS實(shí)驗(yàn)
6、CONCLUSION結(jié)論
?
?
?
?
效果
1、炸天的效果(此部分引自量子位)
? ? ?效果有多好?先看數(shù)字。經(jīng)過ImageNet上進(jìn)行128×128分辨率的訓(xùn)練后,BigGAN的Inception Score(IS)得分是166.3,一下子比前人52.52的最佳得分提升了100多分,離真實(shí)圖像的233分更近了。而Frechet Inception Distance(FID)得分,也從之前的18.65優(yōu)化到了9.6。
2、再看實(shí)例。你能分辨出以下哪張圖片是AI生成的假圖片,哪張是真實(shí)的圖片么
再來一個(gè)。以下八張,哪個(gè)是假的
現(xiàn)在公布答案,以上12張,全都是生成的假圖片。現(xiàn)在你能理解為什么大家都震驚并且齊聲稱贊了吧。
?
論文
論文地址下載:https://openreview.net/pdf?id=B1xsqj09Fm
摘要
? ? ? 盡管最近在生成性圖像建模方面取得了進(jìn)展,但是從諸如ImageNet之類的復(fù)雜數(shù)據(jù)集中成功生成高分辨率、多樣的樣本仍然是一個(gè)難以實(shí)現(xiàn)的目標(biāo)。為此,我們訓(xùn)練了迄今為止規(guī)模最大的生成性對抗網(wǎng)絡(luò),并研究了這種規(guī)模特有的不穩(wěn)定性。我們發(fā)現(xiàn),對生成器應(yīng)用正交正則化使其能夠服從簡單的“截?cái)嗉记伞?#xff0c;允許通過截?cái)酀撛诳臻g來精細(xì)控制樣本保真度和多樣性之間的權(quán)衡。我們的修改導(dǎo)致模型在類條件圖像合成中設(shè)置了新的狀態(tài)。當(dāng)在ImageNet上以128×128分辨率進(jìn)行訓(xùn)練時(shí),我們的模型(BigGAN)的初始得分(IS)為166.3,Fre_chet初始距離(FID)為9.6,比之前的最優(yōu)IS為52.52,FID為18.65。
1、INTRODUCTION介紹
? ? 近年來,隨著生成性對抗網(wǎng)絡(luò)(GAN,Good.等人)的出現(xiàn),生成性圖像建模的狀態(tài)有了顯著的進(jìn)步。(2014)在努力生成高逼真度、多樣化的圖像的同時(shí),直接從數(shù)據(jù)中學(xué)習(xí)模型。GAN訓(xùn)練是動態(tài)的,并且對其設(shè)置的幾乎每個(gè)方面(從優(yōu)化參數(shù)到模型體系結(jié)構(gòu))都很敏感,但是大量的研究已經(jīng)產(chǎn)生了能夠在各種環(huán)境中進(jìn)行穩(wěn)定訓(xùn)練的經(jīng)驗(yàn)和理論見解。盡管取得了這一進(jìn)展,但條件ImageNet建模(Zhang等人,2018)的當(dāng)前技術(shù)狀態(tài)獲得了52.5的初始評分(Salimans等人,2016),而真實(shí)數(shù)據(jù)的初始評分為233。
? ? ?在本工作中,我們著手消除由GAN生成的圖像與來自ImageNet數(shù)據(jù)集的真實(shí)世界圖像在保真度和多樣性方面的差距。我們做出以下三個(gè)貢獻(xiàn)來實(shí)現(xiàn)這一目標(biāo):
- 我們證明了GAN可從伸縮性中顯著受益,并且與現(xiàn)有技術(shù)相比,訓(xùn)練具有兩至四倍數(shù)量參數(shù)和八倍批量大小的模型。我們介紹了兩個(gè)簡單的、通用的架構(gòu)更改,它們改進(jìn)了可伸縮性,并修改了正則化方案以改進(jìn)調(diào)節(jié),從而顯著提高了性能。
- 作為我們修改的副作用,我們的模型變得適應(yīng)于“截?cái)嗉记伞?#xff0c;這是一種簡單的采樣技術(shù),允許明確、細(xì)粒度地控制樣本多樣性和保真度之間的權(quán)衡。
- 我們發(fā)現(xiàn)特定的不穩(wěn)定性大規(guī)模GANS,并表征他們經(jīng)驗(yàn)。從這個(gè)分析中,我們可以看到,將新的和現(xiàn)有的技術(shù)結(jié)合起來可以減少這些不穩(wěn)定性,但是完全的訓(xùn)練穩(wěn)定性只能以顯著的性能代價(jià)來實(shí)現(xiàn)。
? ? ? 我們的修改實(shí)質(zhì)上改進(jìn)了類條件GANS。當(dāng)在ImageNet上以128×128分辨率進(jìn)行訓(xùn)練時(shí),我們的模型(BigGAN)將最先進(jìn)的初始分?jǐn)?shù)(IS)和Fre_chet初始距離(FID)分別從52.52和18.65提高到166.3和9.6。我們在ImageNet上成功地訓(xùn)練了分辨率為256×256和512×512的BigGAN,在256×256上實(shí)現(xiàn)了IS和FID分別為233.0和9.3,在512×512上實(shí)現(xiàn)了IS和FID分別為241.4和10.9。最后,我們在一個(gè)更大的內(nèi)部數(shù)據(jù)集上訓(xùn)練我們的模型,并且演示我們的設(shè)計(jì)選擇從ImageNet很好地傳遞。
2、BACKGROUND背景
? ? ? 生成性對抗網(wǎng)絡(luò)(GAN)涉及生成器(G)和鑒別器(D)網(wǎng)絡(luò),其目的分別是將隨機(jī)噪聲映射到樣本并區(qū)分真實(shí)和生成的樣本。形式上,GaN目標(biāo),在其原來的形式(GooFisher等人,2014)涉及找到納什均衡到以下兩個(gè)玩家的最小-最大問題:
? ? ?z∈Rdz 是從分布p(z)中提取的一個(gè)潛變量,如n(0,i)或u[-1, 1]。當(dāng)應(yīng)用于圖像時(shí),G和D通常是卷積神經(jīng)網(wǎng)絡(luò)(Radford等人,2016)。沒有輔助的穩(wěn)定技術(shù),這種訓(xùn)練程序是眾所周知的脆弱,需要微調(diào)的超參數(shù)以及架構(gòu)選擇來工作。
因此,最近的許多研究集中于對香草GAN程序進(jìn)行修改,以賦予穩(wěn)定性,并利用越來越多的經(jīng)驗(yàn)和理論見解(Nowozin等人,2016;Snderby等人,2017;Fedus等人,2018)。其中一項(xiàng)工作重點(diǎn)是改變目標(biāo)函數(shù)(Arjovsky等人,2017;Mao等人,2016;Lim & Ye,2017;Bellemare等人,2017;Salimans等人,2018)以鼓勵(lì)收斂。另一行著重于通過梯度懲罰(Gulrajani等人,2017;Kodali等人,2017;Mescheder等人,2018)或歸一化(Miyato等人,2018)來約束D,以抵消無界損失函數(shù)的使用,并確保D向G.
? ? ?與我們的工作特別相關(guān)的是譜歸一化(Miyato等人,2018),它通過利用其第一奇異值的運(yùn)行估計(jì)來歸一化其參數(shù),從而在D上強(qiáng)制Lipschitz連續(xù)性,從而誘導(dǎo)自適應(yīng)地調(diào)整頂部奇異方向的向后動力學(xué)。相關(guān)的ODENA等。(2018)分析G的雅可比矩陣的條件數(shù),發(fā)現(xiàn)性能依賴于G的條件。張等。(2018)發(fā)現(xiàn)在G中采用譜歸一化提高了穩(wěn)定性,允許每個(gè)迭代的D階數(shù)減少。我們擴(kuò)展了這些分析,以獲得更深入的了解,病理的GaN培訓(xùn)。
其他的工作集中在體系結(jié)構(gòu)的選擇上,例如SA-GAN(Zhang等人,2018),它添加了來自(Wang等人,2018)的自注意塊,以提高G和D建模全局結(jié)構(gòu)的能力。ProGAN(Karras等人,2018)通過跨一系列增加的分辨率訓(xùn)練單個(gè)模型,在單類設(shè)置中訓(xùn)練高分辨率GAN。
? ? ? 在條件甘斯(MiZa&OsDuneRo,2014)中,類信息可以以各種方式輸入到模型中。在(Odena等人,2017)中,通過將一個(gè)1-hot類向量連接到噪聲向量來提供給G,并且修改目標(biāo)以鼓勵(lì)條件樣本最大化由輔助分類器預(yù)測的對應(yīng)類概率。德弗里斯等人。(2017)和杜穆林等。(2017)通過向G提供BatchNorm(Ioffe&Szegedy,2015)層中的類條件增益和偏置來修改類條件傳遞給G的方式。在Miyato & Koyama(2018)中,D通過利用其特征與一組學(xué)習(xí)類嵌入之間的余弦相似性作為區(qū)分真實(shí)樣本和生成樣本的附加證據(jù)來調(diào)節(jié),從而有效地鼓勵(lì)生成特征匹配學(xué)習(xí)類原型的樣本。
? ? ?表1:Fr′echet Inception Distance(FID,低點(diǎn)是更好的)和起始分?jǐn)?shù)(IS,高點(diǎn)是更好的)為我們提出修改消融。批量是批量大小,參數(shù)是總number of參數(shù),CH。is the通道倍增器representing the number of Units in each層、共享是使用共享embeddings昨天。是使用分層的潛在空間,鄰。是正則化正交,either indicates that the setting and ITR是穩(wěn)定的iterations to 106,黃金,它崩潰了at the given迭代。other than行1 - 4,結(jié)果是計(jì)算機(jī)在8不同隨機(jī)初始化。
? ? ?客觀評價(jià)隱生成的模型是困難的(泰斯等人,2015年)。a variety of作品已經(jīng)提出heuristics測定樣品的質(zhì)量模型不聽話的likelihoods(salimans等人,2016年;heusel等人,2017年;bin′kowski等人,2018年;吳等人,2017年)。of these,the inception評分(是的,salimans等。(2016年)和fre′chet距離(FID)開始,heusel等。(have become popular 2017年),盡管他們明顯的錯(cuò)誤(Barratt和夏爾,2018年)。我們雇傭他們有近似measures of樣品質(zhì)量,and to enable比較對以前的工作。
?
3、SCALING UP GANS
后期更新……
?
?
4、 ANALYSIS分析
后期更新……
?
?
5、EXPERIMENTS實(shí)驗(yàn)
后期更新……
?
6、CONCLUSION結(jié)論
后期更新……
?
?
?
?
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的Paper之BigGAN:ICLR 2019最新论文《LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS》(未完待续)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CV之MTCNN:MTCNN算法过程及其
- 下一篇: CV之FR:计算机视觉之人脸识别(Fac