二元函数图像生成器_GAN生成图像综述
點(diǎn)擊上方“CVer”,選擇加"星標(biāo)"或“置頂”
重磅干貨,第一時(shí)間送達(dá)
作者:YTimo(PKU EECS)???研究方向:深度學(xué)習(xí),計(jì)算機(jī)視覺
本文轉(zhuǎn)載自:SIGAI
摘要
生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial network, GAN)[1]自2014年由Ian Goodfellow等人提出后,就越來越受到學(xué)術(shù)界和工業(yè)界的重視。而隨著GAN在理論與模型上的高速發(fā)展,它在計(jì)算機(jī)視覺、自然語言處理、人機(jī)交互等領(lǐng)域有著越來越深入的應(yīng)用,并不斷向著其它領(lǐng)域繼續(xù)延伸。其中,GAN在圖像生成上取得了巨大的成功,這取決于GAN在博弈下不斷提高建模能力,最終實(shí)現(xiàn)以假亂真的圖像生成。
圍繞GAN的研究可以分為兩條主線,一是理論主線,從數(shù)學(xué)理論上研究如何解決GAN的不穩(wěn)定性和模式崩塌問題,或者從信息理論和基于能量的模型等不同角度重新闡述它。二是應(yīng)用主線,致力于將GAN應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域、利用GAN進(jìn)行圖像生成(指定圖像合成、文本到圖像,圖像到圖像、視頻)以及將GAN應(yīng)用于NLP或其它領(lǐng)域。利用GAN進(jìn)行圖像生成和轉(zhuǎn)換是當(dāng)前研究最多的,并且該領(lǐng)域的研究已經(jīng)證明了GAN在圖像合成中的巨大潛力。
本文從GAN的基本模型開始,簡(jiǎn)要總結(jié)GAN的原理和改進(jìn),介紹其在圖像生成與轉(zhuǎn)換中的研究和應(yīng)用,并討論其理論和應(yīng)用中尚存在的挑戰(zhàn)。
正文
引言
在機(jī)器學(xué)習(xí)中,生成模型可以用來直接對(duì)數(shù)據(jù)建模,也可以用來建立變量間的條件概率分布。它的應(yīng)用十分廣泛,可以用來不同的數(shù)據(jù)進(jìn)行建模,比如圖像、文本、聲音等。以圖像生成為例,我們將圖像表示為一個(gè)隨機(jī)向量X,其中每一維都表示一個(gè)像素值。假設(shè)自然場(chǎng)景的圖像都服從一個(gè)未知的分布p(x),我們希望通過一些觀測(cè)樣本來估計(jì)其分布,高維隨機(jī)向量一般比較難以直接建模,需要通過一些條件獨(dú)立性來簡(jiǎn)化模型。但是,自然圖像中不同像素之間存在的復(fù)雜的依賴關(guān)系,很難用一個(gè)明確的圖模型來描述其依賴關(guān)系,因此直接建模p(x)比較困難,對(duì)生成模型的要求很高。
在GAN之前,人們就已經(jīng)研究了很多生成模型,隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,生成模型也得到了巨大的飛躍。目前有影響力的生成模型主要有Autoregressive model(自回歸模型)[2][3]、VAE[4]、GLOW[5]和GAN[1]:
1.自回歸模型(Autoregressive model)
自回歸模型在PixelRNN[2]和PixelCNN[3]上展示了很不錯(cuò)的實(shí)驗(yàn)效果,但是由于是按照像素點(diǎn)去生成圖像,導(dǎo)致計(jì)算成本高,在可并行性上受限,在處理大型數(shù)據(jù)如大型圖像或視頻具有一定的麻煩。
2. 變分自編碼器(VAE)
VAE是在Autoencoder的基礎(chǔ)上讓圖像編碼的潛在向量服從高斯分布從而實(shí)現(xiàn)圖像的生成,優(yōu)化了數(shù)據(jù)對(duì)數(shù)似然的下界,VAE在圖像生成上是可并行的, 但是VAE存在著生成圖像模糊的問題。
3.基于流的方法(Glow)
Glow提出了一種新的基于流的生成模型,通過尋找可逆的雙射來實(shí)現(xiàn)輸入和潛在空間的相互轉(zhuǎn)換,其在標(biāo)準(zhǔn)圖像建模基準(zhǔn)上的對(duì)數(shù)似然性方面展示了改進(jìn)的定量性能,特別是在高分辨率人臉圖像合成和插值生成上取得了驚艷的效果。
4. 生成對(duì)抗網(wǎng)絡(luò)(GAN)
GAN的思想就是利用博弈不斷的優(yōu)化生成器和判別器從而使得生成的圖像與真實(shí)圖像在分布上越來越相近。GAN生成的圖像比較清晰,在很多GAN的拓展工作中也取得了很大的提高。但是GAN生成中的多樣性不足以及訓(xùn)練過程不穩(wěn)定是GAN一直以來的問題。
然而GAN存在的問題并沒有限制GAN的發(fā)展,在GAN改進(jìn)和應(yīng)用方面的文章層出不窮。其中GAN在圖像生成上的應(yīng)用最為突出,當(dāng)然在計(jì)算機(jī)視覺中還有許多其他應(yīng)用,如圖像繪畫,圖像標(biāo)注,物體檢測(cè)和語義分割。在自然語言處理中應(yīng)用GAN的研究也是一種增長(zhǎng)趨勢(shì),如文本建模,對(duì)話生成,問答和機(jī)器翻譯。在不同的任務(wù)中訓(xùn)練GAN可能面臨不同的問題并且需要更多技術(shù),這也使其成為具有挑戰(zhàn)性但有趣的研究領(lǐng)域。
GAN的基本原理與研究進(jìn)展
樸素GAN的基本模型
GAN受博弈論中的零和博弈啟發(fā),將生成問題視作判別器和生成器這兩個(gè)網(wǎng)絡(luò)的對(duì)抗和博弈:生成器從給定噪聲中(一般是指均勻分布或者正態(tài)分布)產(chǎn)生合成數(shù)據(jù),判別器分辨生成器的的輸出和真實(shí)數(shù)據(jù)。前者試圖產(chǎn)生更接近真實(shí)的數(shù)據(jù),相應(yīng)地,后者試圖更完美地分辨真實(shí)數(shù)據(jù)與生成數(shù)據(jù)。由此,兩個(gè)網(wǎng)絡(luò)在對(duì)抗中進(jìn)步,在進(jìn)步后繼續(xù)對(duì)抗,由生成網(wǎng)絡(luò)得到的數(shù)據(jù)也就越來越完美,逼近真實(shí)數(shù)據(jù),從而可以生成想要得到的數(shù)據(jù)(圖片、序列、視頻等)。
圖一:GAN的基本結(jié)構(gòu)
理論上GAN可以將任意的分布作為輸入,如上圖所示,z輸入為隨機(jī)噪聲,在實(shí)驗(yàn)中我們多取z ~ (0,1) 或z ~ [-1,1] 的均勻分布作為輸入。生成器G的參數(shù)為θ,輸入z在生成器下得到,輸出可以被視為從分布中抽取的樣本。對(duì)于訓(xùn)練樣本x的數(shù)據(jù)分布為,生成器G的目標(biāo)是使pg近似,判別器D的目標(biāo)則是盡可能區(qū)分生成樣本和真實(shí)樣本的真假,通過最大-最小博弈來進(jìn)行訓(xùn)練,這種博弈可公式化為:
其中第一項(xiàng)的logD(x)表示判別器對(duì)真實(shí)數(shù)據(jù)的判斷,第二項(xiàng)表示對(duì)合成數(shù)據(jù)的判斷。通過這樣一個(gè)最大最小(Max-min)博弈,循環(huán)交替地分別優(yōu)化G和D來訓(xùn)練所需要的生成式網(wǎng)絡(luò)與判別式網(wǎng)絡(luò),直到到達(dá)Nash均衡點(diǎn)。
GAN的問題與研究進(jìn)展
最早GAN的提出是為了通過生成模型和判別模型對(duì)抗來達(dá)到對(duì)生成圖片最大相似度的偽裝,比起VAE生成的圖片會(huì)比較清晰。但是原始GAN模型本身也存在一些問題,主要的問題有兩個(gè):
(1)判別器越好,生成器的梯度消失越嚴(yán)重,這樣會(huì)導(dǎo)致在網(wǎng)絡(luò)訓(xùn)練上很多時(shí)候生成器的參數(shù)基本上不會(huì)發(fā)生改變。
(2)由于網(wǎng)絡(luò)是對(duì)抗式的,常常會(huì)造成訓(xùn)練時(shí)模型的崩潰(collapse mode),在訓(xùn)練時(shí)往往需要權(quán)衡訓(xùn)練的生成器與鑒別器的參數(shù)來防止崩潰的發(fā)生。這樣在實(shí)際的應(yīng)用上也帶了很多不便。
WGAN[6]和WGAN-GP[7]首先分析了原始GAN的問題,前者通過對(duì)生成樣本和真實(shí)樣本加噪聲使得兩個(gè)分布產(chǎn)生重疊,理論上可以解決訓(xùn)練不穩(wěn)定;后者引入梯度懲罰,使得GAN訓(xùn)練更加穩(wěn)定,收斂更快,同時(shí)能夠生成更高質(zhì)量的樣本。LSGAN[8] 使用最小二乘損失函數(shù)代替了原始GAN的損失函數(shù),讓模型在訓(xùn)練的過程中更多的關(guān)注真實(shí)度不高的樣本,緩解了GAN訓(xùn)練不穩(wěn)定和生成圖像質(zhì)量差多樣性不足的問題。DCGAN[9]將CNN引入生成器和判別器,借助CNN更強(qiáng)的擬合與表達(dá)能力,緩解GAN的問題的同時(shí),大大提高了生成圖像的能力。
圖二:DCGAN生成器結(jié)構(gòu)圖
此外,在研究中也產(chǎn)生了很多GAN的變種,比較突出的有將GAN與Encoder結(jié)合起來的BiGAN[10]和ALI[11],與VAE結(jié)合起來的VAE-GAN[12],添加額外輔助分類器的ACGAN[13],以及添加監(jiān)督信息的cGAN[14],引入信息理論的infoGAN[15],和引入能量的概念與方法的EBGAN[16]等。這些變種在不同的目標(biāo)上增強(qiáng)了GAN模型的擬合能力與魯棒性,極大地?cái)U(kuò)展了GAN的應(yīng)用范圍。
GAN-圖像生成
根據(jù)不同的GAN所擁有的生成器和判別器的數(shù)量,可以將GAN圖像生成的方法概括為三類:直接方法,迭代方法和分層方法[17]。
圖三:GAN在圖像生成中的三類方法
直接法
早期的GANs都遵循在其模型中使用一個(gè)生成器和一個(gè)判別器的原理,并且生成器和判別器的結(jié)構(gòu)是直接的,沒有分支。如GAN [1]、DCGAN [9]、ImprovedGAN [18],InfoGAN [15],f-GAN [19]和GANINT-CLS [20]。這類方法在設(shè)計(jì)和實(shí)現(xiàn)上比較容易,通常也能得到良好的效果。
分層法
分層法的主要思想是將圖像分成兩部分,如“樣式和結(jié)構(gòu)”和“前景和背景”,然后在其模型中使用兩個(gè)生成器和兩個(gè)鑒別器,其中不同的生成器生成圖像的不同部分,然后再結(jié)合起來。兩個(gè)生成器之間的關(guān)系可以是并聯(lián)的或串聯(lián)的。
以SS-GAN [21]為例,其使用兩個(gè)GAN,一個(gè)Structure-GAN用于生成表面結(jié)構(gòu),然后再由Style-GAN補(bǔ)充圖片細(xì)節(jié),最后生成圖片,整體結(jié)構(gòu)如下所示:
圖四:SS-GAN的分層結(jié)構(gòu)
迭代法
迭代法使用具有相似或甚至相同結(jié)構(gòu)的多個(gè)生成器,經(jīng)過迭代生成從粗到細(xì)的圖像。
以LAPGAN [22]為例:LAPGAN中的多個(gè)生成器執(zhí)行相同的任務(wù):最低級(jí)別的生成器僅將噪聲向量作為輸入并輸出圖像,而其他生成器都從前一個(gè)生成器獲取圖像并將噪聲矢量作為輸入,這些生成器結(jié)構(gòu)的唯一區(qū)別在于輸入/輸出尺寸的大小,每一次迭代后的圖像都擁有更多清晰的細(xì)節(jié)。
圖五:LAPGAN的迭代結(jié)構(gòu)
GAN-圖像轉(zhuǎn)換
圖像到圖像的轉(zhuǎn)換被定義為將一個(gè)場(chǎng)景的可能表示轉(zhuǎn)換成另一個(gè)場(chǎng)景的問題,例如圖像結(jié)構(gòu)圖映射到RGB圖像,或者反過來。該問題與風(fēng)格遷移有關(guān),其采用內(nèi)容圖像和樣式圖像并輸出具有內(nèi)容圖像的內(nèi)容和樣式圖像的樣式的圖像。圖像到圖像轉(zhuǎn)換可以被視為風(fēng)格遷移的概括,因?yàn)樗粌H限于轉(zhuǎn)移圖像的風(fēng)格,還可以操縱對(duì)象的屬性。
圖像到圖像的轉(zhuǎn)換可分為有監(jiān)督和無監(jiān)督兩大類,根據(jù)生成結(jié)果的多樣性又可分為一對(duì)一生成和一對(duì)多生成兩類:
有監(jiān)督下圖像到圖像轉(zhuǎn)換
在原始GAN中,因?yàn)檩敵鰞H依賴于隨機(jī)噪聲,所以無法控制生成的內(nèi)容。但cGAN[14]的提出使得我們可以將條件輸入y添加到隨機(jī)噪聲Z,以便生成的圖像由G(z,y)定義。條件y可以是任何信息,如圖像標(biāo)注,對(duì)象的屬性、文本描述,甚至是圖片。
圖六:CGAN的結(jié)構(gòu)
如果引入圖片作為監(jiān)督信息,cGAN就可以完成一些paired data才能完成的任務(wù),如把輪廓圖轉(zhuǎn)化成真實(shí)圖片,把mask轉(zhuǎn)化成真實(shí)圖,把黑白圖轉(zhuǎn)化成真實(shí)圖等。其中最具代表性的工作為pix2pix[23]:
圖七:pix2pix結(jié)構(gòu)圖
pix2pix提出將cGAN的損失與L1正則化損失相結(jié)合,使得生成器不僅被訓(xùn)練以欺騙判別器而且還生成盡可能接近真實(shí)標(biāo)注的圖像,使用L1而不是L2的原因是L1產(chǎn)生較少的模糊圖像。其損失函數(shù)設(shè)計(jì)如下:
(1)含有條件信息的GAN損失
(2)約束自相似性的L1損失
(3)總的目標(biāo)函數(shù)
圖八:pix2pix生成效果
無監(jiān)督的圖像到圖像轉(zhuǎn)換
雖然有監(jiān)督下圖像轉(zhuǎn)換可以得到很好的效果,但需要的條件信息以及paired image成為其很大的限制。但如果用無監(jiān)督學(xué)習(xí),學(xué)習(xí)到的網(wǎng)絡(luò)可能會(huì)把相同的輸入映射成不同的輸出,這就意味著,我們輸入任意xi并不能得到想要的輸出yi。
CycleGAN [24]、DualGAN [25] 和DiscoGAN [26]突破了這個(gè)限制,這幾項(xiàng)工作都提出了一致/重構(gòu)損失(consistent loss),采取了一個(gè)直觀的思想:即生成的圖像再用逆映射生成回去應(yīng)該與輸入的圖像盡可能接近。在轉(zhuǎn)換中使用兩個(gè)生成器和兩個(gè)判別器,兩個(gè)生成器和進(jìn)行相反的轉(zhuǎn)換,試圖在轉(zhuǎn)換周期后保留輸入圖像。
以CycleGAN為例,在CycleGAN中,有兩個(gè)生成器,Gxy用于將圖像從域X傳輸?shù)結(jié),Gxy用于執(zhí)行相反的轉(zhuǎn)換。此外,還有兩個(gè)判別器Dx和Dy判斷圖像是否屬于該域。
圖九:cycleGAN結(jié)構(gòu)
其Consistent loss由L1進(jìn)行描述:
圖十:CycleGAN的生成效果
當(dāng)然,盡管CycleGAN 和DualGAN具有相同的模型結(jié)構(gòu),但它們對(duì)生成器使用不同的實(shí)現(xiàn)。CycleGAN使用卷積架構(gòu)的生成器結(jié)構(gòu),而DualGAN遵循U-Net結(jié)構(gòu)。在實(shí)踐中可以根據(jù)不同的需求更換生成器和判別器的實(shí)現(xiàn)結(jié)構(gòu)。
UNIT[27]在循環(huán)一致?lián)p失基礎(chǔ)上為無監(jiān)督圖像生成增加了新的思路:將VAE與GAN結(jié)合起來,假設(shè)兩個(gè)編碼器共享相同的隱空間。我們知道,GAN的生成器的輸入為一個(gè)已知分布 Z 的latent code z. 生成器把這個(gè)分布映射成另外一個(gè)分布,這個(gè)分布中的一個(gè)樣本點(diǎn)就是G(z). 由于UNIT涉及到的是2個(gè)domain之間的關(guān)系,即latent code z 既要映射到domainX1它的樣本點(diǎn)是G1(z),又要映射到domain?X2?,它的樣本點(diǎn)是G2(z)。生成器G把latent code 變成圖像,而編碼器E把圖像還原成latent code. 共享latent code其實(shí)就是?;诠蚕頋撛诳臻g假設(shè),UNIT強(qiáng)制在編碼器的最后幾層之間以及發(fā)生器的前幾層之間進(jìn)行權(quán)重共享。
圖十一:UNIT的思路和網(wǎng)絡(luò)結(jié)構(gòu)
如圖十一所示,兩個(gè)domainX1,X2的樣本x1,x2?輸入兩個(gè)編碼器中,G1(z1)=?G1(E1(x1))是還原原圖?x1,G1(z2)=?G1(E2(x2))是生成有x1風(fēng)格的圖像;G2(z2)=?G2(E2(x2))是還原原圖x2,?G2(z1)=?G2(E1(x1))是生成有X2風(fēng)格的圖像。D1,D2分別是domainX1,X2 的判別器。在筆者所做的一些人臉數(shù)據(jù)集上的實(shí)驗(yàn)中,UNIT取得了比CycleGAN系列更好的效果。
從一對(duì)一生成到一對(duì)多生成(one-to-many translation)
從pix2pix[23]到CycleGAN系列[24][25][26],再到UNIT[27],這些方法實(shí)現(xiàn)的image-to-image translation不管是有監(jiān)督的還是無監(jiān)督的,都是一對(duì)一的,也就是說輸入一張圖片只能產(chǎn)生一種風(fēng)格,缺乏多樣性。但其實(shí)大多數(shù)情況下,image translation是多對(duì)多的,也就是一張圖片對(duì)應(yīng)不同風(fēng)格的轉(zhuǎn)換圖片。比如我們?cè)O(shè)計(jì)衣服時(shí),一張輪廓圖其實(shí)可以設(shè)計(jì)成不同風(fēng)格的衣服。再比如同一個(gè)場(chǎng)景,不同的光照條件就是一個(gè)模式,不一定只有白天和黑夜,還可能有傍晚,清晨等。
BicycleGAN[28]首先對(duì)此進(jìn)行了嘗試,其在模型中添加隨機(jī)噪聲,通過隨機(jī)采樣使噪聲得到不同的表達(dá),并在輸出與潛在空間上添加雙向映射。雙向映射指的是:不僅僅可以由潛在編碼映射得到輸出也可以由輸出反過來生成對(duì)應(yīng)的潛在編碼,這可以防止兩個(gè)不同的潛在編碼生成同樣的輸出,避免輸出的單一性。
但直接用不同的隨機(jī)噪聲來產(chǎn)生多樣化的結(jié)果,由于mode collapse的存在,很容易訓(xùn)練失敗。MUNIT[29]和DRIT[30]在UNIT的基礎(chǔ)上,將latent code進(jìn)一步細(xì)化為內(nèi)容編碼 c 和風(fēng)格編碼 s 。不同domain的圖像共享內(nèi)容編碼空間 C 而獨(dú)享風(fēng)格編碼空間 S ,將內(nèi)容編碼c與不同的風(fēng)格編碼s結(jié)合起來就能得到更魯棒的多樣性的結(jié)果。
圖十二:MUNIT將latent?code分為內(nèi)容c和風(fēng)格c
如下所示,BicycleGAN、MUNIT和DRIT都取得了不錯(cuò)的生成結(jié)果:
總結(jié)
GAN在圖像生成和轉(zhuǎn)換中的巨大潛力已經(jīng)得到研究證明,利用GAN進(jìn)行圖像到圖像間的生成和轉(zhuǎn)換最好已經(jīng)到達(dá)幾乎無法分辨的地步。除此之外,利用GAN進(jìn)行指定圖像合成,生成高清圖像和視頻,以及將GAN應(yīng)用于NLP和其他領(lǐng)域的研究都還受到研究者們的重點(diǎn)關(guān)注。GAN圖像生成仍然會(huì)是一個(gè)充滿挑戰(zhàn)與價(jià)值的課題,存在很大的研究空間。
小編相關(guān)推薦:
http://www.tensorinfinity.com/paper_14.html(Largescale GANtraining for high?fidelity natural image synthesis文章解讀)
? ? ?生成式對(duì)抗網(wǎng)絡(luò)模型綜述
Generative Adversarial Nets 論文解讀
參考文獻(xiàn):
[1]?Goodfellow,?Ian,?et?al.?“Generative?adversarial?nets.”?Advances?in?neural?information?processing?systems.?2014.https://arxiv.org/abs/1406.2661
[2]?Oord?A,?Kalchbrenner?N,?Kavukcuoglu?K.?Pixel?recurrent?neural?networks[J].?arXiv?preprint?arXiv:1601.06759,?2016.
[3]?Van?den?Oord?A,?Kalchbrenner?N,?Espeholt?L,?et?al.?Conditional?image?generation?with?pixelcnn?decoders[C]//Advances?in?neural?information?processing?systems.?2016:?4790-4798.
[4]?Kingma?D?P,?Welling?M.?Auto-encoding?variational?bayes[J].?arXiv?preprint?arXiv:1312.6114,?2013.https://arxiv.org/pdf/1312.6114.pdf
[5]?Kingma?D?P,?Dhariwal?P.?Glow:?Generative?flow?with?invertible?1x1?convolutions[C]//Advances?in?Neural?Information?Processing?Systems.?2018:?10215-10224.
[6]?M.?Arjovsky,?S.?Chintala,?and?L.?Bottou,?“Wasserstein?gan,”?arXiv?preprint?arXiv:1701.07875,?2017.https://arxiv.org/abs/1701.07875
[7]?I.?Gulrajani,?F.?Ahmed,?M.?Arjovsky,?V.?Dumoulin,?and?A.?Courville,?“Improved?training?of?wasserstein?gan,”?arXiv?preprint?arXiv:1704.00028,?2017.https://arxiv.org/abs/1704.00028
[8]?Mao?X,?Li?Q,?Xie?H,?et?al.?Least?squares?generative?adversarial?networks[C]//Proceedings?of?the?IEEE?International?Conference?on?Computer?Vision.?2017:?2794-2802.
[9]?Radford?A,?Metz?L,?Chintala?S.?Unsupervised?representation?learning?with?deep?convolutional?generative?adversarial?networks[J].?arXiv?preprint?arXiv:1511.06434,?2015.
[10]?J.?Donahue,?P.?Kr?henbühl,?and?T.?Darrell,?“Adversarial?feature?learning,”?arXiv?preprint?arXiv:1605.09782,?2016.https://arxiv.org/abs/1605.09782
[11]?V.?Dumoulin,?I.?Belghazi,?B.?Poole,?A.?Lamb,?M.?Arjovsky,?O.?Mastropietro,?and?A.?Courville,?“Adversarially?learned?inference,”arXiv?preprint?arXiv:1606.00704,?2016.https://arxiv.org/abs/1606.00704
[12]?A.?B.?L.?Larsen,?S.?K.?S?nderby,?H.?Larochelle,?and?O.?Winther,“Autoencoding?beyond?pixels?using?a?learned?similarity?metric,”arXiv?preprint?arXiv:1512.09300,?2015.https://arxiv.org/abs/1512.09300
[13]?Odena?A,?Olah?C,?Shlens?J.?Conditional?image?synthesis?with?auxiliary?classifier?gans[C]//Proceedings?of?the?34th?International?Conference?on?Machine?Learning-Volume?70.?JMLR.?org,?2017:?2642-2651.
[14]?M.?Mirza?and?S.?Osindero,?“Conditional?generative?adversarial?nets,”arXiv?preprint?arXiv:1411.1784,?2014.https://arxiv.org/abs/1411.1784
[15]?Chen?X,?Duan?Y,?Houthooft?R,?et?al.?Infogan:?Interpretable?representation?learning?by?information?maximizing?generative?adversarial?nets[C]//Advances?in?neural?information?processing?systems.?2016:?2172-2180.
[16]?Zhao?J,?Mathieu?M,?LeCun?Y.?Energy-based?generative?adversarial?network[J].?arXiv?preprint?arXiv:1609.03126,?2016.
[17]?Huang?H,?Yu?P?S,?Wang?C.?An?introduction?to?image?synthesis?with?generative?adversarial?nets[J].?arXiv?preprint?arXiv:1803.04469,?2018.
[18]?T.?Salimans,?I.?Goodfellow,?W.?Zaremba,?V.?Cheung,?A.?Radford,and?X.?Chen,?“Improved?techniques?for?training?gans,”?in?Advances?in?Neural?Information?Processing?Systems,?2016,?pp.?2226–2234.https://arxiv.org/abs/1606.03498
[19]?S.?Nowozin,?B.?Cseke,?and?R.?Tomioka,?“f-gan:?Training?generative?neural?samplers?using?variational?divergence?minimization,”arXiv?preprint?arXiv:1606.00709,?2016.https://arxiv.org/abs/1606.00709
[20]?S.?Reed,?Z.?Akata,?X.?Yan,?L.?Logeswaran,?B.?Schiele,?and?H.?Lee,“Generative?adversarial?text?to?image?synthesis,”?arXiv?preprint?arXiv:1605.05396,?2016.https://arxiv.org/abs/1605.05396
[21]?X.?Wang?and?A.?Gupta,?“Generative?image?modeling?using?style?and?structure?adversarial?networks,”?arXiv?preprint?arXiv:1603.05631,?2016.https://arxiv.org/abs/1603.05631
[22]?E.?L.?Denton,?S.?Chintala,?a.?szlam,?and?R.?Fergus,?“Deep?generative?image?models?using?a?laplacian?pyramid?of?adversarial?networks,”?in?Advances?in?Neural?Information?Processing?Systems?Curran?Associates,?Inc.,?2015,?pp.?1486–1494.https://arxiv.org/abs/1506.05751
[23]?P.?Isola,?J.-Y.?Zhu,?T.?Zhou,?and?A.?A.?Efros,?“Image-to-image?translation?with?conditional?adversarial?networks,”?arXiv?preprint?arXiv:1611.07004,?2016.https://arxiv.org/abs/1611.07004
[24]?J.-Y.?Zhu,?T.?Park,?P.?Isola,?and?A.?A.?Efros,?“Unpaired?image-to-image?translation?using?cycle-consistent?adversarial?networks,”arXiv?preprint?arXiv:1703.10593,?2017.https://arxiv.org/abs/1703.10593
[25]?Z.?Yi,?H.?Zhang,?P.?T.?Gong?et?al.,?“Dualgan:?Unsupervised?dual?learning?for?image-to-image?translation,”?arXiv?preprint?arXiv:1704.02510,?2017.https://arxiv.org/abs/1704.02510
[26]?T.?Kim,?M.?Cha,?H.?Kim,?J.?Lee,?and?J.?Kim,?“Learning?to?discover?crossdomain?relations?with?generative?adversarial?networks,”arXiv?preprint?arXiv:1703.05192,?2017.https://arxiv.org/abs/1703.05192
[27]?Liu?M?Y,?Breuel?T,?Kautz?J.?Unsupervised?image-to-image?translation?networks[C]//Advances?in?Neural?Information?Processing?Systems.?2017:?700-708.
[28]?Zhu?J?Y,?Zhang?R,?Pathak?D,?et?al.?Toward?multimodal?image-to-image?translation[C]//Advances?in?Neural?Information?Processing?Systems.?2017:?465-476.
[29]?Huang?X,?Liu?M?Y,?Belongie?S,?et?al.?Multimodal?unsupervised?image-to-image?translation[C]//Proceedings?of?the?European?Conference?on?Computer?Vision?(ECCV).?2018:?172-189.
[30]?Lee?H?Y,?Tseng?H?Y,?Huang?J?B,?et?al.?Diverse?image-to-image?translation?via?disentangled?representations[C]//Proceedings?of?the?European?Conference?on?Computer?Vision?(ECCV).?2018:?35-51.
CVer-GAN交流群
掃碼添加CVer助手,可申請(qǐng)加入CVer-GAN交流群。一定要備注:研究方向+地點(diǎn)+學(xué)校/公司+昵稱(如GAN+上海+上交+卡卡),不根據(jù)格式申請(qǐng),一律不通過。
▲長(zhǎng)按加群
這么硬的綜述分享,麻煩給我一個(gè)在在看
▲長(zhǎng)按關(guān)注我們
麻煩給我一個(gè)在看!
總結(jié)
以上是生活随笔為你收集整理的二元函数图像生成器_GAN生成图像综述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python求近似值_python 已知
- 下一篇: linux下执行shell修改用户密码,