Improved Consistency Regularization for GANs
Improved Consistency Regularization for GANs
最近的工作(Zhang et al. 2020)通過在鑒別器上強制一致性代價,提高了生成對抗網絡(gan)的性能。我們在幾個方面改進了這項技術。我們首先說明一致性正則化可以將工件引入GAN樣本,并解釋如何修復這個問題。然后,我們提出了幾個修改一致性正則化程序的設計,以提高其性能。
我們進行了廣泛的實驗,量化了我們的改進帶來的好處。對于CIFAR-10和CelebA上的無條件圖像合成,我們的修改在各種GAN架構上產生了最好的已知FID分數。對于CIFAR-10上的有條件圖像合成,我們將最先進的FID得分從11.48提高到9.21。最后,在ImageNet-2012上,我們將我們的技術應用于原始的BigGAN(Brock, Donahue, and Simonyan 2019)模型,并將FID從6.66提高到5.38,這是該模型規模下的最佳得分。
1 Introduction
最近的工作(Wei等人,2018;Zhang等人,2020)表明,生成模型的性能可以通過引入一致性正則化技術來提高–這在半監督學習文獻中很受歡迎(Oliver等人,2018)。特別是,Zhang等人(2020)表明,生成式對抗網絡(GANs)(Goodfellow等人,2014)用一致性正則化增強可以實現最先進的圖像合成結果。在CR-GAN中,將真實圖像及其相應的增強圖像送入鑒別器。然后鼓勵鑒別器-通過一個輔助損失項-為圖像及其相應的增強產生類似的輸出。
盡管CR-GAN中的一致性正則化是有效的,但增強只適用于真實圖像,而不是生成的樣本,這使得整個過程有些不平衡。特別是,生成器可以學習這些人工增強的特征,并將它們作為不受歡迎的人工制品引入生成的樣本。
此外,通過只對判別器進行正則化,并且只在圖像空間中使用augmentations,Wei等人(2018)和Zhang等人(2020)的正則化并不直接作用于生成器。通過約束從先驗到生成樣本的映射,我們可以在首先對判別器進行一致性正則化的基礎上進一步實現性能提升。
CR),它將一致性正則化的形式應用于生成的圖像、潛在向量空間和生成器。首先,我們通過引入平衡一致性正則化(bCR)來解決生成樣本上缺乏正則化的問題,其中鑒別器上的一致性項應用于真實圖像和來自生成器的樣本。
其次,我們引入了latent 一致性正則化(zCR),它包含了調節生成器和判別器對先驗變化的敏感性的正則化項。特別是,考慮到增強/擾動的潛在向量,我們表明,鼓勵生成器對擾動敏感,鼓勵判別器不敏感是有幫助的。我們將bCR和zCR結合起來,并稱之為改進的一致性正則化(ICR)。
ICR可以產生最先進的圖像合成結果。對于CIFAR-10和CelebA上的無條件圖像合成,我們的方法在各種GAN體系結構上獲得了最著名的FID分數。對于CIFAR-10上的條件圖像合成,我們將先進的FID評分從11.48提高到9.21。
CR可以產生最先進的圖像合成結果。對于CIFAR-10和CelebA上的無條件圖像合成,我們的方法在各種GAN體系結構上獲得了最高的FID分數。對于CIFAR-10上的條件圖像合成,我們將先進的FID評分從11.48提高到9.21。最后,在ImageNet-2012上,我們將我們的技術應用于原始BigGAN (Brock, Donahue, and Simonyan 2019)模型,并將FID從6.66提高到5.38,這是該模型尺寸下的最佳分數。
2 Improved Consistency Regularization
對于半監督或無監督學習,一致性正則化技術是有效的,最近已被廣泛使用(Sajjadi, Javanmardi, and Tasdizen 2016; Laine and Aila 2016; Zhai等人2019; Xie等人2019; Berthelot等人2019)。
這些技術背后的直覺是將一些先驗知識編碼到模型訓練中:模型應該產生一致的預測,這些預測是在給定的實例及其語義保護的增強中進行的。增強(或轉換)可以采取多種形式,如image flipping and rotating, sentence back-translating, or even adversarial attacks。通過最小化實例對之間的L2損失(Sajjadi, Javanmardi, and Tasdizen 2016; Laine and Aila 2016),或分布之間的KL-散度損失(Xie et al. 2019; Miyato et al. 2018b),可以輕松實現對不一致性的懲罰。在GAN文獻中,Wei等人(2018)提出了一個源于Lipschitz連續性考慮的一致性項來改善WGAN的訓練。最近,CR-GAN(Zhang等人,2020)將一致性正則化應用于判別器,并取得了實質性的改進。
下面我們首先介紹我們的兩種新技術,簡稱為bCR和zCR,以改進和普及GANs的CR。我們把這兩種技術的組合稱為ICR,我們將在后面說明ICR在各種情況下產生最先進的圖像合成結果。圖1顯示了我們的方法與基線CR-GAN Zhang等人(2020)的比較圖。
圖1:我們的方法與基線的比較圖。(1) CR-GAN(Zhang等人,2020)是基線,只在真實圖像和其增強部分之間應用一致性正則化。(2) 在平衡一致性正則化(bCR-GAN)中,我們也在生成的假圖像和它們的augmentations之間引入了一致性正則化。通過對真實圖像和假圖像進行一致性正則化,判別器以一種平衡的方式被訓練,并產生較少的增強假象。(3) 此外,我們提出了latent一致性正則化(zCR-GAN),其中latent z被小幅度的噪聲所增強。然后,對于判別器,我們對相應的對之間的一致性進行規范化;而對于生成器,我們鼓勵相應的生成圖像更加多樣化。注意,{→←}表示loss項鼓勵對更靠近,而{←→}表示loss項推動對分離。
2.1 Balanced Consistency Regularization (bCR)
圖1(1)顯示了基線CR-GAN,其中在鑒別器損失函數中增加了一項,以懲罰其對原始圖像x和增廣圖像T(x)之間的差異的敏感性。原始CR-GAN的一個關鍵問題是,鑒別器可能“錯誤地相信”這些增強是目標數據集的實際特征,因為這些增強只在真實圖像上執行。
圖5:通過平衡一致性正則化解決生成偽影的說明。第一列顯示了用不同大小的cutout增強的CIFAR-10訓練圖像。第二列展示了普通的CR-GAN(Zhang等人,2020)會導致生成的樣本中出現增強的偽影。這是因為CR-GAN只對傳入判別器的真實圖像進行了一致性正則化。在最后一欄中(我們的平衡一致性正則化:算法1中的bCR),這個問題在真實圖像和生成的假圖像被送入判別器之前都得到了解決。
這種現象,我們稱之為一致性不平衡,對于某些類型的增強(例如圖像的移動和翻轉)來說,不容易注意到。然而,當增強的樣本包含不屬于真實圖像的視覺假象時,它可能導致生成的樣本具有明確的增強假象。例如,我們可以很容易地觀察到帶有cutout 增強的CR-GAN的這種效果:見圖5的第二列。這種不理想的效果大大限制了我們可以使用的高級增強的選擇。
為了糾正這個問題,我們還建議在將生成的樣本送入鑒別器之前對其進行增強,以便鑒別器將相對于真實和虛假的增強均勻地進行正則化,從而鼓勵關注有意義的視覺信息。
具體來說,一個梯度更新步驟將涉及四個批次,一批真實圖像x,這些真實圖像的augmentations T(x),一批生成的樣本G(z),以及相同批次的augmentations T(G(z))。鑒別器將有懲罰其在相應的{x, T(x)}和{G(z), T(G(z))}之間的敏感性的條款,而生成器成本保持不變。
這一技術在算法1中有更詳細的描述,并在圖1(2)中得到了可視化。我們略微濫用了這個符號,即D(x)表示在給定輸入Z的情況下,鑒別器最后一層激活前的輸出向量。T(x)表示一個增強變換,這里是指圖像(例如移位、翻轉、剪裁等)??梢酝ㄟ^調整λrealλ_{real}λreal?和λfakeλ_{fake}λfake?的強度來平衡一致性正則化。這個提議的BCR技術不僅可以消除增強的假象(見圖5的第三列),而且還帶來了實質性的性能改進(見第3和第4節)。
2.2 Latent Consistency Regularization (zCR)
在第2.1節中,我們重點討論了在圖像空間中對判別器的輸入進行增量的一致性正則化。在本節中,我們考慮一個不同的問題。如果我們對潛在空間中的增量實施一致性正則化,會有幫助嗎(Zhao, Dua, and Singh 2018)?鑒于GAN模型由生成器和判別器組成,我們似乎有理由問,可以應用于判別器的技術是否也可以以某種類似的方式有效應用于生成器。
為了達到這個目的,我們建議通過輕微擾動先驗的抽樣z來增加對生成器的輸入,從而得到T(z)=z+Δz,Δz~N(0,σnoise)T(z)=z+Δz,Δz~\mathcal N(0,σ_{noise})T(z)=z+Δz,Δz~N(0,σnoise?)。假設擾動Δz足夠小,我們希望判別器的輸出不應該因為這個擾動而有太大的變化,并通過強制執行∣∣D(G(z))?D(G(T(z)))∣∣2||D(G(z))-D(G(T(z)))||^2∣∣D(G(z))?D(G(T(z)))∣∣2來修改判別器的損失。
然而,如果只在GAN損失上加上這個項,生成器就容易崩潰,為任何潛伏的Z生成相同的樣本,因為這很容易滿足上面的約束條件。為了避免這種情況,我們還對生成器的損失函數進行了修改,增加了一個使G(z)和G(T(z))之間的差異最大化的項,這也鼓勵了來自類似潛質向量的生成器的多樣性。
雖然動機不同,但這可以被視為與Odena等人(2018)的雅可比夾緊技術和Yang等人(2019)的多樣性增加技術有關。
這個方法在算法2中有更詳細的描述,并在圖1(3)中進行了可視化。G(z)表示給定輸入z的生成器的輸出圖像。T(x)表示一個增強變換,這里是指latent vectors(例如添加小的擾動噪聲)。鑒別器的一致性正則化的強度可以通過λdisλ_{dis}λdis?來調整。從生成器的角度來看,直觀地講,Lgen=?∣∣G(z)?G(T(z))∣∣2L_{gen} = -||G(z)-G(T(z))||2Lgen?=?∣∣G(z)?G(T(z))∣∣2項鼓勵{G(z), G(T(z))}的多樣性。我們在第4.3節中通過實驗對λgenλ_{gen}λgen?的效果進行了分析。根據FID的測量,這種技術大大改善了GANs的性能。我們在第3和第4節中介紹了實驗結果。
2.3 Putting it All Together (ICR)
盡管平衡一致性正則化和Latent一致性正則化都能提高GAN的性能(見第3節),但它們在相互 "疊加 "時是否有效并不明顯。也就是說,也許它們是以不同的方式完成同樣的事情,而我們不能把它們的好處加起來。然而,通過大量的實驗驗證,當把算法1和算法2結合在一起時,我們取得了最好的實驗結果。我們稱這種組合為改進一致性正則化(ICR)。注意,在ICR中,我們增加了圖像和潛在空間的輸入,并在鑒別器和生成器中都添加了正則化項。我們正則化{D(x), D(T(x))}, {D(G(z)), D(T(G(z)))}對應對的鑒別器一致性,以及{(G (z))、D (G (T (z)))};對于生成器,我們鼓勵{G(z), G(T(z))}之間的差異。
總結
以上是生活随笔為你收集整理的Improved Consistency Regularization for GANs的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 还在抱怨跟不上DeFi?已有人开始挖掘下
- 下一篇: 机器人改变生活利弊英语作文_机器人对生活