GAN 改进系列
原始GAN問題
①?判別器越好,生成器梯度消失越嚴重 ② 判別器越好的情況下,生成的模型多樣性不夠?③?訓練困難,生成器和判別器的loss無法指示訓練進程。
改進 -- WGAN系列
??1)WGAN 就是在 GAN 的基礎上改進的比較成功的一種。WGAN 利用 Wasserstein 距離代替 JS 距離,從而避免了一定的梯度消失問題,這也為很多 GAN 模型的擴展提供了指導。
??2)WGAN-GP 是在 WGAN 的基礎上改進的,WGAN 在保證 Lipschitz 限制條件時,作者是采用將限制判別器神經網絡的所有參數(這里指權重 w)不超過某個范圍 [-c,c]。這樣做帶來了參數上的兩極化,為了改進 WGAN,WGAN-GP 提出了梯度懲罰概念用于滿足 Lipschitz 限制條件。
??3)Curriculum GANs 其是在 WGAN-GP 的基礎上改進的,但是思路是沿襲 WGAN 所以也稱之為 WGAN-C。
(1)WGAN
Wassertein距離
??Wassertein 指的是Wassertein距離(也稱Earth-Mover(EM)距離),WGAN就是用Wasserstein距離代替JS散度。
??Wasserstein距離又叫Earth-Mover距離(EM距離),用于衡量兩個分布之間的距離。
??定義:是和分布組合起來的所有可能的聯合分布的集合。對于每一個可能的聯合分布,可以從中采樣得到一個樣本和,并計算出這對樣本的距離,所以可以計算該聯合分布下,樣本對距離的期望值。在所有可能的聯合分布中能夠對這個期望值取到的下界就是Wasserstein距離。
??直觀理解:在這個路徑規劃下把土堆挪到土堆所需要的消耗。而Wasserstein距離就是在最優路徑規劃下的最小消耗。所以Wesserstein距離又叫Earth-Mover距離。
??優點:Wessertein距離相比KL散度和JS散度的優勢在于,即使兩個分布的支撐集沒有重疊或者重疊非常少,仍然能反映兩個分布的遠近。而js散度在此情況下是常量,KL散度可能無意義。
??根據Kantorovich-Rubinstein對偶原理,可以得到Wasserstein距離的等價形式
WGAN的改進
①判別器最后一層去掉sigmoid
②生成器和判別器的loss不取log
③ 每次更新判別器的參數之后把它們的絕對值截斷到不超過一個固定常數c
④ 不使用基于動量的優化算法Adam,使用RMSProp
!!!!!!!!!!!!!!!!生成式對抗網絡(GAN)-(Generative Adversarial Networks)算法總結(從原始GAN到....目前)_人工智障之深度瞎學的博客-CSDN博客
參考:
生成模型--損失函數改進之WGAN系列_wydbyxr的博客-CSDN博客_wgan損失函數
WGAN(wasserstein GAN)_林小川的博客-CSDN博客
Wasserstein GAN_灰巧克力愛松露-CSDN博客
總結
- 上一篇: java+springboot的大学生心
- 下一篇: 《半小时漫画经济学》读书摘记