帮助理解GAN的一些补充内容
熵的本質是香農信息量(log1p\frac{1}{p}p1?),其中p表示信息確定性的概率。
信息熵即為信源不確定均值H(u)=E[?logPi]=?∑i=1npilogpiH(u)=E[-logP_i]=-\sum_{i=1}^{n}p_{i}logp_{i}H(u)=E[?logPi?]=?∑i=1n?pi?logpi?
特點:根據非真實分布q得到的平均編碼長度H(p,q)大于根據真實分布得到的平均編碼長度H§,實際上H(p,q)>=H§恒成立
相對熵:由q得到的平均編碼長度比由p得到的平均編碼長度多出來的位就是相對熵D(p∣∣q)=H(p,q)?H(p)=∑ip(i)?logp(i)q(i)D(p||q)= H(p,q) - H(p) =\sum_{i}p(i)*log\frac{p(i)}{q(i)}D(p∣∣q)=H(p,q)?H(p)=∑i?p(i)?logq(i)p(i)?,又稱為KL散度
GAN產生訓練不穩定的原因:g(z)至多產生的維度為dim(z),如果dim(z)<dim(x)dim(z)<dim(x)dim(z)<dim(x),則g(z)在x中的測度會非常小,也即它只能產生一個平面中的一條線(個人理解,詳情可參考上一篇文章),所以如果g的輸入維數比產生圖像的維數低,那么它能產生的也只是一個零測集,當PrP_{r}Pr?的支撐集和PgP_{g}Pg?沒有交集時,當D最優時,就會使G的梯度變得非常不穩定。
WGAN訓練,采用SGD或RMSProp算法較好,一般不采用基于momentum的算法(如Adam),會導致訓練變得不穩定,DCGAN采用Adam效果會比較好
總結
以上是生活随笔為你收集整理的帮助理解GAN的一些补充内容的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GAN背后的理论依据,以及为什么只使用G
- 下一篇: 深度学习中张量flatten处理(fla