谷歌大脑Wasserstein自编码器:新一代生成模型算法
白悅、許迪 變分自編碼器(VAE)與生成對抗網絡(GAN)是復雜分布上無監督學習主流的兩類方法。近日,谷歌大腦 Ilya Tolstikhin 等人提出了又一種新思路:Wasserstein 自編碼器,其不僅具有 VAE 的一些優點,更結合了 GAN 結構的特性,可以實現更好的性能。該研究的論文《Wasserstein Auto-Encoders》已被即將在 4 月 30 日于溫哥華舉行的 ICLR 2018 大會接收。
表示學習(representation learning)領域最初由監督式方法實現,使用超大標注數據集得到了突出的結果。而之前通過無監督方式生成的模型往往使用概率方法處理低維數據。近年來,這兩種方法逐漸結合。在交叉點形成的新領域,出現變分自動編碼器(VAE)[1] 這一成熟的方法,雖然理論成熟,但應用于自然圖像時會生成模糊的樣本。相比之下,生成對抗網絡(GAN)[3] 在模型采樣的圖像的視覺質量方面更加突出,但它的缺點是沒有編碼器,更難訓練,并且有「模式崩潰」(mode collapse)的問題,最終的模型無法捕獲真實數據分布的所有變化。此前的研究中,研究人員已經分析過很多 GAN 結構和 VAE、GAN 組合結構的問題,但我們還沒有發現一個把 GAN 和 VAE 的優點適當結合的統一框架。
谷歌大腦的這項工作建立在 L. Mescheder 等人 [11] 提出的理論分析的基礎上。根據 Wasserstein GAN 和 VEGAN,我們從最佳傳輸(OT:optimal transport)的角度來看生成建模。最佳傳輸成本(The OT cost)[5] 是一種測量概率分布之間距離的方法,且比其它方法(包括與原始 GAN 算法相關的 f 增益(f-divergences))的拓撲更弱。這在應用里面非常重要,因為在輸入空間 X 中,數據通常是靠低維流形支持的。因此,更強烈的距離概念(如捕獲分布間密度比率的 f 增益)往往最大,沒有給訓練提供有用的梯度。相比之下,有人稱 OT 會有更好的表現 [4, 7],盡管在其 GAN 類的實現中,需要在目標中增加約束項或正則項。
這篇文章中,我們的目標是最小化實際(但未知)的數據分布 PX 、由隱藏代碼(latent codes)Z ∈ Z 的先驗分布規定的隱變量模型 PG 和數據點 X ∈(X|Z)的生成模型 PG(X|Z) 之間的 OT Wc(PX, PG)。我們的主要貢獻如下(參見圖 1):
Wasserstein 自動編碼器(WAE),一個新的正則化自動編碼器家族(算法 1,2 和等式 4),可以最小化任何成本函數 c 的最佳傳輸 Wc(PX,PG)。與 VAE 類似,WAE 的目標由兩項組成:c-重構成本(c-reconstruction cost)和一個正則化矩陣,正則化矩陣用于懲罰 Z:PZ 中的兩個分布和編碼數據點的分布矛盾,即 QZ := EPX [Q(Z|X)]。當 c 是成本的平方,DZ 是 GAN 目標時,WAE 與 [2] 中的對抗自編碼器一致。
WAE 通過成本平方 c(x, y) = ||x?y||2 在 MNIST 和 CelebA 數據集上進行評估。研究員的實驗表明,WAE 保持了 VAE 的良好特性(訓練穩定,編碼器-解碼器架構和一個好的潛在流形結構),同時生成了質量更好的樣本,接近 GAN 生成的樣本。
我們提出并檢驗了兩個不同的正規化矩陣 DZ(PZ,QZ)。一個基于 GAN 和隱空間(latent space)Z 的對抗訓練,另一個利用最大均值差異(maximum mean discrepancy),可以很好地用于匹配高維標準正態分布 PZ[8]。
最后,《From optimal transport to generative modeling: the VEGAN cookbook》[11] 中和用來推導 WAE 目標的理論考慮本身可能會很有趣。特別是,定理 1 表明在生成模型的情況下,Wc(PX,PG)的原始形式相當于涉及優化概率編碼器 Q(Z | X)優化的問題。
本文結構如下。第二部分我們回顧了一個新的自動編碼器公式,用來計算 PX 和 [11] 中推導的隱變量模型 PG 之間的 OT。放寬了最終的約束優化問題(Wasserstein 自動編碼器的目標)。我們得出了兩種不同的正則化矩陣,得出 WAE-GAN 和 WAE-MMD 算法。第三部分討論相關的工作。第四部分是實驗結果,并以未來工作有前景的方向結束。
圖 1:VAE 和 WAE 最小化兩項:重構成本、懲罰 PZ 和編碼器 Q 引起的分布之間的差異的正則矩陣。對 PX 的不同輸入樣本 x,VAE 使 Q(Z|X = x) 與 PZ 匹配。如圖(a),其中每個紅色的球與 PZ(圖中的白色圖形)匹配。紅色的球開始交叉,這也是問題開始重建的時候。相反,如圖(b),WAE 使連續混合(continuous mixture)QZ := ∫Q(Z|X)dPX 與 PZ(圖中綠色的球)匹配。因此,不同樣本的隱藏代碼都有機會遠離對方,從而更好地重建。
算法 1. Wasserstein 自動編碼器和基于 GAN 懲罰的算法(WAE-GAN)。算法 2. Wasserstein 自動編碼器和基于 MMD 懲罰的算法(WAE-MMD)。
圖 2:在 MNIST 數據集上訓練的 VAE(左列),WAE-MMD(中間列)和 WAE-GAN(右列)。在「測試重建」中,奇數行對應于實際的測試點。
圖 3:在 CelebA 數據集上訓練的 VAE(左列),WAE-MMD(中間列)和 WAE-GAN(右列)。在「測試重建」中,奇數行對應于實際的測試點。
表 1:CelebA 中樣本的 FID 得分(數字越小越好)。
論文:Wasserstein Auto-Encoders
論文鏈接:https://arxiv.org/abs/1711.01558
摘要:我們提出了 Wasserstein 自動編碼器(WAE)——一種用于構建數據分布生成模型的新算法。WAE 將模型分布與目標分布之間的 Wasserstein 距離的懲罰形式最小化,導出了與變分自動編碼器(VAE)所使用的不同的正則化矩陣 [1]。此正則化矩陣鼓勵編碼的訓練分布與之前的相匹配。我們比較了我們的算法和其它幾種技術,表明它是對抗自動編碼器(AAE)的推廣 [2]。我們的實驗表明,WAE 具有 VAE 的許多特性(訓練穩定,編碼器-解碼器架構,良好的潛在流形結構),同時生成了通過 FID 得分衡量的質量更好的樣本。?
https://www.jiqizhixin.com/articles/google-brain-Wasserstein-Auto-Encoders
總結
以上是生活随笔為你收集整理的谷歌大脑Wasserstein自编码器:新一代生成模型算法的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: Deep Exploit:结合机器学习的
- 下一篇: 看穿机器学习(W-GAN模型)的黑箱
