WGAN的成功,可能跟Wasserstein距离没啥关系
?PaperWeekly 原創 ·?作者|蘇劍林
單位|追一科技
研究方向|NLP、神經網絡
WGAN,即 Wasserstein GAN,算是 GAN 史上一個比較重要的理論突破結果,它將 GAN 中兩個概率分布的度量從 f 散度改為了 Wasserstein 距離,從而使得 WGAN 的訓練過程更加穩定,而且生成質量通常也更好。
Wasserstein 距離跟最優傳輸相關,屬于 Integral Probability Metric(IPM)的一種,這類概率度量通常有著更優良的理論性質,因此 WGAN 的出現也吸引了很多人從最優傳輸和 IPMs 的角度來理解和研究 GAN 模型。
然而,最近 Arxiv 上的論文《Wasserstein GANs Work Because They Fail (to Approximate the Wasserstein Distance)》[1] 則指出,盡管 WGAN 是從 Wasserstein GAN 推導出來的,但是現在成功的 WGAN 并沒有很好地近似 Wasserstein 距離,相反如果我們對 Wasserstein 距離做更好的近似,效果反而會變差。
事實上,筆者一直以來也有這個疑惑,即 Wasserstein 距離本身并沒有體現出它能提升 GAN 效果的必然性,該論文的結論則肯定了該疑惑,所以 GAN 能成功的原因依然很迷。
基礎與回顧
本文是對 WGAN 訓練過程的探討,并不算入門文章。關于初學 GAN,歡迎參考互懟的藝術:從零直達 WGAN-GP;而關于 f 散度與 GAN 之間的聯系,可以參考 f-GAN 簡介:GAN 模型的生產車間和 Designing GANs:又一個 GAN 生產車間;至于WGAN的理論推導,可以參考從Wasserstein距離、對偶理論到 WGAN;對于 GAN 的訓練過程分析,還可以參考從動力學角度看優化算法:GAN 的第三個階段。
一般來說,GAN 對應著一個 min-max 過程:
當然,一般來說判別器和生成器的損失函數可能不一樣,但上述形式已經足夠有代表性了。最原始的 GAN 一般稱為 vanilla GAN,其形式為:
可以參考《Towards Principled Methods for Training Generative Adversarial Networks》[2] 、令人拍案叫絕的 Wasserstein GAN [3] 或筆者的相關 GAN [4] 文章證明,vanilla GAN 實際上相對于在縮小兩個分布之間的 JS 散度。
而 JS 散度是 f 散度的一種,所有的 f 散度都具有一個問題,那就是在兩個分布幾乎沒有交集的時候,散度為一個常數,這意味著梯度為零,而我們是使用梯度下降求解的,所以這意味著我們無法很好地完成優化。為此,WGAN [5] 應運而生,它利用 Wasserstein 距離來設計了新的 GAN:
跟之前的 GAN 的明顯區別是,WGAN 顯式地給判別器 D 加上了 L 約束 。由于 Wasserstein 距離幾乎對任意兩個分布(哪怕沒有交集)都有比較良好的定義,因此 WGAN 理論上就解決了傳統的基于 f 散度的 GAN 的梯度消失、訓練不穩定等問題。
給判別器加上 L 約束主要有兩個主要方案:一是譜歸一化(Spectral Normalization,SN),可以參考深度學習中的 Lipschitz 約束:泛化與生成模型,現在很多 GAN(不限于 WGAN)為了穩定訓練,都往判別器甚至生成器上都加入譜歸一化了;
二是梯度懲罰(Gradient Penalty,GP),其中有包括以 1 為中心的懲罰(WGAN-GP)和以 0 為中心的懲罰(WGAN-div)兩種,可以參考WGAN-div:一個默默無聞的 WGAN 填坑者,目前的結果表明零中心懲罰具有比較好的理論性質和效果。
效果 ≠ 近似
事實上“WGAN 并沒有很好近似 Wasserstein 距離”這個現象也不是第一次被關注了,比如 2019 年就有論文《How Well Do WGANs Estimate the Wasserstein Metric?》[6] 系統地討論過這一點。而本文要介紹的論文,則通過比較嚴謹地設置實驗來確定 WGAN 效果的好壞與 Wasserstein 距離近似程度的聯系。
首先,論文比較了梯度懲罰(GP)與一種稱為 的方法在實現WGAN時的效果。 同樣提出自論文《How Well Do WGANs Estimate the Wasserstein Metric?》[6] ,它相比梯度懲罰能更好地近似 Wasserstein 距離。下面兩個圖也表明了這一點:
▲ 靜態測試時WGAN-GP、c-transforme與Wasserstein距離的近似程度▲ 訓練過程中WGAN-GP、c-transforme與Wasserstein距離的近似程度
然而, 的生成效果,卻并不如梯度懲罰:
▲WGAN-GP與c-transform的生成效果比較當然,原論文選這個圖真是讓人哭笑不得,事實上 WGAN-GP 的效果可以比上面右圖好得多。于是,我們可以暫時下結論:
效果好的 WGAN 在訓練過程中并沒有很好地近似 Wasserstein 距離;
更好地近似 Wasserstein 距離究竟對提升生成效果并沒有幫助。
理論 ≠ 實驗
現在就讓我們來思考一下問題出在哪。我們知道,不管是原始 ?(2)還是 ?(3)又或者其他 GAN,在實驗的時候,都有兩個共同特點:
和 是交替訓練的;
每次都只是隨機選一個 batch 來訓練。
這兩點有什么問題呢?
第一,其實幾乎所有的 GAN 都會寫成 ,這是因為理論上來說,需要先精確完成 ,然后再去 ,才是在優化 GAN 對應的概率度量,如果只是交替優化,那么理論上就不可能很精確地逼近概率度量。
哪怕 WGAN 因為用了 Wasserstein 距離不怕消失,所以交替訓練時通常會多訓練幾步 D(或者 D 用更大的學習率),但依舊不可能精確逼近 Wasserstein 距離,這是差距來源之一。
第二,隨機采樣一個 batch 來訓練,而不是全量訓練樣本,這導致的一個結果是“訓練集里邊隨機選兩個 batch 的 Wasserstein 距離,還大于訓練集的 batch 與其平均樣本之間的 Wasserstein 距離”,如下圖所示:
▲ 左:真實樣本batch,中:平均樣本,右:樣本聚類中心。看Wasserstein距離的話,真實樣本還不如后面兩個模糊樣本
這就說明了,基于 batch 訓練的情況下,如果你希望得到更真實的樣本,那么必然不是在優化 Wasserstein 距離,如果你在很精確地優化 Wasserstein 距離,那么就得不到更真實的樣本,因為模糊的平均樣本的 Wasserstein 距離還更小。
數學 ≠ 視覺
從數學上來看,Wasserstein 距離的性質確實是非常漂亮的,某種意義上來說它是度量任意兩個分布之間差距的最佳方案。但是數學歸數學,Wasserstein 距離最“致命”的地方在于它是依賴于具體的度量的:
也就是說,我們需要給定一個能度量兩個樣本差距的函數 d(x,y)。然而,對于很多場景,比如兩張圖片,度量函數的設計本身就是難中之難。WGAN 直接使用了歐氏距離 ,盡管在數學上是合理的,但在視覺效果上卻是不合理的,我們肉眼認為的兩張更相似的圖片,它的歐氏距離未必更小。
所以如果很精確地去近似 Wasserstein 距離,反而會帶來視覺效果上的變差。原論文也做了實驗,通過 對 Wasserstein 距離做更好的近似,那么模型的生成效果其實跟 K-Means 聚類中心是類似的,而 K-Means 也正是使用了歐式距離作為度量:
▲ c-transform效果與K-Means的相似性
所以,現在 WGAN 成功的原因就很迷了:WGAN 是基于 Wasserstein 距離推導出來的,然后在實現上卻跟 Wasserstein 距離有點差距,而這個差距很可能才是 WGAN 成功的關鍵。
原論文認為 WGAN 的最關鍵之處是引入了 L 約束,往任意一個 GAN 變種里邊引入 L 約束(譜歸一化或梯度懲罰),多多少少都能使得效果和穩定性有點提升,因此 L 約束才是提升的要點,而并不是想象中的 Wasserstein 距離。
但這更多的只是一個結論,還不是理論上的分析。看來對 GAN 的深入理解,還是任重而道遠。
簡單的總結
本文主要分享了最近的一篇論文,里邊指出對 Wasserstein 距離的近似與否,跟 WGAN 的效果好壞并沒有必然聯系,如何更好地理解 GAN 的理論與實踐,依然是一種艱難的任務。
參考文獻
[1] https://arxiv.org/abs/2103.01678
[2] https://arxiv.org/abs/1701.04862
[3] https://zhuanlan.zhihu.com/p/25071913
[4] https://kexue.fm/tag/GAN/
[5] https://arxiv.org/abs/1701.07875
[6] https://arxiv.org/abs/1910.03875
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的WGAN的成功,可能跟Wasserstein距离没啥关系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 优盘内文件夹删不了怎么办 无法删除优盘内
- 下一篇: 微软PRO 系统怎么安装 微软PRO系统