PaperNotes(10)-Maximum Entropy Generators for Energy-Based Models
Maximum Entropy Generators for Energy-Based Models
- Abstract
- 1 Introduction
- 2 Background
- 3 Maximum Entropy Generators for Energy-Based Models
- 4 Experiments
- 5 Related Work
- 6 Conclusion
- 7 Acknowledgements
Abstract
由于對數似然梯度的難以計算,能量模型的最大似然估計是一個具有挑戰性的問題。本文中,我們提出了利用神經網絡來學習能量函數和攤銷(amotized)近似采樣機制,這提供了對數似然梯度的有效近似。所得到的目標要求生成樣本的熵最大化,我們使用最近提出的非參數互信息估計器來實現這一目標。最后,為了穩定由此產生的對抗博弈,我們使用從分數匹配文獻(score matching literature)中導出的零中心梯度懲罰作為必要條件。所提出的技術可以生成具尖銳圖像,IS和FID分數的與最新的GAN技術相比都具有競爭力,不會產生模式崩潰,并且與最新的異常檢測技術競爭。
1 Introduction
無監督學習利用未標記數據,被視為實現人工智能的關鍵(Lake等人,2017)。基于能量的模型(EBMs、LeCun等人。(2006)是一系列無監督的學習方法,重點是學習能量函數,即數據的非標準化對數密度。這就不需要對數據分布進行參數化假設,以使歸一化常數(Z)可處理。然而,在實踐中,由于同樣缺乏限制,學習高質量的基于能量的模型面臨著諸多挑戰。為了避免顯式地計算Z或其梯度,對比散度(Hinton,2000)和依賴于馬爾可夫鏈蒙特卡羅(MCMC)的隨機最大似然(Younes,1998;Tieleman,2008a)從基于能量的模型中近似地采樣。然而,基于MCMC的高維數據采樣方法往往存在混合時間長的問題。因此,基于能量的模型培訓與其他無監督學習技術如變分自動編碼器(Kingma&Welling,2014))和生成性對抗網絡(Goodfelle等人,2014))相比,并沒有很大的競爭力。
在這項工作中,我們提出了最大熵產生器(MEG),在這個框架中我們訓練能量函數和近似取樣器,它可以是快速的(使用產生器網絡G)或使用G在產生器的潛在空間中初始化馬爾可夫鏈。適當地訓練這樣一個生成器需要生成器的輸出分布的熵最大化,為此我們利用非參數互信息最大化的最新進展(Belghazi等人,2018;Hjelm等人,2018;Oord等人,2018;Poole等人,2018)。
為了評估該技術的有效性,我們在圖像生成、精確模式表示和異常檢測方面與其他最新技術進行了比較。我們證明,根據FID(Heusel et al.,2017)和IS(Salimans et al.,2016),所提出的技術能夠生成與WGAN-GP(Gullajani et al.,2017)具有競爭力的CIFAR-10樣品,并且能夠在正確的數據頻率下生成4疊加NIST的所有104個模式的樣本。
我們證明,我們的技術在KDD99數據集上訓練有助于異常檢測的能量函數,并且它執行的異常檢測技術和為該任務專門設計的最頂尖的異常檢測技術可以相提并論,且遠遠優于其他基于能量和生成的異常檢測模型。
為了總結我們的貢獻,我們提出了最大熵發生器(MEG),這是一個新的框架工作,用于訓練基于能量的模型,使用攤銷神經發生器和互信息最大化。結果表明,所得到的能量函數可以成功地用于異常檢測,并優于最近發表的基于能量模型的結果。我們表明,MEG生成了清晰的圖像-具有競爭性的IS和FID分數。并且比標準GANs準確地捕獲了更多的模式,同時與許多最大似然生成模型存在模型混合問題
不受導致模糊樣本的的共模混合問題的影響。
2 Background
設x表示數據空間X\mathcal{X}X中的一個樣本,Eθ:X→RE_θ:\mathcal{X}→\mathbb{R}Eθ?:X→R為一個能量函數對應于非歸一化的估計密度函數的負對數。
pθ(x)e?Eθ(x)Zθ∝e?Eθ(x)p_{\theta}(\bm{x})\frac{e^{-E_\theta ({\bm{x}})}}{Z_{\theta}}\propto e^{-E_\theta ({\bm{x}})}pθ?(x)Zθ?e?Eθ?(x)?∝e?Eθ?(x)
其中:ZθZ_{\theta}Zθ?為歸一化常數或( partition function).。令pDp_DpD?為訓練分布,從中提取訓練集。對于優化能量函數的參數θ,最大似然參數梯度為
?Ex~pD[?log?pθ(x)]?θ=Ex~pD[?Eθ(x)?θ]?Ex~pθ(x)[?Eθ(x)?θ]\frac{\partial \mathbb{E}_{\boldsymbol{x} \sim p_{D}}\left[-\log p_{\theta}(\boldsymbol{x})\right]}{\partial \theta}=\mathbb{E}_{\boldsymbol{x} \sim p_{D}}\left[\frac{\partial E_{\theta}(\boldsymbol{x})}{\partial \theta}\right]-\mathbb{E}_{\boldsymbol{x} \sim p_{\theta}(\boldsymbol{x})}\left[\frac{\partial E_{\theta}(\boldsymbol{x})}{\partial \theta}\right]?θ?Ex~pD??[?logpθ?(x)]?=Ex~pD??[?θ?Eθ?(x)?]?Ex~pθ?(x)?[?θ?Eθ?(x)?]
其中第二項是logZθlog Z_θlogZθ?的梯度,當訓練收斂時,兩個期望的和為零,正相位(在數據采集自pD)的期望能量梯度與負相位(數據采自pθ(x)p_θ(x)pθ?(x)下)的期望能量梯度相匹配。因此,訓練包括嘗試分離兩個分布:正相位分布(與數據相關)和負相位分布(模型自由運行并自行生成配置)。這一觀察結果激發了Bengio(2009)提出的pre-GAN思想,即“模型樣本為負樣本”,如果分類器將數據分布與模型自身樣本分離,則可以用來學習能量函數。在之后不久發表的GANs模型,Goodfellow(2014)也做了一個類似的聯系,涉及噪聲對比估計(Gutmann&Hyvarinen,2010)。還應認識到等式2與Wasserstein GANs或WGAN的目標函數之間的相似性(Arjovsky等人,2017年)
式2中的主要挑戰是從與能量函數Eθ相關的分布pθ中獲得樣本。雖然有一個能量函數可以方便地獲得分數,從而可以比較不同x的相對概率,但是很難將能量函數轉換為生成過程。常用的研究方法是基于馬爾可夫鏈蒙特卡羅,其中一個迭代更新一個候選配置,直到這些配置在分布上收斂到期望的分布pθ。對于RBM,最常用的算法是對比散度(Hinton,2000)和隨機最大似然(Younes,1998;Tieleman,2008a),依賴于RBM的特定結構來執行Gibbs抽樣。盡管這些基于MCMC的方法很有吸引力,但與自回歸模型(van den Oord等人,2016年)、變分自動編碼器(Kingma&Welling,2014年)和生成性對抗網絡或GANs(Goodfelle等人,2014年)相比,近年來RBM(及其更深層的形式,深玻爾茲曼機器)沒有競爭力。
3 Maximum Entropy Generators for Energy-Based Models
3.1 Improving training stability
3.2 Improving sample quality via latent space MCMC
當MEG同時訓練一個發生器和一個有效的能量函數時,我們可以通過向高密度區域偏移采樣來提高采樣質量。此外,正如Bengio等人最初討論的那樣,在潛在空間中進行MCMC行走應該比在數據空間中更容易,因為轉換后的數據流形(在潛在空間中)比在原始觀測數據空間中更平坦。(2013年)。其動機也類似于Brock等人成功使用的“截斷技巧”。(2018年)。然而,我們使用了一種基于MCMC的方法,這種方法適用于任意的潛在分布。
我們使用Metropolis-adjusted Langevin算法(MALA、Girolami和Calderhead(2011)),Langevin dynamics在潛在空間中生成一個建議分布,如下所示:
4 Experiments
為了了解MEG的好處,我們首先在玩具數據上可視化生成模型所獲得的能量密度。接下來,我們通過運行離散模式崩潰實驗來評估熵最大化器的有效性,以驗證我們學習了所有模式以及相應的模式計數(頻率)分布。此外,我們還評估了MEG在銳化圖像生成方面的性能,因為這是用最大似然法訓練的模型的常見故障模式,容易產生模糊樣本(the is等人,2015)。我們還比較了在可見空間的MCMC樣本和我們提出的從合成能量函數的潛在空間的MCMC樣本。最后,進行異常檢測實驗,驗證所學習的能量函數的應用。
4.1 Visualizing the learned energy function
4.2 Investigating Mode Collapse
GANs因存在模式崩潰問題而臭名昭著,其中數據分布的某些模式不由生成的分布表示。由于生成器被訓練成用能量模型分布(通過最大似然法訓練)最小化其KL發散,我們期望生成器忠實地捕捉數據分布的所有模式。我們的理論要求我們最大化生成分布的熵,我們相信這有助于確保全模式捕獲。
為了從經驗上驗證MEG捕獲了所有數據分布模式,我們采用了與(Metz et al.,2016)和(Srivastava et al.,2017)相同的實驗設置。我們在stackednist數據集上訓練生成模型,這是一個通過在不同通道上疊加MNIST創建的合成數據集。使用一個預訓練的MNIST分類器計算模式數,并根據經驗計算生成的模式分布和數據分布之間的KL散度。
4.3 Modeling Natural Images
5 Related Work
6 Conclusion
7 Acknowledgements
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的PaperNotes(10)-Maximum Entropy Generators for Energy-Based Models的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python模块(4)-Collecti
- 下一篇: kaggle (02) - 房价预测案例