深入解读f-散度和f-GAN训练的相关数学性质
?PaperWeekly 原創 ·?作者?|?孫裕道
學校?|?北京郵電大學博士生
研究方向?|?GAN圖像生成、情緒對抗樣本生成
引言
在深度學習中,衡量兩個概率密度分布的數學工具就是 散度,不管是訓練分類器模型還是訓練 都看見到它,所以說了解 散度的相關的數學性質是非常有必要的。在該論文中作者為我們描述了 散度和 訓練的一些數學的相關性質,并給出了 散度下界的一個初等推導,它構成了 訓練的基礎。進一步作者還推導了 散度和 擴展的一些其它性質其中就包括梯度匹配性質。
最重要的是作者還提供了計算各種常見 及其變分下界的詳細表達式,強烈推薦這篇論文,最好能跟著作者的思路一步一步推導出來,尤其是我對論文中關于對 泰勒展開式的補充證明更需要值得慢慢花時間消化,因為我發現很多篇論文中都用到了其泰勒展式的二階項的 信息矩陣。
論文標題:
Properties of f-divergences and f-GAN training
論文鏈接:
https://arxiv.org/abs/2009.00757
散度族
2.1 定義介紹
定義:給定一個嚴格凸的二次連續可微函數 ,在 的概率密度函數的 和 的 散度 的定義為:
為了簡化起見,作者假設分布 和 在 關于勒貝格積分是絕對連續的,,,并且 和 都是連續可微的。
在定義函數中添加一個線性函數項那么在散度中只會添加一個常數:比如說如果對于任意的 ,
則對于任意的分布 和 ,則有:
在通常情況下,我們不關心總體相加偏移,而是將 和 視為本質上相同的概率分布度量。論文中沒有給出該結論相關的數學證明,下面為補充的數學證明。
證明:已知 ,且 ,所以則有:
2.2 性質
令 , 確保當分布 時,; 確保散度 具有非負性,則 散度滿足如下幾個數學性質:
在 上是線性的。
對于任意的分布 和 都有 ,當且僅當 時,取等號。
確定唯一的 。
如果 ,則有 。
證明:
1. 線性性證明:對于任意 ,兩個散度 和 則有:
如果 和 是嚴格凸函數,則 和 都是嚴格凸函數,此時 和 都是有效的 散度。
2. 非負性證明:因為 非負性源于函數 是嚴格凸的。因為 ,因此則有:
由此可知 。
3.? 唯一確定函數 :證明的中心思想是當 時,。考慮 和 是一個兩點集的分布 。給定 ,構造如下兩個分布如下所示:
進一步則有公式:
因為當 時,對于所有的 ?,有 ,進一步則有 ,又因為 ,所以可得 。當 時, 和 的分布構造如下:
進一步化簡則有:
同樣的證明方法可以得出 。
不同的 散度在分布 和 在相距很遠的時候,度量的差異很大,但是在 時,距離都是 0。考慮一組分布的參數族 。對 對 進行泰勒展開,則有:
其中 ,,并且以下公式時 信息矩陣。
論文中沒有給出相應的證明過程,具體的證明過程如下所示:
證明:
為了證明的簡便性和可讀性,假設 是一維的,則有如下公式:
已知 ,則有:
求解如下導數:
又因為 ,,所以則有:
求解如下導數:
因為 ,,所以則有:
將求導結果帶入原公式,即可得到一維的散度泰勒展開式,與論文的結果一致,證明完畢。
可以很直觀的發現,所有的 散度都與附近兩個分布之間的散度一致,并且它們都是這個區域中 距離的縮放版本。這可以以非參數形式說明如下公式(此處的證明過程中與參數版本的證明方法一致):
其中 滿足 。上面的公式也可以寫成:
因此,所有 散度都與附近分布之間的散度的常數因子一致。
變分散度估計
3.1 變分下界
因為 是嚴格凸函數,所以在該函數圖像上的每一點的切線都在該函數圖像的下面。對于任意 ,所以則有:
當且僅當 時,取等號。用 代替 , 代替 ,對于任意連續可微的函數 ,,則可以得到:
當且僅當 取等號,此時 。令 ,對任意連續可微函數 ,則有:
當且僅當 取等號,其中則有:
其中 和 在函數 處都是線性的。
3.2 變分散度估計公式
分布 和 的 散度可以通過最大化關于函數 的期望 來估計,其中 可以根據分布 和 的采樣關于 函數的期望來估計。如果將 參數化為一個帶參數的神經網絡 ν,那么可以通過最大化關于 ν 的 來近似散度。這并不能計算出準確的散度原因有如下,第一不能保證 位于可由神經網絡表示的 νν 函數族中;第二基于梯度的優化可以找到局部而不是全局的最小值;第三需要防止訓練過程中模型過擬合。但是我們可以盡可能去優化下界進而能夠更好的去估計 散度。
3.3 散度的表達式
作者針對于每一個 散度,作者給出了 ,,,,,,, 的顯示表達式。首先是最常見的 散度,具體形式如下:
有時 散度的定義函數為 ,因為定義函數加上一個線性函數 散度不變,針對于廣義的 散度,則有如下形式:
散度 定義如下所示:
散度和 散度在公式的表示形式上具有明顯的對稱性。如果 ,則 ,。
散度 的具體的推導以及定義的公式如下所示:
距離的相關定義和對應下界函數如下所示:
距離的相關定義和對應下界函數如下所示:
卡方散度的相關定義和對應下界函數如下所示:
散度的定義和對應的下界函數如下所示:
軟化 散度的定義和對應的下界函數如下所示:
變分散度極小化
概括了經典 ,其允許近似最小化任何 散度。 主要是利用 散度從樣本數據中去模擬出一個概率模型。 是真實的樣本分布,其目標是去最小化:
是 上的概率密度參數族。假定 表示的是生成器。對于 中隱式的生成器模型,分布 是隨機潛變量 確定變換 的結果。
4.1 梯度匹配特性
給定最佳的 ,則 和 是相等的,其中它們的梯度在此時也是相等的如下所示:
由此可知, 是 非常接近的一個下界。
低維度的生成器
絕大多數 生成器由噪聲源的確定性神經網絡組成。一般情況下噪聲的維數遠低于樣本空間,這意味著給定的經過訓練的生成器的可能生成器輸出集是樣本空間中的低維流形。通常假設自然數據也存在于輸出空間中的低維流形上,但作者認為這種情況不是一定的(比如 ,生成器的輸入維度與輸出維度一樣)。低維生成器生成高維數據分布會有很多問題:
在數據分布下,生成器的輸出集的概率可能為 。
概率為 時,生成器為自然圖像指定的概率密度為 。
數據分布和生成器之間的 散度是發散的。
模型下自然數據的真實對數似然為 。
實際上所有 散度的梯度經常為 。
最優臨界點 幾乎處處是 。
的生成器訓練的足夠好會導致模型崩塌,使得模型生成樣本的多樣性變差。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的深入解读f-散度和f-GAN训练的相关数学性质的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有哪些美食能让人吃一次就记一辈子?
- 下一篇: 如何在家中制作美味的烤鸡爪?