ICLR 2020:从去噪自编码器到生成模型
作者丨蘇劍林
單位丨追一科技
研究方向丨NLP,神經網絡
個人主頁丨kexue.fm
在我看來,幾大頂會之中,ICLR 的論文通常是最有意思的,因為它們的選題和風格基本上都比較輕松活潑、天馬行空,讓人有腦洞大開之感。所以,ICLR 2020 的投稿論文列表出來之后,我也抽時間粗略過了一下這些論文,確實發現了不少有意思的工作。?
其中,我發現了兩篇利用去噪自編碼器的思想做生成模型的論文,分別是 Learning Generative Models using Denoising Density Estimators?[1] 和 Annealed Denoising Score Matching: Learning Energy-Based Models in High-Dimensional Spaces?[2]。由于常規做生成模型的思路我基本都有所了解,所以這種“別具一格”的思路就引起了我的興趣。細讀之下,發現兩者的出發點是一致的,但是具體做法又有所不同,最終的落腳點又是一樣的,頗有“一題多解”的美妙,遂將這兩篇論文放在一起,對比分析一翻。
去噪自編碼
兩篇論文的根本出發點都是去噪自編碼器,更準確地說,它利用了去噪自編碼器的最優解。
基本結果:若,并且 x ~ p(x) , ε ~ u(ε),這里,那么:
其中=[p?u](x)=∫p(x?ε)u(ε)dε=∫p(ε)u(x?ε)dε 指的是分布 p(x) 和 u(ε) 的卷積運算,具體含義是 x+ε 的概率密度,換言之,如果 p(x) 代表真實圖片的分布,那么如果我們能實現從中采樣,那么得到的是一批帶有高斯噪聲的真實圖片。
結果 (1) 也就是說加性高斯噪聲的最優去噪自編碼器是能顯式地計算出來,并且結果跟分布的梯度有關。這個結果非常有意思,也非常深刻,值得我們多加回味。比如,式 (1) 告訴我們 r(x)?x 實際上就是對(帶噪聲的)真實分布梯度的估計,而有了真實分布的梯度,其實可以做很多事情,尤其是生成模型相關的事情。
證明:其實 (1) 的證明并不困難,變分目標得到:
所以 ∫p(x)u(y?x)(r(y)?x)dx=0,即:
代入表達式:
即得:
曲徑通幽處
我們首先來介紹一下 Learning Generative Models using Denoising Density Estimators?[1] 的思路。按照 GAN 和 VAE 的通常習慣,我們是希望訓練一個映射 x=G(z),使得從先驗分布 q(z) 中采樣出來的 z 都能被映射為一個真實樣本,用概率的話說,那就是希望拉近 p(x) 和下述的 q(x) 的距離:
為此,GAN 常用的優化目標是最小化 KL(q(x)∥p(x)),這個觀點可以參考《用變分推斷統一理解生成模型和能量視角下的GAN模型(二):GAN=“分析”+“采樣”。但是,由于前面估計的是的梯度,我們可以換個目標:最小化。
為了,我們可以進行演算:
這個目標需要我們能得到和的估計。我們可以用神經網絡構建兩個的模型和,然后分別去最小化:
也就是用和作為去噪自編碼器,根據結果 (1),我們就有:
也就是說在相差一個常數的情況下,正比于,也正比于,而常數不影響優化,所以我們可以將和替換到 (6) 里邊去,得到:
這就得到了一個生成模型的流程:
選定先驗分布 q(z),初始化,事先求好。循環執行下面的 3 步直到收斂:
1. 選一批z~q(z),選一批噪聲,合成一批帶噪聲的假樣本;
2. 利用這批帶噪聲的假樣本訓練;
3. 固定 Ep, Eq,用梯度下降根據 (9) 更新若干步。
這篇論文的實驗比較簡單,只做了 mnist 和 fashion mnist 的實驗,證明了它的可行性:
▲?fashion mnist的生成效果
峰回路轉間
另外一篇論文 Annealed Denoising Score Matching: Learning Energy-Based Models in High-Dimensional Spaces [2] 就更粗暴直接了,它相當于去噪自編碼器跟能量視角下的 GAN 模型(三):生成模型=能量模型 [3] 的結合。
因為 (1) 已經幫我們得到了了,也就是(當然這篇論文的實際做法也不是直接用神經網絡擬合 r(x),而是像 (7) 一樣用神經網絡擬合一個標量函數的,但這不影響思想),那么我們只需要實現從采樣就完成任務了。當然采樣出來的圖片是有噪聲的,我們還需要它采樣出來的結果傳入 r(x) 去噪一下,即:
問題是怎么從采樣呢?Langevin 方程!設,那么下述 Langevin 方程:
當 ε→0 且 t→∞ 時,序列所服從的分布就是從,換句話說,是該 Langevin 方程的靜態分布。?
于是,從這個過程,就被 Annealed Denoising Score Matching: Learning Energy-Based Models in High-Dimensional Spaces 用這么一種粗暴直接(但我覺得不優雅)的方法解決了,所以訓練完去噪自編碼后,就自動地得到了一個生成模型了。
總的過程是:
1. 訓練去噪自編碼器 r(x),得到;
2. 用迭代過程 (10) 采樣,采樣結果是一批帶噪聲的真實樣本;
3. 將第 2 步的采樣結果傳入 r(x) 去噪,得到無噪聲的樣本。
當然,論文還有很多細節,論文的核心技巧是用了退火技巧來穩定訓練過程,提高生成質量,但筆者對這些并不是很感興趣,因為我只是想學習一些新奇的生成模型思想,拓寬視野。不過不得不說,雖然做法有點粗暴,這篇論文的生成效果還是有一定的競爭力的,在 fashion mnist、CelebA、cifar10 都有相當不錯的生成效果:
▲?fashion mnist、CelebA、cifar10上的生成效果
曲終人散時
本文介紹了投稿 ICLR 2020 的兩篇類似的論文,都是利用去噪自編碼器來做生成模型的,因為之前我沒了解過相關思路,所以就饒有興致對比閱讀了一番。?
且不說生成效果如何,我覺得它們都是頗具啟發性的,能引起我的一些思考(不僅是 CV,還包括 NLP 方面的)。比如 Bert 的 MLM 預訓練方式本質上也是一個去噪自編碼器,那有沒有類似 (1) 的結果?或者反過來,類似 (1) 的結果能不能啟發我們構造一些新的預訓練任務,又或者能不能借此說清楚 pretrain + finetune 這種流程的本質原理?
相關鏈接
[1]?https://openreview.net/forum?id=Skl1HCNKDr
[2]?https://openreview.net/forum?id=HJeFmkBtvB
[3]?https://kexue.fm/archives/6612
點擊以下標題查看作者其他文章:?
當Bert遇上Keras:這可能是Bert最簡單的打開姿勢
玩轉Keras之Seq2Seq自動生成標題 | 附開源代碼
一文讀懂「Attention is All You Need」| 附代碼實現
基于CNN的閱讀理解式問答模型:DGCNN
基于DGCNN和概率圖的輕量級信息抽取模型
ICLR 2019最佳論文 | 用有序神經元表達層次結構
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看作者博客
總結
以上是生活随笔為你收集整理的ICLR 2020:从去噪自编码器到生成模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 赌博属于政治犯罪吗
- 下一篇: 国家保守国保守国家秘密是什么的一项基本义