#论文 《Towards Binary-Valued Gates for Robust LSTM Training》
前兩周就看到這篇論文的微信號文章介紹了,今天有空拿出來看一下,梳理一下思想。
這個論文主要解決的是在LSTM中,發(fā)現(xiàn)記憶門和遺忘門的值的分布不夠顯著,和LSTM設(shè)計思想中想讓門表示記憶或者遺忘的意思不太一致,所以論文作者提出了用一種方法(Gumbel- Softmax estimator)來對門中的閾值進行改進,從而讓閾值更加顯著的趨向0或者1,近似二值化。這樣做有幾個好處:
和設(shè)計遺忘門和記憶門的初衷更加符合,讓記憶的就記住,遺忘的就忘掉。讓這些門開就是開,關(guān)就是關(guān),而不是所有門都模模糊糊的在中間值附近游蕩。
0-1化的模型參數(shù),更容易壓縮。
泛化能力更強。
作者驗證了門的輸出對于輸入值不敏感,可以通過low-rank approximation and low-precision approximation對數(shù)據(jù)進行壓縮,壓縮后得到的模型的性能沒有下降,反而更加魯棒和更有泛化性。
下面是直觀的表示,是否二值化前后的門中的值的數(shù)據(jù)分布對比,可以看出,確實更加顯著的向兩端分化了。
?
?
最主要要學習的思想,還是驗證假設(shè)的思想。在LSTM中,對遺忘門和記憶門的假設(shè),去真正看下門內(nèi)的值的分布,從而去探究模型內(nèi)部是否有問題,然后才想辦法去糾正這個問題,查看是否會有提升。
?
?
總結(jié)
以上是生活随笔為你收集整理的#论文 《Towards Binary-Valued Gates for Robust LSTM Training》的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: #论文 《Deep Residual L
- 下一篇: softmax函数为什么叫softmax