《Improving speech recognition by revising gated recurrent units》
作者:Mirco Ravanelli , Philemon Brakel , Maurizio Omologo ?, Yoshua Bengio?
來源:Interspeech 2017
摘要部分:
? ? ? ? 本文通過進一步改進GRU并提出一種更適合語音識別的簡化架構。 工作分為兩部分,?首先,建議在GRU設計中移除復位門,從而實現更高效的單門架構。 其次,建議使用ReLU激活函數替換狀態更新方程中的tanh函數。 結果表明,與標準GRU相比,改進的架構將每個epoch的訓練時間縮短了30%以上,并且始終提高了在不同任務、輸入特征和噪聲條件下的識別性能。
補充:LSTM有三個門,遺忘門,輸入門和輸出們。GRU(2014年提出),LSTM的著名變種,將遺忘門和輸入門合并成更新門(update?gate),另一個門為reset gate。更新門用于控制前一時刻的狀態信息被傳入到當前狀態中的程度,更新門的值越大說明前一時刻的狀態信息傳入更多。reset gate用于控制忽略前一時刻的狀態信息的程度,值越小說明忽略的越多。GRU參數更少,擬合能力較弱,適合小規模數據集,LSTM參數多,擬合能力強,適合大規模復雜度高的數據。以下是GRU的的結構定義公式:
引言部分:
? ? ? ? 啟發:在手寫數字識別和情感分類任務中,去掉reset gate的GRU(minimal GRU,M-GRU)取得了與標準GRU相當的性能。?
2.1 移除reset gate
? ? ? ? 事實上,語音信號是一個變化相當緩慢的序列(通常每10ms計算一次),過去的歷史信息實際上總是有用的。 即使存在強烈的不連續性,例如在元音和摩擦音之間的邊界處,完全重置上一個狀態的信息也是有負面作用的。 另一方面,記憶語音特征是有幫助的,因為一些音素轉換比其他因素轉換更有可能。此外,認為在處理語音序列時可能會發生重置門和更新門激活中的某種冗余。 例如,當需要更加重視當前信息時,GRU模型可以設置小的r?t值(reset gate,忽略掉更多歷史信息),?通過設置較小的z?t值(update gate,獲取更少的歷史信息),僅使用更新門也可以實現類似的效果。 后者的影響傾向于增加候選狀態delta h?t的權重,正如所希望的那樣,它更多地依賴于當前的輸入和更近的歷史。 類似地,可以將高值分配給r t或z t,以便更加重視過去的狀態。 該冗余也在圖1中突出顯示,其中對于在TIMIT上訓練的GRU,可以容易地理解更新和重置門的平均激活中的時間相關性。
目的:減少參數,提高計算效率。
2.2 使用ReLU激活函數
tanh屬于飽和激活函數(軟飽和:當x趨近于無窮的時候,導數趨近于0,造成梯度消失,并且造成訓練緩慢),而ReLU在x小于0時屬于硬飽和,梯度為0;當x大于0的時候,不存在飽和問題,梯度為常數,可以保持梯度不變,從而緩解梯度消失的問題。但是由于在長時間序列中應用無界ReLU函數產生的數值不穩定性,因此采用基于ReLU激活的神經元在過去對RNN來說并不常見。 盡管如此,最近的一些研究表明ReLU激活的?RNN可以通過適當的正交初始化進行有效訓練。GRU修改為:
稱為M-reluGRU。
2.3 batch normalization
15年提出,(“Batch normalization: Accelerating deep network training by reducing internal covariate shift,”)用于處理internal covariate shift(內部變量偏移)問題,通過對每個訓練mini-batch歸一化每個層預激活的均值和方差來解決。 這種技術對于改善系統性能和加速訓練過程都是至關重要的。 批歸一化可以以不同方式應用于RNN。 在[33]中,作者建議僅將其應用于前饋連接,而在[34]中,將歸一化步驟擴展到循環連接,使用每個時間步的單獨統計。在本文工作中,嘗試了兩種方法,并且觀察到它們之間具有可比性。 還注意到,將所提出的模型與批歸一化耦合有助于避免在處理應用于長時間序列的ReLU RNN時經常出現的數值問題。 實際上,批歸一化重新調整了神經元預激活,天然的限制了ReLU神經元的數值。
補充:傳統機器學習假設訓練集和測試集是獨立同分布的,即q0(x)=q1(x),即訓練集中樣本點的概率密度是等于測試集中樣本點的概率密度的。所以可以推出訓練集上的最優參數依然可以保證在測試集上性能最優。但現實當中這個假設往往不成立,伴隨新數據產生,老數據會過時,當q0(x)不再等于q1(x)時,就被稱作covariate shift。
3. 實驗部分:
3.1 語料庫和任務。
? ? ? ? 為了準確評估所提出的網絡結構,在不同的數據集、任務、環境條件下進行了實驗。
訓練集:TIMIT,WSJ;測試集使用DIRHA-English,驗證集包括6個說話人的310個WSJ句子。
3.2 網絡結構:
? ? ? ? 優化網絡結構的技術和方法都使用了近年來發表的方法和技術。
正則化技術:recurrent dropout,sharing the same dropout mask across all the time steps。
? ? ? ? 來源:“RNNDROP: A novel dropout for RNNS in ASR,”2015;
歸一化技術:Batch normalization,
? ? ? ? 來源:G. Hinton, “A simple way to initialize recurrent networks of recti?ed linear units,” 2015
初始化技術:前饋連接的初始化采用Glorot initialization,
? ? ? ? 來源:Y. Bengio, “Understanding the dif?culty of training deep feedforward neural networks,”2010,
? ? ? ? 遞歸權重初始化采用orthogonal initialization,
? ? ? ? 來源:G. Hinton, “A simple way to initialize recurrent networks of recti?ed linear units,” 2015
其它參數:gain factor γ of batch normalization was initialized to γ = 0.1 and the shift parameter β was initialized to 0
? ? ? ? 來源:Y. Bengio, “Batch-normalized joint training for dnn-based distant speech recogni-tion,” in Proc. of SLT, 2016.
優化器:Adam
? ? ? ? 沒有使用梯度截斷,允許網絡學習任意長度的時間依賴,對齊結果使用Kaldi s5的方法生成。特征使用39維MFCC和40維fbank特征,使用fMLLR方法進行SAT,幀長25ms,幀移10ms。大概做了25組實驗,確定了初始學習率為0.0013,dropout factor為0.2,
4. 實驗結果:
4.1 TIMIT結果:(NVIDIA K40 GPU,大概在5500刀)
4.2?DIRHA English WSJ結果:
結論:
未來會在更大的數據集上實驗,比如switchboard or LibriSpeech,以及在CTC及attention-based models上測試。
?
總結
以上是生活随笔為你收集整理的《Improving speech recognition by revising gated recurrent units》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 头牌知产介绍喷雾机商标转让类别属于第几类
- 下一篇: MyBatis框架下Service层引入