Deep learning From Image to Sequence
本文筆記旨在概括地講deep learning的經典應用。內容太大,分三塊。
---------------------------------------------------------------------------------------------
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ???Content
1. 回顧 deep learning在圖像上的經典應用?
? ? 1.1 Autoencoder
? ? 1.2 MLP
? ? 1.3 CNN<詳細的見上一篇CNN>
2.?deep learning處理語音等時序信號
? ? 2.1 對什么時序信號解決什么問題
? ? 2.2 準備知識
? ??? ? 2.2.1 Hidden Markov Model(HMM)
? ??? ? 2.2.2?GMM-HMM for Speech Recognition
? ??? ? 2.2.3?Restricted Boltzmann Machine(RBM)
3. ?DBN 和 RNN 在語音上的應用?
? ? 3.1 DBN
? ??? ? 3.1.1 DBN架構
? ??? ? 3.1.2 DBN-DNN for Speech Recognition
? ? 3.2 RNN
? ??? ? 3.2.1 RNN種類
? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction
---------------------------------------------------------------------------------------------
1. 回顧 deep learning處理圖像等非時序信號 <詳細的見上一篇CNN>
----------------------------------------------
1.1 AutoEncoder(unsupervised)
擴展:Stack AutoEncoder(可以變成supervised),見Andrew Ng的UFLDL教程,我就不貼圖了
----------------------------------------------
1.2 MLP
MLP(ANN)是最naive的神網分類器。一個hidden層,連兩端nonlinear function,output輸出為f(x),softmax做分類。
----------------------------------------------
1.3 Convolutional Neural Network
特點:1. 非全連接,2、共享權重
做法:1. 卷積 2. 降采樣(pooling)
具體見上一篇CNN
---------------------------------------------------------------------------------------------
2. deep learning處理語音等時序信號
2.1 對什么時序信號解決什么問題:
handwriting recognition
speech recognition
music composition
protein analysis
stock market prediction
...
2.2 準備知識:
----------------------------------------------
? ? ? ?2.2.1 Hidden Markov Model(HMM) - 帶unobserved(這就是所謂hidden)states的隨機過程,表示輸入語音信號和hidden state(因素)的模型:
<figure from wiki>
訓練HMM模型:給定一個時序y1...yT, 用MLE(typically EM implemented,具體見這篇第三部分training) 估計參數;
----------------------------------------------
? ? ?? ? ? ?2.2.2?GMM-HMM for Speech Recognition?(較大,單獨放在一篇blog里了)
----------------------------------------------
? ? ?? ? ? ?2.2.3?Restricted Boltzmann Machine
? ? ? ? ? ?講RBM之前要先講一下生成模型……<How to build a single layer of feature detector>
? ? ? ? ? ?大體分為兩類——directed model & undirected model:
? ? ? ? ? ? ?1.directed model?(e.g. GMM 從離散分布求latent狀態)
???? ? ? ? ? ? ???? 根據先驗分布選擇latent variable的狀態
??? ? ? ? ? ? ????? 給定latent states,根據條件分布求observable variables的狀態
? ? ? ? ? ? ?2.undirected model
???? ? ? ? ? ? ???? 只用參數W,通過能量函數定義v(visible)和h(hidden latent variables)的聯合概率
? ? ? ? ? ? ?根據”explaining away”,如果latent和visible變量有著非線性關系,directed model很難推斷出latent variable的狀態;但在undirected model中,只要latent變量間沒有變項鏈就可以輕松推斷。
PS:?explaining away是什么?
state的先驗相互獨立,后驗也相互獨立,
下面再講RBM。
? ? ?? ? ??RBM 是馬爾科夫隨機場(MRF)的一種。不同之處:
? ? ?? ? ??1. RBM是一個雙向連接圖(bipartite connectivity graph)
? ? ?? ? ??2. RBM在不同unit之間不共享權重
? ? ?? ? ??3. 有一部分變量是unobserved
RBM對能量函數E(v,h)的定義:
RBM的參數構成:W(weight), bias_h, bias_v
已知聯合分布P(v,h) ,?可通過Gibbs采樣邊緣分布分別得到h,v,根據Gradient of NLL進行梯度下降學習到參數。
RBM的訓練目標是:最大化p(v=visible)。(visible=真實的visible數據)
RBM實際訓練過程中,對每個training_batch:
? ? ? ?contrastive divergence 采樣k次(gibbs CD-k)
? ? ? ?根據cost function進行update :?, 即?cost = T.mean(self.free_energy(self.input)) - T.mean(self.free_energy(chain_end))
上面講的RBM都是v,h = 0/1的,那怎么處理real-value的呢?
ANS:用Gaussian-Bernoulli RBM (GRBM)。對上面經典RBM改動不大,只需要改energy function & conditional prob:
3. ?DBN 和 RNN 在語音上的應用?
3.1 DBN
? ??? ? 3.1.1 DBN架構
流程:
1. pre-train
從左到右來看,由于輸入為real-value,所以第一層為GRBM,訓練W1
GRBM訓練出來的hidden給下一個RBM做input,訓練W2
這個RBM訓練出來的hidden再傳給下一個RBM做input,訓練W3
……(重復)
2. 可以直接把這幾層pre-train好的W疊起來,雙向weight箭頭全改成top-down的,成了一個DBN生成模型
3. 加分類器
可以最后在這個pre-trained網絡頭部加一個softmax分類器,其中每個節點表示HMM中一個狀態,去做有監督的fine-tuning.。
? ??? ? 3.1.2 DBN-DNN for Speech Recognition
如果你仔細看過上一篇GMM-HMM for Speech Recognition就會發現,這個模型和GMM-HMM只差在GMM
即,DNN-HMM用DNN(undirected model)代替了GMM(directed model),這樣的好處是可以解決h,v之間非線性關系映射。
Fig1. GMM-HMM
Fig2. DNN-HMM
? ? 3.2 RNN
? ??? ? 3.2.1 RNN種類
常見的:
1.Fully Recurrent Network
2.Hopfield Network
3.Elman Network (Simple Recurrent networks)
4.Long short term memory network
fig. LSTM
? ??? ? 3.2.2 RNN-RBM for Sequential signal Prediction
見一個RNN例子,RNNRBM(RNN-RBM for music composition 網絡架構及程序解讀)
Reference:?
為了大家看的方便,我推薦從簡了。。。抄了太多圖,不貼出處了大牛們見諒。。不然一堆推薦無從下手滴樣紙
Deep Learning 在語音上的應用DNN經典文章:
1. Hinton, Li Deng, Dong Yu大作:Deep Neural Networks for Acoustic Modeling in Speech Recognition
2. Andrew Ng, NIPS 09, Unsupervised feature learning for audio classi?cation?using convolutional deep belief networks
Deep Learning 在語音上的應用RNN經典文章:
1.?Bengio ICML 2012. RNN+RBM?paper有實現 (下一篇細講)
2.?Schmidhuber JMLR 2002?paper講LSTM經典
3.?The Use of Recurrent Neural Networks in Continuous Speech Recognition,?老文章講RNN比較基礎,但是確實經典
from:?http://blog.csdn.net/abcjennifer/article/details/27170627
總結
以上是生活随笔為你收集整理的Deep learning From Image to Sequence的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Image classification
- 下一篇: 特征提取方法 SIFT,PCA-SIFT