深度学习在语音识别中的声学模型以及语言模型的应用
? ? ? ? ?過去 3 年,深度學(xué)習(xí)在各個(gè)領(lǐng)域取得較大突破,比如計(jì)算機(jī)視覺領(lǐng)域的物體識(shí)別、場(chǎng)景分類,語(yǔ)音分析等,并且其技術(shù)推廣和應(yīng)用的速度超過人們預(yù)期,比如 Google 的廣告系統(tǒng)已經(jīng)開始使用深度學(xué)習(xí)盈利,Twitter 也通過深度學(xué)習(xí)改善App 圖片及視頻內(nèi)容服務(wù)體驗(yàn)。那具體何為深度學(xué)習(xí)呢?深度學(xué)習(xí)是怎么應(yīng)用在上述的各個(gè)領(lǐng)域呢,下面結(jié)合自身在語(yǔ)音識(shí)別的若干年經(jīng)驗(yàn),談?wù)勆疃葘W(xué)習(xí)在語(yǔ)音識(shí)別中的具體應(yīng)用。
0. 背景
? ? ? ? ?“深度學(xué)習(xí)”的概念在上個(gè)世紀(jì)便被提出,但Hinton、Lecun等人在2006年發(fā)表的論文讓“深度學(xué)習(xí)”重新煥發(fā)光彩,并使得相關(guān)的學(xué)術(shù)成果在實(shí)際應(yīng)用中表現(xiàn)良好。它的靈感來自對(duì)人腦神經(jīng)的研究,因此也稱為深度神經(jīng)網(wǎng)絡(luò)“DNN”。這里的“深度”并非指算法有內(nèi)涵,而是指神經(jīng)網(wǎng)絡(luò)層數(shù)多,因此也稱為多層結(jié)構(gòu)學(xué)習(xí)算法(這幾種命名不完全對(duì)等,具體的差別涉及到學(xué)派)。實(shí)際中的“深度神經(jīng)網(wǎng)絡(luò)”算法與大腦神經(jīng)結(jié)構(gòu)差別極大,因此深度神經(jīng)網(wǎng)絡(luò)被稱為端到端的機(jī)器學(xué)習(xí)算法或者多層聯(lián)結(jié)算法或許更好些(聯(lián)結(jié)主義流派的說法)。
? ? ? ? ? ?基于深度神經(jīng)網(wǎng)絡(luò)算法的重大影響工作的出現(xiàn),是在2012年之后。比如Krizhevsky、Hinton等用深度學(xué)習(xí)大幅度提高了圖片分類的準(zhǔn)確率,奠定了圖像分類模型“AlexNet”的地位;Dahl等大幅度提升了語(yǔ)音識(shí)別的準(zhǔn)確率。
? ? ? ? ? ? 聲學(xué)模型以及語(yǔ)言模型就像人的左右大腦一樣,沒有他們,語(yǔ)音識(shí)別系統(tǒng)就是一個(gè)空殼,毫無作用。
1. 深度學(xué)習(xí)與AM
? ? ?1.1 深度學(xué)習(xí)在AM中的應(yīng)用與現(xiàn)狀
? ? ? ? ?傳統(tǒng)基于HMM的hybrid框架,例如:GMM-HMM,CD-DNN-HMM依然是工業(yè)界應(yīng)用的主流技術(shù),并且各種訓(xùn)練算法以及工具都很成熟,例HTK,Kaldi,Sphinx,并且在很多工業(yè)界都有應(yīng)用。
? ? ? ? ?目前學(xué)術(shù)研究的重點(diǎn)逐漸轉(zhuǎn)向End-To-End模型訓(xùn)練。其中比較成熟的訓(xùn)練方法是基于CTC準(zhǔn)則的訓(xùn)練。文獻(xiàn)報(bào)告結(jié)果顯示[21],LSTM-CTC模型識(shí)別準(zhǔn)確度高于HMM-LSTM模型,識(shí)別速度更快。
基于Attention機(jī)制的End-To-End模型訓(xùn)練成為研究熱點(diǎn)[22],也是Google,Microsoft等目前的研究熱點(diǎn)領(lǐng)域。但是目前據(jù)文獻(xiàn)報(bào)告,識(shí)別準(zhǔn)確度差于LSTM-CTC模型。
? ? ? ? ?CNN技術(shù)重新得到重視[19][20],作為End-To-End中特征提取的重要一環(huán)。
? ? 1.2 基于FSMN的AM
? ? ? ? ?FSMN[18],是由科大訊飛提出的一種基于DNN改進(jìn)型網(wǎng)絡(luò)結(jié)構(gòu)。在DNN的隱藏層中引入延時(shí)結(jié)構(gòu),將t-N~t-1時(shí)刻的隱藏層歷史信息作為下一層的輸入,從而引入了語(yǔ)音序列的歷史信息,同時(shí)避免了RNN訓(xùn)練BPTT帶來的問題,如:梯度消逝,計(jì)算復(fù)雜度高等。
圖1 FSMN結(jié)構(gòu)
? ? ? ? ?這種結(jié)構(gòu)的設(shè)計(jì)是來源于Oppenheim的數(shù)字信號(hào)處理的部分[23],用無限長(zhǎng)的脈沖響應(yīng)濾波器(IIR)來模擬近似高階的有限脈沖響應(yīng)濾波器(FIR)。因?yàn)镽NN中的Recurrent層可以看作一階的IIR,它可以精確的被高階的FIR來近似模擬。在這種全連接的結(jié)構(gòu)的基礎(chǔ)上再加上一些記憶單元,就如在FIR中延時(shí)單元一樣,這樣可以在前向計(jì)算的時(shí)候比純粹的RNN更加高效并穩(wěn)定。正因?yàn)樵撚洃泦卧拇嬖?#xff0c;它可以將更長(zhǎng)的上下文信息壓縮為一個(gè)固定長(zhǎng)度的向量,這樣可以使模型能夠?qū)W到更多前后依賴的重要信息。
\
圖2 Recurrent layer 和 IIR
? ? ? ? ?FSMN另外一點(diǎn)創(chuàng)新的地方在于引入了Attention機(jī)制。核心思想在于模仿人類的思考行為,因?yàn)槿祟愒谒伎紗栴}的時(shí)候,一般會(huì)先考慮他經(jīng)歷過的,或者聽過的事,另外聰明的人類也會(huì)根據(jù)已有的經(jīng)驗(yàn)來預(yù)測(cè)未來將要發(fā)生的事,結(jié)合這兩者,作出的決定將更加正確,更加有實(shí)效性。因此在FSMN中,也引入了Lookback以及Lookahead思想,但是兩者對(duì)當(dāng)前的作用大小是不同的,因此需要計(jì)算二者的系數(shù),這個(gè)系數(shù)就稱為Attention Coefficient。具體公式如下:
? ? ? ? ? ? ? ? ?
其中,
, 是Attention函數(shù)的參數(shù),詳細(xì)信息可以參考該論文[18],另外Recurrent的計(jì)算公式如下:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??其中N1和N2分別表示Lookback以及Lookahead的階數(shù),
表示attention系數(shù),可以很清晰的看出,該層所學(xué)習(xí)到的內(nèi)容由歷史以及將來組成。訓(xùn)練的過程,跟大多數(shù)NN一樣,都是SGD準(zhǔn)則,使用mini-batch,同時(shí)用GPU加速,過程不在贅述。
實(shí)驗(yàn)結(jié)果如下表所示:
? ? ? ? ?
表1 FSMN與DNN,LSTM的對(duì)比
其中基線DNN模型是根據(jù)論文[24][25]訓(xùn)練得到的,整體依然采用的CD-DNN-HMM框架。在狀態(tài)對(duì)齊的訓(xùn)練過程中,依然采用標(biāo)準(zhǔn)的GMM-HMM框架,MLE準(zhǔn)則。預(yù)訓(xùn)練依然采用RBM策略。在DNN訓(xùn)練的過程中,依然采用CE準(zhǔn)則,BP更新誤差,網(wǎng)絡(luò)結(jié)構(gòu)是6x2048,輸入特征是FB,每幀123維,上下窗長(zhǎng)為11,DNN1的激活函數(shù)是sigmoid,DNN2采用的是ReLU。
? ? ? ? ?另外LSTM模型是根據(jù)論文[25][26][27]訓(xùn)練得到的,其中cell數(shù)為2048,projection節(jié)點(diǎn)數(shù)為512,輸入依然是123維的FB特征,延遲5幀輸出,BPTT為16,minibatch為64,另外BLSTM是雙向的模型,BLSTM比LSTM多了3個(gè)hidden層,以及2048個(gè)cell,minibatch改為16,其他都一致。
? ? ? ? ?FSMN模型,其中sFSMN表示scalar FSMN,vFSMN表示vectorized FSMN,sFSMN的hidden層數(shù)為6,每層2048個(gè)節(jié)點(diǎn),激活函數(shù)為ReLU,輸入為123維FB特征,上下窗為3,vFSMN中多了lookback以及l(fā)ookahead參數(shù),試驗(yàn)中設(shè)為50。
從實(shí)驗(yàn)結(jié)果來看,vFSMN的結(jié)果最優(yōu),比BLSTM絕對(duì)好0.3個(gè)點(diǎn),另外訓(xùn)練的速度是BLSTM的3倍。
2. 深度學(xué)習(xí)與LM
? ? ?2.1 基于Recurrent Neural Network的LM
? ? ? ? ?在討論RnnLM之前,不得不提現(xiàn)在依然處于統(tǒng)治地位的Ngram模型,Ngram是基于馬爾科夫假設(shè)(Markov Assumption):下一個(gè)詞的出現(xiàn)僅依賴于它前面的一個(gè)或幾個(gè)詞。
假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1)
假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的兩個(gè)詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2)
? ? ? ? 縱觀Ngram的歷史,主要在機(jī)器翻譯,語(yǔ)音識(shí)別,拼寫糾錯(cuò),自動(dòng)文摘等方面應(yīng)用的很廣泛,并取得了很好的效果,可是它本身也有一定的缺陷,比如數(shù)據(jù)稀疏性問題不能很好的解決,折扣平滑不夠魯棒,另外一個(gè)是嚴(yán)格的基于N階的馬爾可夫假設(shè),限制了對(duì)更長(zhǎng)歷史的記憶。
RNN模型是將每個(gè)詞語(yǔ)映射到一個(gè)Compact Contiuous Vector Space里,并且使用Recurrent Connections 將過去更長(zhǎng)時(shí)間的歷史連接起來,從而影響現(xiàn)在的輸出,這樣更貼近實(shí)際。
? ? ? ? RNN的結(jié)構(gòu)一般是3層,輸入層,隱藏層和輸出層,其中輸入與輸出層的維數(shù)是和詞典里詞的個(gè)數(shù)是一致的,隱藏層一般根據(jù)實(shí)際需要,可以設(shè)置為512或1024等,有時(shí)為了加速,還加入了Class層,即根據(jù)輸入的詞語(yǔ)先預(yù)測(cè)該詞所屬的類,然后在預(yù)測(cè)在該類里面的詞的概率大小,這樣可以減少矩陣運(yùn)算。在論文[1][2][3]中還提出了OOS Nodes也是為了減少矩陣運(yùn)算量,加快迭代。具體結(jié)構(gòu)如下圖所示:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
圖3 RNN 結(jié)構(gòu)
? ? ? ? ?另外,在RNN訓(xùn)練的過程中用到了BPTT算法[4],因?yàn)殡[含層經(jīng)過不斷的迭代,保留了N個(gè)隱含層的最新數(shù)據(jù),根據(jù)微分鏈?zhǔn)椒▌t,誤差需要一直傳遞下去 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
圖4 BPTT 迭代
另外誤差準(zhǔn)則,論文[5]中提到的有Cross Entropy
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
Variance Regularisation
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
以及Noise Contrastive Estimation
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ?根據(jù)論文[5]的結(jié)果所示,從ppl以及wer的角度對(duì)比以上三種準(zhǔn)則的效果如下表所示:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
表 2三種準(zhǔn)則在50-best的rescoring的結(jié)果
? ? ? ? ?其中選用的訓(xùn)練集為Fisher和AMI[8],總共大小14M,Rnn輸入層的節(jié)點(diǎn)數(shù)為33K,隱含層的節(jié)點(diǎn)數(shù)為512,輸出層為22K,選取常用詞匯構(gòu)成,BPTT參數(shù)為5,即只往下傳遞5層,總共迭代10次。
另外與傳統(tǒng)的Ngram對(duì)比結(jié)果如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
表3 與ngram對(duì)比的結(jié)果
其中3g,4g是用相同的語(yǔ)料,采用通用的工具srilm來訓(xùn)練的,CRNN是基于Class的RNNLM[6][7]工具訓(xùn)練的,FRNN是采用CUED-RNNLM[5]工具訓(xùn)練的,都是基于CE準(zhǔn)則。從表格中可以看出,FRNN的效果最好。
2.2 基于Long Short Term Memory的LM
? ? ? ? ?從RNN的結(jié)構(gòu)以及訓(xùn)練的過程來看,RNN的確比Ngram看到的歷史更長(zhǎng),利用的信息更多,另外在輸入層與隱含層之間的矩陣通過訓(xùn)練后,每一列可以表示one-hot對(duì)應(yīng)的詞向量,利用詞向量的方式,可以減少數(shù)據(jù)稀疏性的影響,因?yàn)镹gram對(duì)未出現(xiàn)的詞語(yǔ)是用很硬的折扣平滑方式來分配概率的,這樣做存在缺陷。
? ? ? ? ?更加細(xì)致的分析RNN的結(jié)構(gòu)時(shí),會(huì)發(fā)現(xiàn),對(duì)于任意的連續(xù)的輸入,都結(jié)合上一次的歷史,進(jìn)行相同的操作,也就是不管遇到什么樣的詞(高頻的,低頻的,處于不同上下文的),都同樣的學(xué)習(xí)相關(guān)的歷史,而沒有選擇對(duì)它有重要影響的信息進(jìn)行學(xué)習(xí),導(dǎo)致沒有區(qū)分性與側(cè)重點(diǎn),這跟我們生活很像,在生活中,我們并不是對(duì)待所有的事物,花同樣的精力去學(xué)習(xí),肯定是有所側(cè)重,只會(huì)花更大的精力學(xué)習(xí)對(duì)自己有重要影響的事,即選擇性的學(xué)習(xí)。
? ? ? ? ?LSTM[9][13]即是在這樣的思想的驅(qū)動(dòng)下出現(xiàn)的。它比RNN在結(jié)構(gòu)上了多了幾個(gè)門的概念,即輸入門,輸出門,遺忘門,分別控制對(duì)應(yīng)的輸入輸出,以及決定著是否需要遺忘,結(jié)構(gòu)如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
圖5 LSTM 神經(jīng)元結(jié)構(gòu)圖
與RNN結(jié)構(gòu)對(duì)比,即是將原始hidden層替換為L(zhǎng)STM層,整體結(jié)構(gòu)如下圖所示:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
圖6 基于LSTM的RNN的整體結(jié)構(gòu)
? ? ? ? ?由于多了幾個(gè)門,在訓(xùn)練階段即多了幾個(gè)矩陣相乘的運(yùn)輸量,而且是每次迭代都會(huì)產(chǎn)生這種運(yùn)算量,跟上面的RNN訓(xùn)練過程類似,但是在速度上慢了很多。
訓(xùn)練過程中,權(quán)重的更新一般是按如下的公式:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
F是目標(biāo)方程,一般情況下是根據(jù)最大似然準(zhǔn)則來設(shè)定的,
是學(xué)習(xí)率,可以在訓(xùn)練的過程中控制學(xué)習(xí)的速率,從而控制模型收斂的速率。誤差反向傳播依然用的是BPTT[10][11][12]的算法,以及SGD的策略,與RNN一致。在這里面學(xué)習(xí)率調(diào)節(jié),直接影響著模型的優(yōu)劣,以及模型是否收斂等,根據(jù)論文[9]所示,在訓(xùn)練開始階段,可以設(shè)置大一些,經(jīng)過幾輪迭代,可以根據(jù)在驗(yàn)證集上的ppl的變化幅度,來相應(yīng)的降低學(xué)習(xí)率[14]。? ? ? ?NN語(yǔ)言模型一般是用于Lattice Decoding和Rescoring,一般情況下,Lattice結(jié)構(gòu)是由前綴樹構(gòu)成,在Lattice上每個(gè)Node的輸出都是唯一的,才可以采用NN語(yǔ)言模型解碼,另外結(jié)合Beam Pruning,以及Acoustic LM look ahead等算法,詳細(xì)內(nèi)容可以參考論文[9][15][16][17]
下表是論文[9]中實(shí)驗(yàn)用到的數(shù)據(jù)集:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
表4 實(shí)驗(yàn)用到的數(shù)據(jù)集
與Kneser-Ney-Smothed 5gram模型,以及rnnlm 工具訓(xùn)練出的模型在Dev以及Test上的效果對(duì)比如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
表5 各個(gè)模型下的ppl的對(duì)比
其中LSTM 的Hidden層節(jié)點(diǎn)數(shù)是300,Class層為1000,整個(gè)詞典大小為200K,從結(jié)果中,可以看出,LSTM模型的效果要比RNN[17]好10個(gè)點(diǎn)以上。
? ? ? ?最后由于本人水平有限,在理解剖析論文細(xì)節(jié)時(shí),難免有不恰當(dāng)之處,望各位專家多多指正。
3. 參考文獻(xiàn)
[1] J. Park, X. Liu, M.J.F. Gales, and P.C. Woodland, “Improved neural network based language modelling and adaptation”,Proc. Interspeech, 2010.
[2] H. Le, I. Oparin, A. Allauzen, J. Gauvain, and F. Yvon, “Struc-tured output layer neural network language models for speech recognition”, IEEE Trans Audio, Speech, and Language Pro-cessing, vol. 21, no. 1, pp. 197–206, 2013.
[3] X. Liu, Y. Wang, X. Chen, M.J.F. Gales, and P.C. Woodland,“Efficient lattice rescoring using recurrent neural network lan-guage models”, Proc. ICASSP, 2014.
[4] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, Learningrepresentations by back-propagating errors, MIT Press, Cam-bridge, MA, USA, 1988.
[5] T. Mikolov, S. Kombrink, L. Burget, J.H. Cernocky, and S.Khudanpur, “Cued-rnnlm—an open-source toolkit for efficient traning and evaluation of recurrent neural network language models”, Proc. ICASSP, 2011.
[6] T. Mikolov, S. Kombrink, A. Deoras, L. Burget, and J. Cer-nocky, “Recurrent neural network language modeling toolkit”,Proc. ASRU Workshop, 2011.
[7] X. Chen, Y. Wang, X. Liu, M.J.F. Gales, and P.C. Woodland,“Efficient training of recurrent neural network language mod-els using spliced sentence bunch”, Proc. Interspeech, 2014.
[8] I. McCowan, J. Carletta, W. Kraaij, S. Ashby, S. Bourban, M.Flynn, M. Guillemot, T. Hain, J. Kadlec, V. Karaiskos, M. Kro-nenthal, G. Lathoud, M. Lincoln, A. Lisowska, W. Post, D.Reidsma, and P. Wellner, “The AMI meeting corpus: A pre-announcement,” Machine learning for multimodal interaction,pp. 28–39. Springer, 2006.
[9] Martin Sundermeyer, Ralf Schl ?uter, Hermann Ney,“rwthlm – The RWTH Aachen University Neural Network Language Modeling Toolkit”, Proc. ICASSP, 2016.
[10] Rumelhart, D. E., Hinton, G. E., Williams, R. J., “Learning In-ternal Representations by Error Propagation”, in: McClelland,J. L., Rumelhart, D. E., PDP Research Group, The, “Parallel Dis-tributed Processing”, The MIT Press, 1986, pp. 318–362.
[11] Werbos, Paul J., “Backpropagation Through Time: What It Doesand How to Do It”, Proceedings of the IEEE 1990, Vol. 78, No. 10,pp.1550–1560
[12] Williams, R. J., Zipser, D., “Gradient-Based Learning Algorithmsfor Recurrent Networks and Their Computational Complexity”,in: Chauvain, Y., Rumelhart, D. E., “Backpropagation: The-ory, Architectures, and Applications”, Psychology Press, 1995,pp. 433–486
[13] Graves, A., Mohamed, G., Hinton, G., “Speech Recognition with Deep Recurrent Neural Networks”, Proc. of ICASSP 2013, pp.6645–6649
[14] Hinton, G., “Neural Networks for Machine Learning”, Online Course at coursera.org, Lecture 6, 2012
[15] Auli, M., Galley, M., Quirk, C., and Zweig, G., “Joint Lan-guage and Translation Modeling with Recurrent Neural Net-works”, Proc. of EMNLP 2013, pp. 1044–1054
[16] Sundermeyer, M., T ?uske, Z., Schl ?uter, R., and Ney, H., “Lattice Decoding and Rescoring with Long-Span Neural Network Lan-guage Models”, Interspeech 2014, accepted for publication
[17] Mikolov, T., Deoras, A., Kombrink, S., Burget, L., and Cˇernock ?y,J. H., “Empirical Evaluation and Combination of Advanced Lan-guage Modeling Techniques”, Proc. of Interspeech 2011, pp. 605–608
[18] Shiliang Zhang, Cong Liu, Hui Jiang, Si Wei, Lirong Dai, Yu Hu,” Feedforward Sequential Memory Networks: A New Structure to Learn Long-term Dependency”, arXiv:1512.08301v2 [cs.NE] 5 Jan 2016
[19]F. Seide, G. Li, and D. Yu, “Conversational speech transcription using context-dependent deep neural networks,” in Proc. Interspeech,2011.
[20]Kanishka Rao, etc., Flat Start Training of CD-CTC-SMBR LSTM RNN Acoustic Models, ICASSP 2016
[21]Tara Sainath,etc.,Convolutional, Long Short-Term Memory, Fully Connected Deep Neural Networks,ICASSP 2015
[22]Bahdanau, D., Cho, K., and Bengio, Y. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
[23]Oppenheim, A. V., Schafer, R. W., Buck, J. R., and et al. Discrete-time signal processing, volume 2. Prentice-hall Englewood Cliffs, 1989.
[24]Dahl, G.E., Yu, D., Deng, L., and Acero, A. Contextdependent pre-trained deep neural networks for largevocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 20(1):30–42, 2012.
[25] Hochreiter, S. and Schmidhuber, J. Long short-term memory. Neural computation, 9(8):1735–1780, 1997.
[26] Sak, H., Senior, A., and Beaufays, F. Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition. arXiv:1402.1128, 2014.
[27]Sainath, T.N., Mohamed, A., Kingsbury, B., and Ramabhadran, B. Deep convolutional neural networks for LVCSR. In Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 8614–8618, 2013.
總結(jié)
以上是生活随笔為你收集整理的深度学习在语音识别中的声学模型以及语言模型的应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 设置char变量指定位为0或1
- 下一篇: 搭建MongoDB分片集群