deepspeech 2 (百度 2016 论文解读 )
論文:http://proceedings.mlr.press/v48/amodei16.pdf
 題目:Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin
摘要
我們表明,可以使用端到端的深度學習方法來識別英語或普通話(兩種截然不同的語言)。 由于它用神經網絡代替了人工工程組件的整個流水線,因此端到端學習使我們能夠處理各種語音,包括嘈雜的環境,口音和不同的語言。 我們方法的關鍵是我們對HPC技術的應用,使以前需要數周才能完成的實驗現在可以在數天內運行。 這使我們能夠更快地進行迭代,以識別出卓越的架構和算法。 結果,在某些情況下,以標準數據集為基準,我們的系統在人工轉錄方面具有競爭力。 最后,通過在數據中心中使用稱為批處理分配技術和GPU的技術,我們證明了我們的系統可以廉價地在線部署,在為大規模用戶提供服務時提供了低延遲。
1.介紹
數十年的手工工程領域知識已進入當前最先進的自動語音識別(ASR)流程。 一個簡單但功能強大的替代解決方案是端到端地訓練此類ASR模型,使用深度學習將單個模塊替換大多數模塊,如(Hannun et al。,2014a)和(Graves&Jaitly,2014b)。 這種“端到端”的培訓愿景通過消除通常用于構建最新ASR模型的自舉,對齊/聚類/ HMM機械所需的工程設計,簡化了培訓過程。 在這樣的基于端到端深度學習的系統上,我們可以采用各種深度學習技術:捕獲大型訓練集,使用高性能計算訓練大型模型以及有條不紊地探索神經網絡架構的空間。
 本文詳細介紹了我們對模
總結
以上是生活随笔為你收集整理的deepspeech 2 (百度 2016 论文解读 )的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 微信登录分享...报错...MicroM
 - 下一篇: Ubuntu18.04更换开机登录界面壁