语音识别发展史与入门书籍简介
概述
雖然現在的語音識別中,DL已經應用的非常廣泛了,但是語音識別終究還是有一些領域知識的,將之歸類為DL或者ML,似乎都不妥當。特形成本系列文章,用以描述automatic speech recognition的領域知識和傳統方法。
說起來還是要感謝DL,不然按照傳統的行業劃分,幾乎不會有人同時研究CV和ASR。DL的出現,實際上大大降低了算法的領域遷移成本,領域知識的重要性相對下降了。
歷史
早在電子計算機出現之前,人們就有了讓機器識別語音的夢想。1920年生產的“Radio Rex”玩具狗可能是世界上最早的語音識別器,當有人喊“Rex”的時候,這只狗能夠從底座上彈出來。
但實際上它所用到的技術并不是真正的語音識別,而是通過一個彈簧,這個彈簧在接收到500赫茲的聲音時會自動釋放,而500赫茲恰好是人們喊出“Rex”中元音的第一個共振峰。
學校
SR領域最牛的高校主要是美國的CMU、Johns Hopkins University、英國的Cambridge University和日本的東京大學。
書籍
《Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition》,Daniel Jurafsky & James H. Martin著。
Daniel Jurafsky,1962年生,UCB本科(1983)+博士(1992)。斯坦福大學教授。?
個人主頁:?
https://web.stanford.edu/~jurafsky/
James H. Martin,哥倫比亞大學本科+UCB博士。University of Colorado Boulder教授。?
個人主頁:?
http://www.cs.colorado.edu/~martin/
這本書比較老了(1999年),但畢竟是本1000頁左右的書,傳統方法該說的基本都說了。主要問題在于NLP和語義學的內容較多,相對來說ASR的內容就少了些。
這本書在2008年出了第2版(改動較小),如今第3版也在醞釀中,草稿可在如下網頁獲得:
https://web.stanford.edu/~jurafsky/slp3/
新版大幅增加了深度學習的內容。
《Spoken Language Processing-A Guide to Theory, Algorithm and System Development》,黃學東等著。
這本書基本上是ASR傳統方法的大全了,無論理論還是工程實踐都有相當大的篇幅,但也有些老了(2001年)。
《解析深度學習:語音識別實踐》,俞棟、鄧力著。
這本書算是中文寫的比較好的教程了,而且DL的篇幅很大,內容非常新。(2016年)
教程
http://tts.speech.cs.cmu.edu/courses/11492/schedule.html
Speech Processing。CMU的這個教程主要包含ASR(Automatic Speech Recognition)、TTS(Text To Speech)和SDS(Spoken Dialog Systems)等三方面的內容。
Alan W Black,蘇格蘭計算機科學家。Coventry University本科(1984)+University of Edinburgh碩博(1984,1993)。CMU教授。語音處理專家。?
個人主頁:?
http://www.cs.cmu.edu/~awb/?
他的主頁上有好多Speech、NLP方面的教程。他本人長得太像Java之父James Gosling了。
http://web.stanford.edu/class/cs224s/index.html
CS224S / LINGUIST285 - Spoken Language Processing。Stanford的教程相對比較新,DL涉及的比較多。
http://www.inf.ed.ac.uk/teaching/courses/asr/index.html
Automatic Speech Recognition。這個課程至少從2012年就開始了,每年都有更新。
http://speech.ee.ntu.edu.tw/DSP2018Spring/
國立臺灣大學李琳山教授的課程。
李琳山,國立臺灣大學本科(1974)+Stanford博士(1977)。國立臺灣大學教授。
http://www.cs.cmu.edu/afs/cs/user/bhiksha/WWW/courses/11-756.asr/spring2014/
Theory and practice of speech recognition systems。CMU的Bhiksha Raj教授的課程,只有ASR的內容。
順便說一句,Bhiksha Raj的主頁上還有好多其他課程。
https://cs.nyu.edu/~eugenew/asr13/
這是MIT博士Eugene Weinstein在NYU當助教的時候(2013年)開的課程。
http://berlin.csie.ntnu.edu.tw/Courses/Speech%20Processing/Speech%20Processing_Main_2016S.htm
Speech Processing。國立臺灣師范大學的陳柏琳教授的課程。陳教授教學多年,主頁上還有好多其他課程。
https://www.isip.piconepress.com/courses/msstate/ece_8463/lectures/current/index.html
Mississippi State University:ECE 8463: fundamentals of speech recognition
https://www.isip.piconepress.com/courses/msstate/ece_7000_speech/index.html
ECE 8000: special topics in speech recognition
https://www.isip.piconepress.com/courses/msstate/ece_8990_info/index.html
ECE 8990: Information Theory。這門課偏重數學理論,包括Entropy、Markov Processes、Kolmogorov Complexity等內容,適合用于補數學基礎。
http://courses.cs.tamu.edu/rgutier/csce630_f14/
CSCE 630: Speech Processing
http://courses.cs.tamu.edu/rgutier/cpsc689_s07/
CPSC 689-604: Special topics in Speech and Face Recognition
https://mp.weixin.qq.com/s/oaOkla9gnUKr2C6PSjE2BA
語音識別中的End-to-End模型教程(附178頁PDF全文下載)
https://mp.weixin.qq.com/s/i7JaDoU2L7uRYsw8FTR3jA
語音研究進階指南
blog
http://www.cnblogs.com/welen/
https://blog.csdn.net/weiqiwu1986
上面兩個都是welen的blog,而且內容貌似還不重復。。。
http://blog.csdn.net/xmdxcsj
一個語音識別的blog
https://blog.csdn.net/shichaog
一個語音識別+Kaldi的blog
https://blog.csdn.net/quhediegooo/
一個語音識別的blog
https://blog.csdn.net/dearwind153/article/category/6506891
這哥們的blog很雜,這是語音相關的專欄
http://www.cnblogs.com/JarvanWang/
一個語音識別+Kaldi的blog
https://www.zhihu.com/question/65516424
語音識別kaldi該如何學習?
http://vsooda.github.io/archive/
一個語音識別+DL的blog
https://zhuanlan.zhihu.com/codingmath
一個語音識別的blog
https://blog.csdn.net/jojozhangju
一個Kaldi+聲源定位的blog
項目
https://en.wikipedia.org/wiki/List_of_speech_recognition_software
List of speech recognition software
https://mp.weixin.qq.com/s/LsVhMaHrh8JgfpDra6KSPw
橫向對比5大開源語音識別工具包
https://github.com/lingochamp/kaldi-ctc
英語流利說開源的kaldi-ctc
https://zhuanlan.zhihu.com/p/23177950
kaldi-ctc: CTC End-to-End ASR
https://mp.weixin.qq.com/s/VkKFQ0fOOHJw0p7Z4EDugQ
絕佳的ASR學習方案:這是一套開源的中文語音識別系統
HTK
Hidden Markov Model Toolkit是Cambridge University開發的語音識別的工具包。它是GMM-HMM時代最為流行的語音識別工具,但近來流行度不如Kaldi。
官網:
http://htk.eng.cam.ac.uk/
HTK Book不僅是使用手冊,也是一本介紹原理的書。
http://speech.ee.ntu.edu.tw/homework/DSP_HW2-1/htkbook.pdf
CMU Sphinx
CMU Sphinx是李開復的博士課題項目,后來成為了CMU的長期項目。洪小文、黃學東也先后參與過。該項目比較早的將HMM應用于語音識別,這在當時算是一個重大創新。
李開復,1961年生,Columbia University本科(1983)+CMU博士(1988)。先后供職于Apple、SGI、Microsoft、Google。現為創新工場董事長。
洪小文,1963年生,臺灣大學本科+CMU博士。先后供職于Apple、Microsoft,現為微軟亞洲研究院院長。
黃學東,1962年生,湖南大學本科(1982)+清華大學碩士(1984)+University of Edinburgh博士(1989)。現為微軟首席語音科學家。
Raj Reddy,1937年生,印度裔美國計算機科學家。印度University of Madras本科(1958)+澳大利亞University of New South Wales碩士(1960)+Stanford University博士。CMU教授,首位亞裔圖靈獎得主(1994)。?
他還是印度Rajiv Gandhi University of Knowledge Technologies創始人和International Institute of Information Technology, Hyderabad主席。?
他是李開復、洪小文的博士導師,黃學東的博士后導師。
官網:
https://cmusphinx.github.io/
注意:還有一個類似Elasticsearch的文本搜索引擎也叫Sphinx。它的官網是:
http://sphinxsearch.com/
SPTK
The Speech Signal Processing Toolkit是日本的幾個科學家開發的語音識別工具庫。
官網:
http://sp-tk.sourceforge.net/
Julius
Julius是另一個日本人開發的語音識別工具庫。
官網:
http://julius.osdn.jp/en_index.php
HTS
HMM/DNN-based Speech Synthesis System也是日本人開發的工具庫,主要用于語音合成。
官網:
http://hts.sp.nitech.ac.jp
Praat
Praat是一款跨平臺的多功能語音學專業軟件,由University of Amsterdam的Paul Boersma和David Weenink開發。主要用于對數字化的語音信號進行分析、標注、處理及合成等實驗,同時生成各種語圖和文字報表。
官網:
http://www.fon.hum.uva.nl/praat/
公司
http://www.aispeech.com/
思必馳
http://www.soundai.com/
聲智科技。偏重于語音信號處理。
https://zhuanlan.zhihu.com/chenxl
聲智科技創始人陳孝良的專欄
數據集
http://www.speech.cs.cmu.edu/databases/an4/
The CMU Audio Databases。這個數據集非常老了(1991年),只有64M。
http://download.tensorflow.org/data/speech_commands_v0.01.tar.gz
TensorFlow提供的Speech Commands Datasets
還有相關的工具:
https://github.com/petewarden/extract_loudest_section
抽取一段wav文件中聲音最大的那部分
https://www.kaggle.com/davids1992/speech-representation-and-data-exploration/notebook
包含對Speech Commands Datasets的數據處理過程的blog
https://catalog.ldc.upenn.edu/LDC93S1
TIMIT數據集(收費)
https://mp.weixin.qq.com/s/w9_D1_VVhk9md4RANaipDg
Mozilla開源語音識別模型和世界第二大語音數據集
http://www.voxforge.org/
VoxForge是一個非常活躍的眾包語音識別數據庫和經過訓練的模型庫
http://pan.baidu.com/s/1dEhUghz
清華大學語音和語言技術研究中心(CSLT)公開的數據集。這個數據集除了包含thchs30之外,還包含了其他幾個小語種的數據集。
http://cn-mirror.openslr.org/18/
單獨的thchs30數據集
http://blog.csdn.net/sut_wj/article/details/70662181
THCHS-30:一個免費的中文語料庫
http://cn-mirror.openslr.org/33/
AISHELL數據庫是THCHS-30之后,目前中文語音數據開源最大的數據庫。
它是由北京希爾貝殼科技有限公司(http://www.aishelltech.com)錄制的中文普通話數據。由400名來自不同方言區的發音人錄制,男女比例均衡。按照設計好的文本,在相對安靜環境中使用手機(Android和IOS系統)錄制格式為16kHz、16bit單聲道數據和高保真麥克風錄制格式為44.1kHz、16bit單聲道數據同時采集。
http://www.aishelltech.com/aishell_2
AISHELL-2的數據規模達到1000小時和更優秀的系統級recipe。數據目前以硬盤和網盤形式免費開放給高校科研教育機構。商用似乎還是要錢的。
另外本人還開設了個人公眾號:JiandaoStudio ,會在公眾號內定期發布行業信息,以及各類免費代碼、書籍、大師課程資源。
?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
掃碼關注本人微信公眾號,有驚喜奧!公眾號每天定時發送精致文章!回復關鍵詞可獲得海量各類編程開發學習資料!
例如:想獲得Python入門至精通學習資料,請回復關鍵詞Python即可。
總結
以上是生活随笔為你收集整理的语音识别发展史与入门书籍简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数字人正走进现实!AI大脑+高颜值
- 下一篇: java的类是什么_java类是什么意思