数字语音信号处理学习笔记——绪论(2)
版權聲明:本文為博主原創文章,未經博主允許不得轉載。?? ?https://blog.csdn.net/u013538664/article/details/25060123
1.2.2 語音編碼
語音編碼的目的是在保證一定語音質量的前提下,盡可能降低編碼比特率,以節省頻率資源。
????????語音編碼技術的鼻祖:
????????研究開始于1939年軍事保密通信的需要,貝爾電話實驗室的Homer Dudley提出并實現了在低頻帶寬電話電報電纜上傳輸語音信號的通道聲碼器。
????????20世紀70年代:國際電聯(ITU-T,原CCITT)64kbit/s脈沖編碼調制(PCM)語音編碼算法的G.711建議,它被廣泛應用于數字通信、數字交換機等領域,從而占據統治地位。
????????1980年:美國政府公布了一種2.4kbit/s的線性預測編碼標準算法LPC-10,這使得在普通電話帶寬中傳輸數字電話成為可能。ITU-T也于20世紀80年代初著手研究低于64kbit/s的非PCM編碼算法,并于1984年通過了32kbit/s ADPCM語音編碼G.721建議,它不僅可以達到與PCM相同的語音質量,而且具有更優良的抗誤碼性能。1988年美國又公布了一個4.8kbit/s的碼激勵線性預測(CELP)編碼算法。與此同時,歐洲也推出了一個16kbit/s的規則脈沖激勵線性預測(RPE-LPC)編碼算法。
???????20世紀90年代:隨著因特網在全球范圍的興起,人們對能在網絡上傳輸語音的VoIP技術興趣大增,由此,IP分組語音通信技術獲得了突破性進展和實際應用。
???????20世紀90年代中期到現在,第三代移動通信技術逐漸成熟并走向商用,變速率語音編碼和帶寬語音編碼得到了迅速的發展,不斷有新的國際標準和地區標準公布。
???????語音編碼技術主要有兩個努力的方向:一是中低速率的語音編碼的實用化及如何在實用化過程中進一步提高其抗干擾、抗噪聲能能力;另一個是如何進一步降低其編碼速率。
1.2.3 語音識別
???????與機器進行語音交流,讓機器明白你說什么,這是人們長期以往夢寐以求的事情。而語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高科技。根據在不同限制條件下的研究任務,產生了不同的研究研究領域。這些領域包括:
???????1) 根據對說話人說話方式的要求,可以分為孤立字語音識別系統、連續字語音識別系統及連續語音識別系統
???????2) 根據對說話人的依賴程度可以分為特定人和非特定人語音識別系統
???????3) 根據詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量及無限詞匯量語音識別系統
???????語音識別工作開始:
???????20世紀50年代:AT&T貝爾實驗室的Audry系統,它是第一個可以識別10個英語數字的語音識別系統。
???????1956年:RAC實驗室的Olson等人也獨立地研制出了10個單音節詞的識別系統,系統采用從帶通濾波器組獲得的 ??????????????????????頻譜參數作為語音的特征。
???????1959年:Fry和Denes等人采用頻譜分析和模式匹配進行識別決策構建音素識別器來辨別4個元音和9個輔音。
??????????????????????MIT林肯實驗室采用聲道的時變估計技術研究10個元音的識別
???????20世紀60年代末:重要成果是提出了動態規劃(DP)和線性預測編碼(LPC)分析技術,其中后者較好地解決 ???????????????????????????????????????了語音信號產生模型的問題,對整個語音識別、語音合成、語音分析、語音編碼的研究發展產 ?????????????????????????????????????生了深遠影響。
???????20世紀70年代:在理論上,LPC技術得到進一步發展,動態時間規整(DTW)技術基本成熟,特別是提出了矢 ???????????????????????????????????量量化(VQ)和隱馬爾可夫模型(HMM)理論。在實踐上,首先在孤立詞識別方面,由日本學
?????????????????????????????????者Sakoe給出了使用動態規劃方法(DP)進行語音識別的途徑——DP算法。Itakura基于語音編 ???????????????????????????????????碼中廣泛使用的LPC技術,通過定義基于LPC頻譜參數的合適的距離測度,成功地將其應用到語 ?????????????????????????????????音識別中。同時,以IBM為首的一些語音研究單位還著手開展了連續語音識別的研究。
???????20世紀70年代末到20世紀80年代初:Linda、Buzo、Gray等人解決了矢量量化碼本生成的方法,并將矢量量化成 ??????????????????????????????????????????????????????????????????功地應用到語音編碼中,從此矢量量化技術很快被推廣應用到其他領域。
???????20世紀80年代開始:語音識別研究進一步走向深入,就是識別算法從模式匹配技術轉向基于統計模型的技術,更 ????????????????????????????????????????多地追求從整體統計的角度來建立最佳的語音識別系統。HMM技術就是其中的一個典型技 ??????????????????????????????????????????術。
???????20世紀80年代中期:重新開始的人工神經網絡(ANN)研究,也給語音識別帶來一片新的生機。
???????20世紀90年代初期:許多發達國家如美國、日本以及IBM、Apple、AT&T、NTT等著名公司都為語音識別系統的 ????????????????????????????????????????實用化開發研究投以巨資。
???????如今,深度神經網絡(DNN)在語音領域的應用,使得語音識別性能又上了一個新的臺階。
1.3 語音信號處理過程的總體結構
---------------------?
作者:JameJuZhang?
來源:CSDN?
原文:https://blog.csdn.net/jojozhangju/article/details/25060123?
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!
總結
以上是生活随笔為你收集整理的数字语音信号处理学习笔记——绪论(2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: swfupload 实例 php,文件上
- 下一篇: 详解 ConcurrentHashMap