语音识别学习日志 2019-7-13 语音识别基础知识准备 1{语音基础知识}
?線性預測
線性預測(linear prediction)根據(jù)隨機信號過去的p個已知抽樣值序列為Sn-1,Sn-2,…Sn-p,預測現(xiàn)時樣值Sn的估計值的方法。預測公式是一個線性方程,所以這種預測稱為線性預測。
?
?聲音的構(gòu)成
聲音頻率決定音調(diào);聲音振幅決定大小;聲音諧波決定音色。之所以能分辨出不同樂器和不同人,只因為聲音中諧波成份不同。
?
?音強
聲音的強度是一個客觀的物理量,其常用單位為“分貝(db)”。聲音強度由振動幅度的大小決定,以能量來計算稱聲強,以壓力來計算表示聲壓,聲強(I)與聲壓(P)的關(guān)系為:I=(p^2)/(pv) (此時P為有效值,若P為幅值,則I=(P^2)/(2PV),其中p為介質(zhì)密度,v-聲速。
?
?諧波
諧波是指對周期性非正弦交流量進行傅里葉級數(shù)分解所得到的大于基波頻率整數(shù)倍的各次分量,通常稱為高次諧波,而基波是指其頻率與工頻(50Hz)相同的分量。
?
?聲道
Sound Channel,是指聲音在錄制或播放時在不同空間位置采集或回放的相互獨立的音頻信號,所以聲道數(shù)也就是聲音錄制時的音源數(shù)量或回放時相應的揚聲器數(shù)量。
?
?源-過濾器模型、元音、輔音
參考人聲的產(chǎn)生,氣流從肺部出來,通過聲帶產(chǎn)生震動,形成聲源激勵。聲源路經(jīng)由聲道構(gòu)成的過濾器,輸出最終的語音信號。聲帶只有在輸出濁音時才震動,此時聲源激勵為準周期信號,也稱為聲門脈沖,其頻譜呈單調(diào)遞減的趨勢。聲道的頻譜特性可由共振峰表征,在頻譜上表現(xiàn)為各峰值。輸出語音的頻譜特性為前兩者頻譜的疊加。
上述的語音產(chǎn)生模型也稱為源-過濾器模型(Source-Filter Model),聲帶震動產(chǎn)生的準周期信號為源,聲道為過濾器。然而在真實的語音產(chǎn)生過程中,聲帶具有震動和不震動兩種模式。當聲帶震動時,產(chǎn)生濁音(voiced sound),此時聲源為準周期脈沖信號,模擬聲帶的周期震動,元音多為此類;當聲帶不震動時,產(chǎn)生清音(unvoiced sound),此時聲源為白噪聲隨機信號,模擬氣體紊流與摩擦,輔音多為此類。
?
?聽感音高(聲音音高)
音高指各種不同高低的聲音,即音的高度,音的基本特征的一種。音的高低是由振動頻率決定的,兩者成正相關(guān)關(guān)系:頻率(即單位時間內(nèi)振動次數(shù)的多少)高則音"高",反之則"低"。
?
?聽覺響度(聲音響度)
又稱音量。人耳感受到的聲音強弱,它是人對聲音大小的一個主觀感覺量。響度的大小決定于聲音接收處的波幅,就同一聲源來說,波幅傳播的愈遠,響度愈小;當傳播距離一定時,聲源振幅愈大,響度愈大。響度的大小與聲強密切相關(guān),但響度隨聲強的變化不是簡單的線性關(guān)系,而是接近于對數(shù)關(guān)系。當聲音的頻率、聲波的波形改變時,人對響度大小的感覺也將發(fā)生變化。
?
共振峰
共振峰是指在聲音的頻譜中能量相對集中的一些區(qū)域,共振峰不但是音質(zhì)的決定因素,而且反映了聲道的物理特征。
共振峰是反映聲道諧振特性的重要特征,它代表了發(fā)音信息的最直接的來源,而且人在語音感知中利用了共振峰信息。所以共振峰是語音信號處理中非常重要的特征參數(shù),已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔ⅰ9舱穹逍畔陬l率包絡(luò)之中,因此共振峰參數(shù)提取的關(guān)鍵是估計自然語音頻譜包絡(luò),一般認為譜包絡(luò)中的最大值就是共振峰。
?
基音、復音、純音
基音是每個樂音中頻率最低的純音,其強度最大。
一般的聲音都是由發(fā)音體發(fā)出的一系列頻率、振幅各不相同的振動復合而成的。這些振動中有一個頻率最低的振動,由它發(fā)出的音就是基音,其余為泛音。
?
純音(pure tone) 是單一聲調(diào)的音。具有音高和響度兩個基本特征。前者主要取決于發(fā)音體振動的頻率,后者主要取決于振動的振幅。自然界很少有純音。不同頻率的純音只是實驗室內(nèi)常用的聲音信號。音叉和聲頻信號發(fā)生器可產(chǎn)生不同頻率的純音
復音,指的是由許多純音組成的聲音
?
音色
聲音諧波決定音色,之所以能分辨出不同樂器和不同人,只因為聲音中諧波成分不同。所謂諧波,當分音的頻率是整數(shù)倍基音頻率的時候,這些頻率就叫諧波。另外,所有的諧波是按照一定順序排列的,這意味著,基音頻率是第一諧波,第一泛音就是第二諧波,第二泛音就是第三諧波,以此類推。
?
?
基頻
基音的頻率即為基頻,決定整個音的音高,在聲音中,基頻是指一個復音中基音的頻率。在構(gòu)成一個復音的若干個音中, 基音的頻率最低, 強度最大。 基頻的高低決定一個音的高低。 平常所謂語音的頻率, 就是指基音的頻率。?基頻用符號FO表示。
?
聲調(diào)
聲調(diào),是指聲音的高低升降的變化
?
語調(diào)
語調(diào)(intonation),即說話的腔調(diào),就是一句話里聲調(diào)(pitch)高低抑揚輕重的配制和變化。
?
頻譜
頻譜是頻率譜密度的簡稱,是頻率的分布曲線。
?
?LPC
LPC是線性預測編碼(linear predictive coding,LPC)是一種非常重要的編碼方法。從原理上講,LPC是通過分析話音波形來產(chǎn)生聲道激勵和轉(zhuǎn)移函數(shù)的參數(shù),對聲音波形的編碼實際就轉(zhuǎn)化為對這些參數(shù)的編碼,這就使聲音的數(shù)據(jù)量大大減少。在接收端使用LPC分析得到的參數(shù),通過話音合成器重構(gòu)話音。合成器實際上是一個離散的隨時間變化的時變線性濾波器,它代表人的話音生成系統(tǒng)模型。時變線性濾波器既當作預測器使用,又當作合成器使用。分析話音波形時,主要是當作預測器使用,合成話音時當作話音生成模型使用。隨著話音波形的變化,周期性地使模型的參數(shù)和激勵條件適合新的要求。
擬人類的發(fā)聲原理,通過分析聲道短管級聯(lián)的模型得到的。假設(shè)系統(tǒng)的傳遞函數(shù)跟全極點的數(shù)字濾波器是相似的,通常用12-16個極點就可以描述語音信號的特征。所以對于n時刻的語音信號,我們可以用之前時刻的信號的線性組合近似的模擬。然后計算語音信號的采樣值和線性預測的采樣值。并讓這兩者之間達到均方的誤差(MSE)最小,就可以得到LPC。
其核心思想是利用輸入信號u和歷史輸出信號s的線性組合來估計輸出序列s(n)。
?
?LPCC
線性預測系數(shù)(LPCC):很好的模擬語音信號,語音信號是由聲帶振動發(fā)出的,?聲帶可以不振動也可以有周期的振動,分別對應清音(consonants)和濁音(vowels),每一段聲管則對應一個?LPC 模型的極點。通常極點個數(shù)在 12-16?個左右,即可清晰地描述信號的特征了。
基于聲道模型的重要特征參數(shù)。LPCC是丟棄了信號生成過程中的激勵信息。之后用十多個倒譜系數(shù)可以代表共振峰的特性。所以可以在語音識別中取得很好的性能
?
?MFCC
MFCC:Mel頻率倒譜系數(shù)的縮寫。Mel頻率是基于人耳聽覺特性提出來的,它與Hz頻率成非線性對應關(guān)系。Mel頻率倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系,計算得到的Hz頻譜特征,MFCC已經(jīng)廣泛地應用在語音識別領(lǐng)域。由于Mel頻率與Hz頻率之間非線性的對應關(guān)系,使得MFCC隨著頻率的提高,其計算精度隨之下降。因此,在應用中常常只使用低頻MFCC,而丟棄中高頻MFCC。
在sphinx中也是用MFCC特征的,用幀frames去分割語音波形,每幀大概10ms,然后每幀提取可以代表該幀語音的39個數(shù)字,這39個數(shù)字也就是該幀語音的MFCC特征,用特征向量來表示。
Sphinx
CMU Sphinx(簡稱Sphinx)是美國卡內(nèi)基梅隆大學開發(fā)的一系列語音識別系統(tǒng)的總稱。在2000年,卡內(nèi)基梅隆的Sphinx小組致力于開源幾個語音識別器組件,包括Sphinx 2和后來的Sphinx 3(2001年)。 語音解碼器帶有聲學模型和示例應用程序。
?
總結(jié)
以上是生活随笔為你收集整理的语音识别学习日志 2019-7-13 语音识别基础知识准备 1{语音基础知识}的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: node.js事件
- 下一篇: 给程序员的10条建议