基于动态时间规整(DTW)的孤立字语音识别
模板匹配法語(yǔ)音識(shí)別系統(tǒng)
用戶將詞匯表中每個(gè)詞依次說(shuō)一遍,并且將其特征矢量時(shí)序作為模板存入模板庫(kù),在識(shí)別階段,將輸入語(yǔ)音的特征矢量時(shí)間序列依次與模板庫(kù)中每個(gè)模板進(jìn)行相識(shí)度比較,將相識(shí)度最高者作為識(shí)別的結(jié)果輸出。
特征
使用MFCC系數(shù)以及一階和二階差分作為特征參數(shù)。MFCC是將人耳的聽(tīng)覺(jué)特征與語(yǔ)音參數(shù)相結(jié)合的一種特征參數(shù)。MFCC的計(jì)算可以參考3.4節(jié)。
動(dòng)態(tài)時(shí)間規(guī)整(DTW)
在識(shí)別階段的模式匹配中,不能簡(jiǎn)單地將輸入模板與詞庫(kù)中模板相比較實(shí)現(xiàn)識(shí)別,因?yàn)檎Z(yǔ)音信號(hào)具有相當(dāng)大的隨機(jī)性,這些差異不僅好酷哦音強(qiáng)的大小,頻譜的偏移,還有發(fā)音持續(xù)時(shí)間不可能是完全相同的,而詞庫(kù)中模板不可能睡著模板輸入持續(xù)時(shí)間的變換而進(jìn)行伸縮,所以時(shí)間規(guī)整是不可少的。DTW是吧時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來(lái)的非線性規(guī)整技術(shù),是模板匹配的方法。
假設(shè)某一參考模板的特征矢量為: a 1 , . . . a m , . .
總結(jié)
以上是生活随笔為你收集整理的基于动态时间规整(DTW)的孤立字语音识别的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
 
                            
                        - 上一篇: 终于有人把红蓝对抗讲明白了
- 下一篇: ecshop图片自动本地化插件,ECSH
