matlab 图像矢量量化,MATLAB环境下基于矢量量化的说话人识别系统(1)
第21卷第6期湖 北 工 業 大 學 學 報2006年12月
Vol.21No.6 Journal of Hubei Univer sity of Technology Dec.2006
[收稿日期]2006-10-13
[作者簡介]宋 敏(1979-),女,湖北武漢人,湖北工業大學碩士研究生,研究方向:計算機語音技術應用.
[文章編號]1003-4684(2006)1220027203
MATLAB 環境下基于矢量量化的說話人識別系統
宋 敏1,劉幺和1,譚保華2
(1湖北工業大學機械工程學院,湖北武漢430068;2湖北工業大學理學院,湖北武漢430068)[摘 要]在MATLAB 環境下實現基于矢量量化的說話人識別系統.在實時錄音的情況下,利用該識別系統,對不同人的1~7s 的語音進行辨識,準確率可達到98%.識別時間根據使用人數的不同,測試語音長度的不同辨識時間從1~20s,實現與文本無關的自動說話人確認的實時識別.[關鍵詞]說話人識別系統;MATLAB;矢量量化[中圖分類號]TN912.3
[文獻標識碼]:A
說話人識別是指通過說話人的語音來自動識別說話人的身份.目前,與文本無關的說話人識別的常用方法有基于非參數模型的矢量量化VQ (Vector Quantization)方法、基于參數模型的隱馬爾可夫方法(H idden Markov Model)和基于人工神經網絡[1].一般來講,在存儲數據量小的情況下,基于VQ 建立說話人識別的模型有良好的效果.
1 語音信號特征參數的提取
語音信號特征提取是語音識別和說話人識別的一個重要環節.特征提取的目的是對原始語音進行處理后計算語音對應的特征參數.常用的語音特征參數是基于Mel 頻率倒譜系數(Mel 2Fr equency Cepstrum Coefficients,MFCC).因為人耳所聽到的聲音的高低與聲音的頻率并不成線性正比關系,所以基于聽覺模型得到的MFCC 比基于聲道模型得到的LPC(Linear Predictive Coding)倒譜系數更符合人耳的聽覺特性[2].MFCC 將頻譜轉化為基于Mel 頻標的非線性頻譜,然后轉換到倒譜域上.由于充分模擬了人的聽覺特性,而且沒有任何前提假設,MFCC 參數具有識別性能和抗噪能力,因此本系統采用MFCC 參數為語音特征參數.
MFCC 參數的計算過程[3]如下:
1)對輸入語音幀預加重和加H amming 窗后作快速傅利葉變換(Fast Fourier Tr ansformation,FFT)得到其頻譜,將時域信號轉化為頻域信號;
2)求出頻譜平方,即能量譜,并用M 個Mel 帶
通濾波器進行濾波,由于每個頻帶中分量的作用在人耳中是疊加的,因此將每個濾波器頻帶內的能量進行疊加,這是第k 個濾波器輸入功率譜x c (k );
3)將每個濾波器的輸出取對數,得到相應頻帶的對數功率譜,并進行反離散余弦變換,得到L 個MFCC 系數,由于在實際的語音識別的應用中,并不是取全部維數的MFCC 系數,有實驗表明最前若干維以及最后若干維的MFCC 系數對語音的區分性能較大,通常取前12維的MFCC 系數即可
[2]
.
MFCC 系數
C n =
E M
k =1
log x c (k)cos [P (k-
0.5)n/M]
(n =1,2,,,L).
4)這種直接得到的MFCC 特征稱作為靜態特征,由于MFCC 主要反映語音的靜態特征,要得到語音信號的動態特征則是將這種靜態特征做一階和二階差分.
2 矢量量化
矢量量化是20世紀70年代后期發展起來的一種數據壓縮技術,目前已在語音、圖像壓縮等領域得到廣泛應用.矢量量化的理論基礎是信息論的率失真理論,是仙農(C.E.SH ANNON )信息論在信源編碼理論(source coding theory)方面的發展.其基本思想是將若干個標量數據組構成一個矢量,然后在矢量空間給以整體量化,從而壓縮了數據而不損
總結
以上是生活随笔為你收集整理的matlab 图像矢量量化,MATLAB环境下基于矢量量化的说话人识别系统(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据结构之链表--单链表
- 下一篇: 查看socket缓冲区数据_什么是soc