语音识别一、语音识别介绍
語音識(shí)別就是將包含文字信息的語音通過計(jì)算機(jī)轉(zhuǎn)化成文字的過程,也叫語音轉(zhuǎn)寫,英文叫automatic speech recognition(ASR)或者 speech to text(STT),語音識(shí)別框架一般如圖所示:
從上圖中可以看出,語音識(shí)別技術(shù)是一個(gè)復(fù)雜的多學(xué)科交叉技術(shù),涉及到信號(hào)處理、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、語言學(xué)、數(shù)據(jù)挖掘、生理學(xué)等知識(shí)。一個(gè)完整的語音識(shí)別系統(tǒng)聲學(xué)方面和語言學(xué)方面。聲學(xué)方面包括從最初的語音信號(hào)獲取(這其中包括將語音轉(zhuǎn)化成電信號(hào))到語音信號(hào)處理(包括模數(shù)轉(zhuǎn)換,降噪、增強(qiáng)、端點(diǎn)檢測(VAD)等),再到特征提取(MFCC、FB、PLP、BN等),最后到聲學(xué)模型建模;語言學(xué)方面包括字典(詞典)構(gòu)造,語言模型建模等。通過建立的聲學(xué)模型和語言模型就可以對(duì)輸入的測試語音進(jìn)行解碼,得到相對(duì)應(yīng)的文字。
解碼原理(基于最大后驗(yàn)概率MAP)
假設(shè)我們有一段語音XX(通常是提取的特征),要得到對(duì)應(yīng)的文本WW,就是求使得概率p(W|X)p(W|X)最大的WW的過程,即求
Wˉˉˉˉˉ=argmaxWp(W|X)Wˉ=argmaxWp(W|X)
利用條件概率公式和貝葉斯公式將上述公式轉(zhuǎn)化為
p(X)p(X)表示聲學(xué)觀測序列的概率,不管選擇解碼空間中的哪一條路徑,一段語音發(fā)出來后 p(X)p(X)就確定了,是一個(gè)未知的常數(shù),雖然這個(gè)概率很難估計(jì),但是并不會(huì)影響到 WˉˉˉˉˉWˉ的取值,因此,上式可以簡化為
Wˉˉˉˉˉ=argmaxWp(X|W)p(W)Wˉ=argmaxWp(X|W)p(W)
該公式就是解碼的核心公式了,下面對(duì)該公式做一個(gè)簡單解讀
其中第一項(xiàng) p(X|W)p(X|W)就是我們的聲學(xué)模型,準(zhǔn)確的說,這個(gè)概率可以通過聲學(xué)模型和詞典(Lexicon)計(jì)算得到,第二項(xiàng)就是我們的語言模型,該怎么理解呢?
從概率上看, p(X|W)p(X|W)表示在給定文本 WW的情況下,求“生成”語音XX的概率,就是說,我們之所以說某一句話而不會(huì)說其他話,是因?yàn)樵谡f這句話之前,腦海里肯定有我們想表達(dá)的內(nèi)容(這里內(nèi)容就可以理解成文本 WW),然后,調(diào)動(dòng)發(fā)聲器官發(fā)出語音XX,因此,語音識(shí)別的目標(biāo)就是通過發(fā)出的語音 XX去猜測說這句話到底表達(dá)什么內(nèi)容WW。
而 p(W)p(W)就是我們的先驗(yàn)概率,為什么這么說,因?yàn)樗灰蕾囉谖覀兘o定的語音 XX,而是由經(jīng)驗(yàn)得出的,具體的,可以理解為人類發(fā)展到現(xiàn)在所總結(jié)出來的語法知識(shí),更通俗一點(diǎn)就是人類的表達(dá)習(xí)慣。舉個(gè)例子,我們通常會(huì)說“上床睡覺”而不會(huì)說“上床上班”。這個(gè)概率可以由語言模型得到。
要使得p(X|W)p(W)p(X|W)p(W)最大,一方面需要文字表達(dá)盡量符合語法習(xí)慣(即 p(W)p(W)盡量大),另一方面需要識(shí)別出來的文字盡量和發(fā)出的語音相符(即 p(X|W)p(X|W)盡量大),就是說,在解碼空間里(解碼空間后續(xù)會(huì)說,簡單理解為不同詞之間有多種組合方式,不同的組合方式構(gòu)成不同的 WW),可能有很多種組合都符合語法習(xí)慣,但是有些就和發(fā)出的語音不太吻合,例如,我們說一句話“我下班坐地鐵回家”,其中有三個(gè)不同的識(shí)別結(jié)果:
1.我下班坐公交回家
2.我坐地鐵回家
3.我下班坐地鐵回家
顯然,上述三種識(shí)別結(jié)果都符合語法習(xí)慣,但是前兩種識(shí)別結(jié)果都存在誤識(shí)(替換錯(cuò)誤,后續(xù)會(huì)講)或信息丟失(刪除錯(cuò)誤,后續(xù)會(huì)講),即語音中所表達(dá)的信息沒有被完全識(shí)別出來,因此聲學(xué)模型的得分p(X|W)p(X|W)就沒有第3種識(shí)別結(jié)果得分高。
好了,語音識(shí)別的介紹就到這里,具體如何對(duì)聲學(xué)模型和語言模型進(jìn)行建模,以及解碼等內(nèi)容在后續(xù)進(jìn)行介紹。
ps:哪位大神能教我怎樣用LaTexLaTex把WW寫到argmaxargmax下面去嗎,這樣看著好別扭
總結(jié)
以上是生活随笔為你收集整理的语音识别一、语音识别介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google Glass众叛亲离?
- 下一篇: 6款电脑必备的常用软件(办公/高效/小白