當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

语音识别一、语音识别介绍

發(fā)布時(shí)間：2024/3/26 编程问答 47 豆豆

生活随笔收集整理的這篇文章主要介紹了语音识别一、语音识别介绍小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

語音識(shí)別就是將包含文字信息的語音通過計(jì)算機(jī)轉(zhuǎn)化成文字的過程，也叫語音轉(zhuǎn)寫，英文叫automatic speech recognition(ASR)或者 speech to text(STT)，語音識(shí)別框架一般如圖所示：

從上圖中可以看出，語音識(shí)別技術(shù)是一個(gè)復(fù)雜的多學(xué)科交叉技術(shù)，涉及到信號(hào)處理、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、語言學(xué)、數(shù)據(jù)挖掘、生理學(xué)等知識(shí)。一個(gè)完整的語音識(shí)別系統(tǒng)聲學(xué)方面和語言學(xué)方面。聲學(xué)方面包括從最初的語音信號(hào)獲取（這其中包括將語音轉(zhuǎn)化成電信號(hào)）到語音信號(hào)處理（包括模數(shù)轉(zhuǎn)換，降噪、增強(qiáng)、端點(diǎn)檢測（VAD）等），再到特征提取（MFCC、FB、PLP、BN等），最后到聲學(xué)模型建模；語言學(xué)方面包括字典（詞典）構(gòu)造，語言模型建模等。通過建立的聲學(xué)模型和語言模型就可以對(duì)輸入的測試語音進(jìn)行解碼，得到相對(duì)應(yīng)的文字。

解碼原理（基于最大后驗(yàn)概率MAP）

假設(shè)我們有一段語音X(通常是提取的特征),要得到對(duì)應(yīng)的文本 $W$ ，就是求使得概率p(W|X)最大的W的過程，即求
$W ˉ ˉ ˉ ˉ ˉ = a r g m a x W p (W | X)$
利用條件概率公式和貝葉斯公式將上述公式轉(zhuǎn)化為

Wˉˉˉˉˉ=argmaxWp(W,X)p(X)=argmaxWp(X|W)p(W)p(X)Wˉ=argmaxWp(W,X)p(X)=argmaxWp(X|W)p(W)p(X)

p(X)p(X)表示聲學(xué)觀測序列的概率，不管選擇解碼空間中的哪一條路徑，一段語音發(fā)出來后

p(X)p(X)就確定了，是一個(gè)未知的常數(shù)，雖然這個(gè)概率很難估計(jì)，但是并不會(huì)影響到

WˉˉˉˉˉWˉ的取值，因此，上式可以簡化為

Wˉˉˉˉˉ=argmaxWp(X|W)p(W)Wˉ=argmaxWp(X|W)p(W)
該公式就是解碼的核心公式了，下面對(duì)該公式做一個(gè)簡單解讀
其中第一項(xiàng)

p(X|W)p(X|W)就是我們的聲學(xué)模型，準(zhǔn)確的說，這個(gè)概率可以通過聲學(xué)模型和詞典（Lexicon）計(jì)算得到，第二項(xiàng)就是我們的語言模型，該怎么理解呢？
從概率上看，

p(X|W)p(X|W)表示在給定文本

WW的情況下，求“生成”語音

X

的概率，就是說，我們之所以說某一句話而不會(huì)說其他話，是因?yàn)樵谡f這句話之前，腦海里肯定有我們想表達(dá)的內(nèi)容（這里內(nèi)容就可以理解成文本

WW），然后，調(diào)動(dòng)發(fā)聲器官發(fā)出語音

X

，因此，語音識(shí)別的目標(biāo)就是通過發(fā)出的語音

XX去猜測說這句話到底表達(dá)什么內(nèi)容

W

。
而

p(W)p(W)就是我們的先驗(yàn)概率，為什么這么說，因?yàn)樗灰蕾囉谖覀兘o定的語音

XX，而是由經(jīng)驗(yàn)得出的，具體的，可以理解為人類發(fā)展到現(xiàn)在所總結(jié)出來的語法知識(shí)，更通俗一點(diǎn)就是人類的表達(dá)習(xí)慣。舉個(gè)例子，我們通常會(huì)說“上床睡覺”而不會(huì)說“上床上班”。這個(gè)概率可以由語言模型得到。
要使得

p (X | W) p (W)

最大，一方面需要文字表達(dá)盡量符合語法習(xí)慣（即

p(W)p(W)盡量大），另一方面需要識(shí)別出來的文字盡量和發(fā)出的語音相符（即

p(X|W)p(X|W)盡量大），就是說，在解碼空間里（解碼空間后續(xù)會(huì)說，簡單理解為不同詞之間有多種組合方式，不同的組合方式構(gòu)成不同的

WW）,可能有很多種組合都符合語法習(xí)慣，但是有些就和發(fā)出的語音不太吻合，例如，我們說一句話“我下班坐地鐵回家”，其中有三個(gè)不同的識(shí)別結(jié)果：
1.我下班坐公交回家
2.我坐地鐵回家
3.我下班坐地鐵回家
顯然，上述三種識(shí)別結(jié)果都符合語法習(xí)慣，但是前兩種識(shí)別結(jié)果都存在誤識(shí)（替換錯(cuò)誤，后續(xù)會(huì)講）或信息丟失（刪除錯(cuò)誤，后續(xù)會(huì)講），即語音中所表達(dá)的信息沒有被完全識(shí)別出來，因此聲學(xué)模型的得分

p (X | W)

就沒有第3種識(shí)別結(jié)果得分高。
好了，語音識(shí)別的介紹就到這里，具體如何對(duì)聲學(xué)模型和語言模型進(jìn)行建模，以及解碼等內(nèi)容在后續(xù)進(jìn)行介紹。

ps:哪位大神能教我怎樣用LaTex把W寫到 $a r g m a x$ 下面去嗎，這樣看著好別扭

總結(jié)

以上是生活随笔為你收集整理的语音识别一、语音识别介绍的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

语音识别

上一篇： Google Glass众叛亲离？
下一篇： 6款电脑必备的常用软件（办公/高效/小白

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

语音识别一、语音识别介绍

解碼原理（基于最大后驗(yàn)概率MAP）

總結(jié)