第五十期:详解语音识别技术的发展
在我們的生活中交流起著重要的作用。人類從符號開始,然后發(fā)展到用語言交流,再后來出現(xiàn)了計算和通信技術(shù)。在某些情況下,機(jī)器不僅與人類交流,也與機(jī)器之間交流。計算機(jī)和通信技術(shù)創(chuàng)造了互聯(lián)網(wǎng)世界,正如我們所知的物聯(lián)網(wǎng)(IoT)。
作者:風(fēng)車云馬編譯
在我們的生活中交流起著重要的作用。人類從符號開始,然后發(fā)展到用語言交流,再后來出現(xiàn)了計算和通信技術(shù)。在某些情況下,機(jī)器不僅與人類交流,也與機(jī)器之間交流。計算機(jī)和通信技術(shù)創(chuàng)造了互聯(lián)網(wǎng)世界,正如我們所知的物聯(lián)網(wǎng)(IoT)。下面是涉及機(jī)器學(xué)習(xí)的語音識別技術(shù)的發(fā)展。
語音識別技術(shù)和機(jī)器學(xué)習(xí)的發(fā)展
互聯(lián)網(wǎng)催生了使用數(shù)據(jù)的新方式,這就是機(jī)器學(xué)習(xí)。我們可以通過訓(xùn)練機(jī)器直接或間接地與它們交流。在此之前,我們必須訪問計算機(jī)來與機(jī)器通信。
人們開始研究消除單純依賴計算機(jī)的技術(shù),這種技術(shù)稱為自動語音識別。基于自然語言處理(NLP),我們可以在很大程度上直接與機(jī)器交互。
語音識別領(lǐng)域的初步研究已經(jīng)取得了成功。從那時起,語音科學(xué)家和工程師就致力于優(yōu)化語音識別引擎。根據(jù)實際情況優(yōu)化機(jī)器的交互,從而降低錯誤率,提高效率。
一些機(jī)構(gòu)已經(jīng)開始開發(fā)微調(diào)語音識別技術(shù)。十多年來,位于弗吉尼亞州的GoVivace公司一直致力于語音識別技術(shù)和解決方案的設(shè)計和開發(fā)。
自動語音識別及其應(yīng)用
自動語音識別(ASR)技術(shù)是計算機(jī)科學(xué)和語言學(xué)兩個不同分支的結(jié)合。計算機(jī)科學(xué)用于設(shè)計算法和編寫程序;語言學(xué)用于創(chuàng)建單詞,句子和短語的字典。
生成語音音標(biāo)
開發(fā)的第一個階段是從語音轉(zhuǎn)錄開始的,在這里音頻被轉(zhuǎn)換成文本——語音到文本的轉(zhuǎn)換。之后,系統(tǒng)過濾去除不需要的信號或噪聲。當(dāng)我們說一個單詞或句子時,我們有不同的語速,因此語音識別模型還需要考慮這些語速的變化。
隨后,信號被進(jìn)一步劃分以識別音素。音素是具有相同氣流水平的字母,如“b”和“p”。程序會通過與存儲在語言學(xué)詞典中的單詞和句子進(jìn)行比較,來試圖匹配準(zhǔn)確的單詞。
語音識別系統(tǒng)目前有兩種類型。
一種類型的系統(tǒng)是通過學(xué)習(xí)模式來完成的,另一種是作為人的依賴系統(tǒng)來完成的。隨著人工智能(AI)和大數(shù)據(jù)的發(fā)展,語音識別技術(shù)達(dá)到了一個新的水平。一種被稱為長短時記憶的特殊神經(jīng)結(jié)構(gòu)在這一領(lǐng)域取得了顯著的進(jìn)步。在全球范圍內(nèi),很多機(jī)構(gòu)正在利用不同層次的語言能力來完成各種各樣的任務(wù)。
語音文本軟件可以將音頻文件轉(zhuǎn)換到文本文件。
許多國家沒有語言嵌入式鍵盤,大多數(shù)人都不知道如何使用特定的語言鍵盤,盡管他們在語言方面很擅長。在這種情況下,語音轉(zhuǎn)錄幫助它們將語音轉(zhuǎn)換成任何語言的文本。
實時字幕系統(tǒng)。
這是一個實時的應(yīng)用系統(tǒng)。實時翻譯技術(shù)被稱為計算機(jī)輔助實時翻譯。它基本上是一個實時操作的語音到文本系統(tǒng)。世界各地舉辦各種會議都會應(yīng)用。
為了最大限度地吸引全球觀眾的參與,他們采用了直播字幕系統(tǒng)。實時字幕系統(tǒng)將語音轉(zhuǎn)換為文本并顯示在屏幕上。它可以將一種語言的演講翻譯成其他語言的文本,還可以幫助記錄會議或演講。這些系統(tǒng)將語音轉(zhuǎn)換成文本,使聽力受限的人也能閱讀和理解。
語音生物識別系統(tǒng)
除了語音到文本,該技術(shù)還將其分支擴(kuò)展到生物識別系統(tǒng),從而為用戶身份驗證創(chuàng)建了語音生物識別技術(shù)。語音生物識別系統(tǒng)分析說話人的聲音,這取決于音調(diào)、發(fā)音和其他因素。
在這些系統(tǒng)中,首先分析語音樣本并存儲為模板。當(dāng)用戶說出短語或句子時,語音生物識別系統(tǒng)會將其與存儲的模板進(jìn)行比較,并提供身份驗證。然而,這些系統(tǒng)面臨著許多挑戰(zhàn)。我們的聲音總是受到身體因素或情緒狀態(tài)的影響。
生物語音系統(tǒng)的最新發(fā)展是通過將短語與樣本進(jìn)行匹配來實現(xiàn)的。然后,結(jié)合心理和行為語音信號分析語音模式。此外,語音生物識別技術(shù)的發(fā)展將有助于那些數(shù)據(jù)安全備受關(guān)注的企業(yè)。
使用語音進(jìn)行分析
分析在語音識別技術(shù)的發(fā)展中起著至關(guān)重要的作用。大數(shù)據(jù)分析創(chuàng)造了存儲語音數(shù)據(jù)的需求。呼叫中心開始使用電話錄音來培訓(xùn)他們的員工。因為客戶滿意度現(xiàn)在是全球機(jī)構(gòu)的首要關(guān)注點。現(xiàn)在,機(jī)構(gòu)希望跟蹤和分析主管和客戶之間的對話。
使用呼叫分析應(yīng)用程序,相關(guān)機(jī)構(gòu)可以監(jiān)視和測量呼叫的質(zhì)量。這種呼叫分析解決方案提高了呼叫中心提供的服務(wù)質(zhì)量。通過分析可以分類他們的客戶,可以更好地為客戶提供更快和更好的反饋。
語音識別技術(shù)還有很長的路要走
語音識別技術(shù)的研究任重而道遠(yuǎn)。到目前為止,程序只能執(zhí)行指令。人類的交流感覺并不完全存在于機(jī)器中。研究人員正試圖向機(jī)器灌輸人類的反應(yīng)能力。它們在語音識別技術(shù)創(chuàng)新方面還有很長的路要走。
研究的主要特點集中在如何使語音識別技術(shù)更加準(zhǔn)確。對于人類的語言理解,我們需要更多的準(zhǔn)確性。例如,一個人提出了一個問題,“我如何改變相機(jī)的燈光設(shè)置?”這個問題在技術(shù)上意味著個人想要調(diào)整相機(jī)的閃光燈。因此,在回答具體問題之前,要先集中精力理解人類的自由語言。
因此,總的來說,機(jī)器學(xué)習(xí)和語音識別技術(shù)已經(jīng)進(jìn)入全球范圍,并開始提供有效的運用和高效的服務(wù)。很快,我們將會看到自動速記員得到普遍提升,并在各大會議演講中扮演重要的角色。
原文標(biāo)題:Evolution of Speech Recognition Technology,作者:Sahil Chauhan
閱讀目錄(置頂)(長期更新計算機(jī)領(lǐng)域知識)
閱讀目錄(置頂)(長期更新計算機(jī)領(lǐng)域知識)
閱讀目錄(置頂)(長期科技領(lǐng)域知識)
歌謠帶你看java面試題
?
總結(jié)
以上是生活随笔為你收集整理的第五十期:详解语音识别技术的发展的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 梦织未来Windows驱动编程 第03课
- 下一篇: Excel任务该如何在FineReade