语音识别基础知识二
1、聲波的特性
聲波在空氣中是一種縱波,它的振動(dòng)方向和傳播方向是一致的。聲音在空氣中的震動(dòng)形成壓力波,產(chǎn)生壓強(qiáng),經(jīng)過(guò)傳感器接受轉(zhuǎn)化,變成時(shí)變的電壓信號(hào)。
聲波的特性主要包括頻率和聲強(qiáng)。某一瞬間介質(zhì)中的壓強(qiáng)相對(duì)于無(wú)聲波時(shí)壓強(qiáng)的改變量稱為聲壓,記為p(t),單位時(shí)Pa。
聲壓級(jí)(sound pressure level, SPL),一般把很小的聲壓p0=2X10^(-5)Pa作為參考聲壓,把所要測(cè)量的聲壓p與參考聲壓的比值取對(duì)數(shù)后,乘以20得到的數(shù)值稱為聲壓級(jí)。
國(guó)家標(biāo)準(zhǔn)規(guī)定住宅區(qū)白天的噪音不能超過(guò)50dB,夜間應(yīng)低于45分貝。
衡量聲壓的信噪比(signal to noise ratio, SNR)單位也用分貝,且數(shù)值越高,表示聲音越干凈,噪聲比例越少。
2、聲音的接受裝置:動(dòng)圈式/電容式麥克風(fēng)。
動(dòng)圈式麥克風(fēng): 精度、靈敏度較低,體積大,其突出特點(diǎn)是輸出阻抗小,所以接較長(zhǎng)的電纜也不降低其靈敏度,溫度和濕度的變化對(duì)其靈敏度也無(wú)大的影響, 用于語(yǔ)音廣播、擴(kuò)聲系統(tǒng) 。
電容式麥克風(fēng): 音質(zhì)好,靈敏度較高,但需要電源, 適用于舞臺(tái)、錄音室等。
3、麥克風(fēng)的性能指標(biāo)
- 指向性:麥克風(fēng)對(duì)于不同方向的聲音靈敏度,稱為麥克風(fēng)的指向性。指向性用麥克風(fēng)正面 0°方向和背面 180 °方向上的靈敏度的差值來(lái)表示,差值大于 15dB 者稱為強(qiáng)方向性麥克風(fēng)。
- 全指向性 麥克風(fēng)從各個(gè)方向拾取聲音的性能一致。當(dāng)說(shuō)話的人要來(lái)回走動(dòng)時(shí)采用此類麥克風(fēng)較為合適。
- 心形指向:麥克風(fēng)的靈敏度在水平方向呈心臟形,正面靈敏度最大側(cè)面稍小,背面最小。這種麥克風(fēng)在多種擴(kuò)音系統(tǒng)中都有優(yōu)秀的表現(xiàn)。
- 單指向性:麥克風(fēng)又稱為超心形指向性麥克風(fēng),它的指向性比心形麥克風(fēng)更尖銳,正面敏度極高,其它方向靈敏度急劇衰減,特別適用于高噪音的環(huán)境。
- 頻率響應(yīng):表示麥克風(fēng)拾音的頻率范圍,以及在此范圍內(nèi)對(duì)聲音各頻率的靈敏度。一般說(shuō)來(lái), 頻率范圍越寬、頻響曲線愈平直越好。
- 靈敏度:一定強(qiáng)度的聲音作用下輸出電信號(hào)的大小,以分貝表示,并規(guī)定 1V/Pa 為 0dB ,因話筒輸出一般為毫伏級(jí),所以,其靈敏度的分貝值始終為負(fù)值。
- 輸出阻抗
4、麥克風(fēng)陣列的功能
麥克風(fēng)陣列有線型、圓形等多種排列方式,主要實(shí)現(xiàn)一下功能:
①語(yǔ)音增強(qiáng)(Speech Enhancement)
②聲源定位(Source Localization)
③去混響(Dereverberation)
④生源信號(hào)提取(分離)
5、聲音的采樣——奈奎斯特定理
聲音的采樣需要滿足采樣定理:當(dāng)采樣率大于信號(hào)中最高頻率的兩倍時(shí),采樣之后的數(shù)字信號(hào)能夠完后曾保留原始信號(hào)中的信息。采樣定律又稱為奈奎斯特(Nyquist)定理。
6、聲音的量化
所謂量化,就是把經(jīng)過(guò)采樣(抽樣)得到的瞬時(shí)值將其幅度離散,即用一組規(guī)定的電平,把瞬時(shí)抽樣值用最接近的電平值來(lái)表示;或指把輸入信號(hào)幅度連續(xù)變化的范圍分為有限個(gè)不重疊的子區(qū)間(量化級(jí)),每個(gè)子區(qū)間用該區(qū)間內(nèi)一個(gè)確定數(shù)值表示,落入其內(nèi)的輸入信號(hào)將以該值輸出,從而將連續(xù)輸入信號(hào)變?yōu)榫哂杏邢迋€(gè)離散值電平的近似信號(hào)。
按照量化級(jí)的劃分方式分,有均勻量化和非均勻量化。
均勻量化:ADC輸入動(dòng)態(tài)范圍被均勻地劃分為2^n份。
非均勻量化:ADC輸入動(dòng)態(tài)范圍的劃分不均勻,一般用類似指數(shù)的曲線進(jìn)行量化。
非均勻量化是針對(duì)均勻量化提出的,因?yàn)橐话愕恼Z(yǔ)音信號(hào)中,絕大部分是小幅度的信號(hào),且人耳聽(tīng)覺(jué)遵循指數(shù)規(guī)律。為了保證關(guān)心的信號(hào)能夠被更精確的還原,我們應(yīng)該將更多的bit用于表示小信號(hào)。常見(jiàn)的非均勻量化有A律和μ率等,它們的區(qū)別在于量化曲線不同。
7、語(yǔ)音文件格式的重要參數(shù)
采樣率:8kHz(電話、嵌入式)、16kHz(PC)、44.1kHz(CD)
采樣精度(量化位數(shù)):即每次取樣信息量。
比特率:(bps: bits per second), 如8k16bit為kpbs
語(yǔ)音通道數(shù):語(yǔ)音通道數(shù)的個(gè)數(shù)表明語(yǔ)音產(chǎn)生的波形數(shù),一般分為單聲道和立體聲道。單聲道產(chǎn)生一個(gè)波形,立體聲道則產(chǎn)生兩個(gè)波形。
8、語(yǔ)音的編碼
8.1 PCM編碼
·??????? 脈沖編碼調(diào)制( pulse code modulation, PCM )是將模擬信號(hào)經(jīng)采樣、量化、編碼的過(guò)程。它只將編碼后的數(shù)據(jù)保存,并不保存任何格式信息。最大優(yōu)點(diǎn)是音質(zhì)好,最大缺點(diǎn)是占用存儲(chǔ)空間。
·??????? PCM 是 PC 麥克風(fēng)常用格式( 寬帶錄音 ,16k16bit 可保存為 PCM raw data (.raw 文件 , 無(wú)頭部)或 Microsoft PCM 格式(.wav 文件) 。
·??????? 還有一種編碼是自適應(yīng)差分 PCM(ADPCM)、ADPCM編碼是有損編碼( 32kbps),保存為 Microsoft ADPCM 格式 (.wav 文件) 。
·??????? 存儲(chǔ)格式:
- PCM raw data(*.raw)
- Microsoft PCM(*.wav)
- Microsoft ADPCM(*.wav)
8.2 mp3編碼
MP3對(duì)音頻信號(hào)采用的是有損壓縮方式,壓縮率高達(dá)10:1~12:1 。為了降低聲音失真度, MP3 采取了 感官編碼技術(shù)并使壓縮后的文件回放時(shí)能夠達(dá)到比較接近原始音頻數(shù)據(jù)的聲音效果。
8.3 A-law(A律)編碼
1.ITU-T (國(guó)際電聯(lián)電信標(biāo)準(zhǔn)局)定義的關(guān)于脈沖編碼的一種壓縮解壓縮算法。
2.世界上大部分國(guó)家采用 A-law(A 律 壓縮算法。美國(guó)采用 𝜇-law(𝜇律)算法進(jìn)行脈沖編碼。
3.固話錄音(300-3300Hz)常用的格式(窄帶錄音 , 8k8bit)。
8.4 Speex編碼
Speex 是一種音頻編解碼的開(kāi)源庫(kù),壓縮率變化范圍較廣,比特率 2kbps 到 44kpbs ,常用于網(wǎng)絡(luò)狀況復(fù)雜多變的移動(dòng)終端應(yīng)用。
8.5 其他常用格式
- AMR (Adaptive Multi Rate) :每秒鐘的 AMR 音頻大小可控制在 1K字節(jié)左右,常用于彩信、微信語(yǔ)音,但失真比較厲害。
- WMA (Windows Media Audio) :為抗衡 MP3 ,微軟公司推出的一種新的音頻格式,在壓縮比和音質(zhì)方面都超過(guò)了 MP3 。
- AAC (Advanced Audio Coding) :相對(duì)于 MP3,AAC 格式的音質(zhì)更佳,文件更小。
- M4A : MPEG 4 音頻標(biāo)準(zhǔn)的文件的擴(kuò)展名,最常用的 .m4a 文件是使用 AAC 格式的。
- FLAC (Free Lossless Audio Codec) :自由音頻壓縮編碼 2012 年以來(lái)被很多軟硬件產(chǎn)品支持,其特點(diǎn)是無(wú)損壓縮,不會(huì)破壞` 任何音頻信息。
9 wav文件
WAV 文件是以 RIFF (resource interchange file format) 的檔案格式儲(chǔ)存,包含文件頭( Header )與數(shù)據(jù) Data )。
WAV 文件頭由若干個(gè) Chunk 組成的,按照在文件中的出現(xiàn)位置包括:WAVECHUNK, FMTCHUNK, FACTCHUNK( 可選 ), DATACHUNK ,具體包括如下結(jié)構(gòu)體:
| Header | Data | ||||
| WAVECHUNK | FMTCHUNK | FACTCHUNK | DATACHUNK | ||
Wav文件頭部格式說(shuō)明表
| 偏移地址 | 字節(jié)數(shù) | 數(shù)據(jù)類型 | 內(nèi) 容 | |
| 文件頭 | 00H | 4 | char | "RIFF"標(biāo)志 |
| 04H | 4 | long | 文件長(zhǎng)度 | |
| 08H | 4 | char | "WAVE"標(biāo)志 | |
| 0CH | 4 | char | "fmt"標(biāo)志 | |
| 10H | 4 | 過(guò)渡字節(jié)(不定) | ||
| 14H | 2 | short | 格式類別(10H為PCM形式的聲音數(shù)據(jù)) | |
| 16H | 2 | short | 通道數(shù),單聲道為1,雙聲道為2 | |
| 18H | 4 | long | 采樣率(每秒樣本數(shù)),表示每個(gè)通道的播放速度, | |
| 1CH | 4 | long | 波形音頻數(shù)據(jù)傳送速率,其值為通道數(shù)×每秒數(shù)據(jù)位數(shù)×每樣本的數(shù)據(jù)位數(shù)/8。 播放軟件利用此值可以估計(jì)緩沖區(qū)的大小。 | |
| 20H | 2 | short | 數(shù)據(jù)塊的調(diào)整數(shù)(按字節(jié)算的),其值為通道數(shù)×每樣本的數(shù)據(jù)位值/8。 播放軟件需要一次處理多個(gè)該值大小的字節(jié)數(shù)據(jù),以便將其值用于緩沖區(qū)的調(diào)整。 | |
| 22H | 2 | short | 每樣本的數(shù)據(jù)位數(shù),表示每個(gè)聲道中各個(gè)樣本的數(shù)據(jù)位數(shù)。 如果有多個(gè)聲道,對(duì)每個(gè)聲道而言,樣本大小都一樣。 | |
| 24H | 4 | char | 數(shù)據(jù)標(biāo)記符"data" | |
| 28H | 4 | long | 語(yǔ)音數(shù)據(jù)的長(zhǎng)度 |
對(duì)wav文件進(jìn)行處理之前,我們要先了解其格式是否符合規(guī)范,如電話錄音往往8kHz8bit的格式,對(duì)應(yīng)的比特率為64kbps,PC麥克風(fēng)露營(yíng)一般是16kHz16bit的格式,對(duì)應(yīng)的i特呂為256kpbs。在電腦上可以選中wav文件,然后點(diǎn)擊詳細(xì)信息,查看是否滿足條件。
本文的內(nèi)容主要參考廈門(mén)大學(xué)洪青陽(yáng)教授語(yǔ)音識(shí)別的課件。
總結(jié)
- 上一篇: vb.net服务器启动后cpu占用了70
- 下一篇: Django 部署基础【使用 Nginx