音频数字化原理
音頻數(shù)字化簡單原理?
????從字面上來說,數(shù)字化 (Digital) 就是以數(shù)字來表示,例如用數(shù)字去記錄一張桌子的長寬尺寸,各木料間的角度,這就是一種數(shù)字化。跟數(shù)位常常一起被提到的字是模擬 ( Analog/Analogue) ,模擬的意思就是用一種相似的東西去表達,例如將桌子用傳統(tǒng)相機 將三視圖拍下來,就是一種模擬的記錄方式。
兩個概念:
1、分貝(dB):聲波振幅的度量單位,非絕對、非線性、對數(shù)式度量方式。以人耳所能聽到的最靜的聲音為1dB,那么會造成人耳聽覺損傷的最大聲音為100dB。人們正常語音交談大約為20dB。10dB意味著音量放大10倍,而20dB卻不是20倍,而是100倍(10的2次方)
。
2、頻率(Hz):人們能感知的聲音音高。男性語音為180Hz,女性歌聲為600Hz,鋼琴上 C調(diào)至A調(diào)間為440Hz,電視機發(fā)出人所能聽到的聲音是17kHz,人耳能夠感知的最高聲音頻 率為20kHz。
將音頻數(shù)字化,其實就是將聲音數(shù)字化。最常見的方式是透過 PCM(脈沖) 。運作原理如下。首先我們考慮聲音經(jīng)過麥克風(fēng),轉(zhuǎn)換成一連串電壓變化的信號,如下圖所示。這張圖的橫座標為秒,縱座標為電壓大小。要將這樣的信號轉(zhuǎn)為 PCM 格 式的方法,是先以等時距分割。
我們把分割線與信號圖形交叉處的座標位置記錄下來,可以得到如下資料,(0.01,11.6 5) ,(0.02,14.00) 、 (0.03,16.00) 、 (0.04,17.74) … ..(0.18,15.94) 、 (0.19 ,17.7) 、 (0.20,20) 。好了,我們現(xiàn)在已經(jīng)把這個波形以數(shù)字記錄下來了。由于我們 已經(jīng)知道時間間隔是固定的 0.01 秒,因此我們只要把縱座標記錄下來就可以了,得到 的結(jié)果是 11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.44 18.59 17.47
16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00 這一數(shù)列。這一串數(shù)字就
是將以上信號數(shù)字化的結(jié)果。看吧,我們確實用數(shù)字記錄了事物。在以上的范例中,我
們的采樣頻率是 100Hz(1/0.01 秒 ) 。其實電腦中的 .WAV 檔的內(nèi)容就是類似這個樣子
,文件頭中記錄了采樣頻率和可容許最大記錄振幅,后面就是一連串表示振幅大小的數(shù)
字,有正有負。常見CD唱盤是以PCM格式記錄,而它的采樣頻率 (Sample Rate) 是 441
00Hz ,振幅采樣精度/數(shù)位是 16Bits ,也就是說振幅最小可達 -32768(-2^16/2) ,最
大可達 +32767(2^16/2-1) 。CD唱盤是以螺旋狀由內(nèi)到外儲存資料,可以存儲74分鐘的
音樂。CD唱盤的規(guī)格為什么是 44.1kHz、16Bits呢?關(guān)于 44.1kHz 這個數(shù)字的選取分為
兩個層面。首先人耳的聆聽范圍是 20Hz 到 20kHz ,根據(jù) Nyquist s ,理論
上只要用 40kHz 以上的采樣頻率就可以完整記錄 20kHz 以下的信號。那么為什么要用
44.1kHz 這個數(shù)字呢?那是因為在 CD 發(fā)明前硬盤還很貴,所以主要將數(shù)字音頻信號儲
存媒體是錄像帶,用黑白來記錄 0 與 1 。而當時的錄像帶格式為每秒 30 張,而一張
圖又可以分為 490 條線,每一條線又可以儲存三個取樣信號,因此每秒有 30*490*3=4
4100 個取樣點,而為了研發(fā)的方便, CD唱盤也繼承了這個規(guī)格,這就是 44.1kHz 的由
來。在這里我們可以發(fā)現(xiàn)無論使用多么高的采樣精度/數(shù)位,記錄的數(shù)字跟實際的信號大
小總是有誤差,因此數(shù)字化無法完全記錄原始信號。我們稱這個數(shù)字化造成失真稱為量
化失真。
數(shù)字化的最大好處是資料傳輸與保存的不易失真。記錄的資料只要數(shù)字大小不改變,記
錄的資料內(nèi)容就不會改變。如果我們用傳統(tǒng)類比的方式記錄以上信號,例如使用錄音帶
表面的磁場強度來表達振幅大小,我們在復(fù)制資料時,無論電路設(shè)計多么嚴謹,總是無
法避免雜訊的介入。這些雜訊會變成復(fù)制后資料的一部份,造成失真,且復(fù)制越多次信
噪比 ( 信號大小與噪音大小的比值 ) 會越來越低,資料的細節(jié)也越來越少。如果多次
復(fù)制過錄音帶,對以上的經(jīng)驗應(yīng)該不陌生。在數(shù)字化的世界里,這串數(shù)字轉(zhuǎn)換為二進制
,以電壓的高低來判讀1與0,還可以加上各種檢查碼,使得出錯機率很低,因此在一般
的情況下無論復(fù)制多少次,資料的內(nèi)容都是相同,達到不失真的目的。
那么,數(shù)字化的資料如何轉(zhuǎn)換成原來的音頻信號呢?在計算機的聲卡中一塊芯片叫做 D
AC(Digital to Analog Converter) ,中文稱數(shù)模轉(zhuǎn)換器。DAC的功能如其名是把數(shù)字信
號轉(zhuǎn)換回模擬信號。我們可以把DAC想像成 16 個小電阻,各個電阻值是以二的倍數(shù)增大
。當 DAC 接受到來自計算機中的二進制 PCM 信號,遇到 0 時相對應(yīng)的電阻就開啟,遇
到 1 相對應(yīng)的電阻不作用,如此每一批 16Bits 數(shù)字信號都可以轉(zhuǎn)換回相對應(yīng)的電壓大
小。我們可以想像這個電壓大小看起來似乎會像階梯一樣一格一格,跟原來平滑的信號
有些差異,因此再輸出前還要通過一個低通濾波器,將高次諧波濾除,這樣聲音就會變
得比較平滑了。
從前面的內(nèi)容可以看出,音頻數(shù)字化就是將模擬的(連續(xù)的)聲音波形數(shù)字化(離散化),
以便利用數(shù)字計算機進行處理的過程,主要包參數(shù)括采樣頻率(Sample Rate)和采樣數(shù)
位/采樣精度(Quantizing,也稱量化級)兩個方面,這二者決定了數(shù)字化音頻的質(zhì)量。
采樣頻率是對聲音波形每秒鐘進采樣的次數(shù)。根據(jù)這種采樣方法,采樣頻率是能夠再現(xiàn)
聲音頻率的一倍。人耳聽覺的頻率上限在2OkHz左右,為了保證聲音不失真,采樣頻率應(yīng)
在4OkHz左右。經(jīng)常使用的采樣頻率有11.025kHz、22.05kHz和44.lkHz等。采樣頻率越高
,聲音失真越小、音頻數(shù)據(jù)量越大。采樣數(shù)位是每個采樣點的振幅動態(tài)響應(yīng)數(shù)據(jù)范圍,
經(jīng)常采用的有8位、12位和16位。例如,8位量化級表示每個采樣點可以表示256個(0-25
5)不同量化值,而16位量化級則可表示65536個不同量化值。采樣量化位數(shù)越高音質(zhì)越好
,數(shù)據(jù)量也越大。
反映音頻數(shù)字化質(zhì)量的另一個因素是通道(或聲道)個數(shù)。記錄聲音時,如果每次生成一
個聲波數(shù)據(jù),稱為單聲道;每次生成二個聲波數(shù)據(jù),稱為立體聲(雙聲道),立體聲更能
反映人的聽覺感受。
除了上述因素外,數(shù)字化音頻的質(zhì)量還受其它一些因素(如揚聲器質(zhì)量,麥克風(fēng)優(yōu)劣,計
算機聲卡A/D與D/A(模/數(shù)、數(shù)/模)轉(zhuǎn)換芯片品質(zhì),各個設(shè)備連接線屏蔽效果好壞等)的
影響。
綜上所述,聲音數(shù)字化的采樣頻率和量化級越高,結(jié)果越接近原始聲音,但記錄數(shù)字聲
音所需存儲空間也隨之增加。可以用下面的公式估算聲音數(shù)字化后每秒所需的存儲量(假
定不經(jīng)壓縮):
存儲量=(采樣頻率*采樣數(shù)位)/8(字節(jié)數(shù))
若采用雙聲道錄音,存儲量再增加一倍。例如,數(shù)字激光唱盤(CD-DA,紅皮書標準)的
標準采樣頻率為44.lkHz,采樣數(shù)位為16位,立體聲,可以幾乎無失真地播出頻率高達2
2kHz的聲音,這也是人類所能聽到的最高頻率聲音。激光唱盤一分鐘音樂需要的存儲量
為:
44.1*1000*l6*2*60/8=10,584,000(字節(jié))=10.584MBytes
這個數(shù)值就是微軟Windows系統(tǒng)中WAVE(.WAV)聲音文件在硬盤中所占磁盤空間的存儲量。
由MICROSOFT公司開發(fā)的WAV聲音文件格式,是如今計算機中最為常見的聲音文件類型之
一,它符合RIFF文件規(guī)范,用于保存WINDOWS平臺的音頻信息資源,被WINDOWS平臺機器
應(yīng)用程序所廣泛支持。另外,WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他壓縮
算法,支持多種音頻位數(shù),采樣頻率和聲道,但其缺點是文件體積較大,所以不適合長
時間記錄。因此,才會出現(xiàn)各種音頻壓縮編/解碼技術(shù)的出現(xiàn),例如,MP3,RM,WMA,VQ
F,ASF等等它們各自有自己的應(yīng)用領(lǐng)域,并且不斷在競爭中求得發(fā)展。
WAVE、MIDI、MP3、RM常見音頻格式簡介
WAVE--WINDOWS系統(tǒng)最基本音頻格式---*.wav
1、占用巨大硬盤空間,音質(zhì)最好,支持音樂與語音
2、通常采樣使用44KHZ采樣/秒,16位/采樣,立體聲,雙聲道,CD音質(zhì)
3、一分鐘音樂占用大約10M硬盤空間,56K調(diào)制解調(diào)器需要30分鐘才能完成網(wǎng)絡(luò)傳送
MIDI--電子合成音樂---*.mid
1、與WAVE格式截然不同,只有音樂,沒有語音
2、使用音色庫回放,有軟硬波表之分,
3、十分節(jié)省磁盤空間,但是音質(zhì)回放對聲卡依賴較大
4、無法使用Total Recorder錄制mid音樂
5、可以使用Wingroove軟波表或其它軟件轉(zhuǎn)為wave
MP3--最流行音頻壓縮格式---*.mp3
1、節(jié)省硬盤空間,有損壓縮,無法復(fù)原
2、音質(zhì)與不同壓縮編碼軟件有關(guān)
3、音樂與語音,可以使用各種采樣比率
RM--網(wǎng)絡(luò)流媒體壓縮格式---*.rm/*.ra
1、節(jié)省磁盤空間,有損壓縮,無法復(fù)原
2、在目前比較窄的網(wǎng)絡(luò)帶寬下,與Real Server服務(wù)器配合,使用Real Player在客戶端
比較流暢地播放音視頻媒體
其它還有:
1、微軟的WMA編碼--*.wma
2、微軟的ASF流媒體編碼--*.asf
3、Yamaha的VQF編碼--*.vqf
總結(jié)
- 上一篇: 25.构造ICMP数据包
- 下一篇: (php毕业设计)基于php旅游信息网站