當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

音频数字化原理

發(fā)布時間：2024/8/1 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了音频数字化原理小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

音頻數(shù)字化簡單原理?

????從字面上來說，數(shù)字化 (Digital) 就是以數(shù)字來表示，例如用數(shù)字去記錄一張桌子的長寬尺寸，各木料間的角度，這就是一種數(shù)字化。跟數(shù)位常常一起被提到的字是模擬 ( Analog/Analogue) ，模擬的意思就是用一種相似的東西去表達，例如將桌子用傳統(tǒng)相機將三視圖拍下來，就是一種模擬的記錄方式。
兩個概念：

1、分貝(dB):聲波振幅的度量單位，非絕對、非線性、對數(shù)式度量方式。以人耳所能聽到的最靜的聲音為1dB,那么會造成人耳聽覺損傷的最大聲音為100dB。人們正常語音交談大約為20dB。10dB意味著音量放大10倍，而20dB卻不是20倍，而是100倍（10的2次方）
。

2、頻率（Hz）:人們能感知的聲音音高。男性語音為180Hz，女性歌聲為600Hz，鋼琴上 C調(diào)至A調(diào)間為440Hz,電視機發(fā)出人所能聽到的聲音是17kHz，人耳能夠感知的最高聲音頻率為20kHz。

將音頻數(shù)字化，其實就是將聲音數(shù)字化。最常見的方式是透過 PCM(脈沖) 。運作原理如下。首先我們考慮聲音經(jīng)過麥克風(fēng)，轉(zhuǎn)換成一連串電壓變化的信號，如下圖所示。這張圖的橫座標為秒，縱座標為電壓大小。要將這樣的信號轉(zhuǎn)為 PCM 格式的方法，是先以等時距分割。

我們把分割線與信號圖形交叉處的座標位置記錄下來，可以得到如下資料，(0.01,11.6 5) ，(0.02,14.00) 、 (0.03,16.00) 、 (0.04,17.74) … ..(0.18,15.94) 、 (0.19 ,17.7) 、 (0.20,20) 。好了，我們現(xiàn)在已經(jīng)把這個波形以數(shù)字記錄下來了。由于我們已經(jīng)知道時間間隔是固定的 0.01 秒，因此我們只要把縱座標記錄下來就可以了，得到的結(jié)果是 11.65 14.00 16.00 17.74 19.00 19.89 20.34 20.07 19.44 18.59 17.47
16.31 15.23 14.43 13.89 13.71 14.49 15.94 17.70 20.00 這一數(shù)列。這一串數(shù)字就
是將以上信號數(shù)字化的結(jié)果。看吧，我們確實用數(shù)字記錄了事物。在以上的范例中，我
們的采樣頻率是 100Hz(1/0.01 秒 ) 。其實電腦中的 .WAV 檔的內(nèi)容就是類似這個樣子
，文件頭中記錄了采樣頻率和可容許最大記錄振幅，后面就是一連串表示振幅大小的數(shù)
字，有正有負。常見CD唱盤是以PCM格式記錄，而它的采樣頻率 (Sample Rate) 是 441
00Hz ，振幅采樣精度/數(shù)位是 16Bits ，也就是說振幅最小可達 -32768(-2^16/2) ，最
大可達 +32767(2^16/2-1) 。CD唱盤是以螺旋狀由內(nèi)到外儲存資料，可以存儲74分鐘的
音樂。CD唱盤的規(guī)格為什么是 44.1kHz、16Bits呢？關(guān)于 44.1kHz 這個數(shù)字的選取分為
兩個層面。首先人耳的聆聽范圍是 20Hz 到 20kHz ，根據(jù) Nyquist s ，理論
上只要用 40kHz 以上的采樣頻率就可以完整記錄 20kHz 以下的信號。那么為什么要用
44.1kHz 這個數(shù)字呢？那是因為在 CD 發(fā)明前硬盤還很貴，所以主要將數(shù)字音頻信號儲
存媒體是錄像帶，用黑白來記錄 0 與 1 。而當時的錄像帶格式為每秒 30 張，而一張
圖又可以分為 490 條線，每一條線又可以儲存三個取樣信號，因此每秒有 30*490*3=4
4100 個取樣點，而為了研發(fā)的方便， CD唱盤也繼承了這個規(guī)格，這就是 44.1kHz 的由
來。在這里我們可以發(fā)現(xiàn)無論使用多么高的采樣精度/數(shù)位，記錄的數(shù)字跟實際的信號大
小總是有誤差，因此數(shù)字化無法完全記錄原始信號。我們稱這個數(shù)字化造成失真稱為量
化失真。

數(shù)字化的最大好處是資料傳輸與保存的不易失真。記錄的資料只要數(shù)字大小不改變，記
錄的資料內(nèi)容就不會改變。如果我們用傳統(tǒng)類比的方式記錄以上信號，例如使用錄音帶
表面的磁場強度來表達振幅大小，我們在復(fù)制資料時，無論電路設(shè)計多么嚴謹，總是無
法避免雜訊的介入。這些雜訊會變成復(fù)制后資料的一部份，造成失真，且復(fù)制越多次信
噪比 ( 信號大小與噪音大小的比值 ) 會越來越低，資料的細節(jié)也越來越少。如果多次
復(fù)制過錄音帶，對以上的經(jīng)驗應(yīng)該不陌生。在數(shù)字化的世界里，這串數(shù)字轉(zhuǎn)換為二進制
，以電壓的高低來判讀1與0，還可以加上各種檢查碼，使得出錯機率很低，因此在一般
的情況下無論復(fù)制多少次，資料的內(nèi)容都是相同，達到不失真的目的。

那么，數(shù)字化的資料如何轉(zhuǎn)換成原來的音頻信號呢？在計算機的聲卡中一塊芯片叫做 D
AC(Digital to Analog Converter) ，中文稱數(shù)模轉(zhuǎn)換器。DAC的功能如其名是把數(shù)字信
號轉(zhuǎn)換回模擬信號。我們可以把DAC想像成 16 個小電阻，各個電阻值是以二的倍數(shù)增大
。當 DAC 接受到來自計算機中的二進制 PCM 信號，遇到 0 時相對應(yīng)的電阻就開啟，遇
到 1 相對應(yīng)的電阻不作用，如此每一批 16Bits 數(shù)字信號都可以轉(zhuǎn)換回相對應(yīng)的電壓大
小。我們可以想像這個電壓大小看起來似乎會像階梯一樣一格一格，跟原來平滑的信號
有些差異，因此再輸出前還要通過一個低通濾波器，將高次諧波濾除，這樣聲音就會變
得比較平滑了。

從前面的內(nèi)容可以看出，音頻數(shù)字化就是將模擬的(連續(xù)的)聲音波形數(shù)字化(離散化)，
以便利用數(shù)字計算機進行處理的過程，主要包參數(shù)括采樣頻率（Sample Rate）和采樣數(shù)
位/采樣精度（Quantizing，也稱量化級）兩個方面，這二者決定了數(shù)字化音頻的質(zhì)量。
采樣頻率是對聲音波形每秒鐘進采樣的次數(shù)。根據(jù)這種采樣方法，采樣頻率是能夠再現(xiàn)
聲音頻率的一倍。人耳聽覺的頻率上限在2OkHz左右，為了保證聲音不失真，采樣頻率應(yīng)
在4OkHz左右。經(jīng)常使用的采樣頻率有11.025kHz、22.05kHz和44.lkHz等。采樣頻率越高
，聲音失真越小、音頻數(shù)據(jù)量越大。采樣數(shù)位是每個采樣點的振幅動態(tài)響應(yīng)數(shù)據(jù)范圍，
經(jīng)常采用的有8位、12位和16位。例如，8位量化級表示每個采樣點可以表示256個(0-25
5)不同量化值，而16位量化級則可表示65536個不同量化值。采樣量化位數(shù)越高音質(zhì)越好
，數(shù)據(jù)量也越大。

反映音頻數(shù)字化質(zhì)量的另一個因素是通道(或聲道)個數(shù)。記錄聲音時，如果每次生成一
個聲波數(shù)據(jù)，稱為單聲道；每次生成二個聲波數(shù)據(jù)，稱為立體聲(雙聲道)，立體聲更能
反映人的聽覺感受。

除了上述因素外，數(shù)字化音頻的質(zhì)量還受其它一些因素(如揚聲器質(zhì)量，麥克風(fēng)優(yōu)劣，計
算機聲卡A/D與D/A（模/數(shù)、數(shù)/模）轉(zhuǎn)換芯片品質(zhì)，各個設(shè)備連接線屏蔽效果好壞等)的
影響。

綜上所述，聲音數(shù)字化的采樣頻率和量化級越高，結(jié)果越接近原始聲音，但記錄數(shù)字聲
音所需存儲空間也隨之增加。可以用下面的公式估算聲音數(shù)字化后每秒所需的存儲量(假
定不經(jīng)壓縮):

存儲量=(采樣頻率*采樣數(shù)位)/8(字節(jié)數(shù))

若采用雙聲道錄音，存儲量再增加一倍。例如，數(shù)字激光唱盤(CD－DA，紅皮書標準)的
標準采樣頻率為44.lkHz，采樣數(shù)位為16位，立體聲，可以幾乎無失真地播出頻率高達2
2kHz的聲音，這也是人類所能聽到的最高頻率聲音。激光唱盤一分鐘音樂需要的存儲量
為:

44.1*1000*l6*2*60/8=10，584，000(字節(jié))=10.584MBytes

這個數(shù)值就是微軟Windows系統(tǒng)中WAVE(.WAV)聲音文件在硬盤中所占磁盤空間的存儲量。
由MICROSOFT公司開發(fā)的WAV聲音文件格式，是如今計算機中最為常見的聲音文件類型之
一，它符合RIFF文件規(guī)范，用于保存WINDOWS平臺的音頻信息資源，被WINDOWS平臺機器
應(yīng)用程序所廣泛支持。另外，WAVE格式支持MSADPCM、CCIPTALAW、CCIPT-LAW和其他壓縮
算法，支持多種音頻位數(shù)，采樣頻率和聲道，但其缺點是文件體積較大，所以不適合長
時間記錄。因此，才會出現(xiàn)各種音頻壓縮編/解碼技術(shù)的出現(xiàn)，例如，MP3，RM，WMA,VQ
F,ASF等等它們各自有自己的應(yīng)用領(lǐng)域，并且不斷在競爭中求得發(fā)展。

WAVE、MIDI、MP3、RM常見音頻格式簡介

WAVE--WINDOWS系統(tǒng)最基本音頻格式---*.wav

1、占用巨大硬盤空間，音質(zhì)最好，支持音樂與語音
2、通常采樣使用44KHZ采樣/秒,16位/采樣，立體聲，雙聲道，CD音質(zhì)
3、一分鐘音樂占用大約10M硬盤空間,56K調(diào)制解調(diào)器需要30分鐘才能完成網(wǎng)絡(luò)傳送

MIDI--電子合成音樂---*.mid

1、與WAVE格式截然不同，只有音樂，沒有語音
2、使用音色庫回放，有軟硬波表之分，
3、十分節(jié)省磁盤空間，但是音質(zhì)回放對聲卡依賴較大
4、無法使用Total Recorder錄制mid音樂
5、可以使用Wingroove軟波表或其它軟件轉(zhuǎn)為wave

MP3--最流行音頻壓縮格式---*.mp3

1、節(jié)省硬盤空間，有損壓縮，無法復(fù)原
2、音質(zhì)與不同壓縮編碼軟件有關(guān)
3、音樂與語音，可以使用各種采樣比率

RM--網(wǎng)絡(luò)流媒體壓縮格式---*.rm/*.ra

1、節(jié)省磁盤空間，有損壓縮，無法復(fù)原
2、在目前比較窄的網(wǎng)絡(luò)帶寬下，與Real Server服務(wù)器配合，使用Real Player在客戶端
比較流暢地播放音視頻媒體

其它還有：

1、微軟的WMA編碼--*.wma
2、微軟的ASF流媒體編碼--*.asf
3、Yamaha的VQF編碼--*.vqf

總結(jié)

以上是生活随笔為你收集整理的音频数字化原理的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 25.构造ICMP数据包
下一篇：（php毕业设计）基于php旅游信息网站

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

音频数字化原理

總結(jié)