【学习笔记】Task3 食物声音识别-音频数据特征提取
參考資料
Datawhale Github官方代碼
MFCC特征提取
Datawhale直播
特征提取背景
在之前的Task2中,我們初步查看了數據集的信息,并通過音頻的聲波圖和聲譜圖將聲音可視化了。當我們拿到這些音頻數據之后,接下來就需要進行特征提取(過濾掉背景噪音等不需要的信息)篩選出我們需要的信息了。
接下來我們將簡要介紹以下特征,并詳細學習MFCC特征提取知識:
- 過零率 (Zero Crossing Rate)
- 頻譜質心 (Spectral Centroid)
- 聲譜衰減 (Spectral Roll-off)
- 梅爾頻率倒譜系數 (Mel-frequency cepstral coefficients ,MFCC)
- 色度頻率 (Chroma Frequencies)
1、過零率是一個信號符號變化的比率,即,在每幀中,語音信號從正變為負或從負變為正的次數。 這個特征已在語音識別和音樂信息檢索領域得到廣泛使用,通常對類似金屬、搖滾等高沖擊性的聲音的具有更高的價值。一般情況下,過零率越大,頻率近似越高。
(雖然是率,但是它指的是次數!)
2、譜質心是描述音色屬性的重要物理參數之一,是頻率成分的重心,是在一定頻率范圍內通過能量加權平均的頻率,其單位是Hz。它是聲音信號的頻率分布和能量分布的重要信息。在主觀感知領域,譜質心描述了聲音的明亮度,具有陰暗、低沉品質的聲音傾向有較多低頻內容,譜質心相對較低,具有明亮、歡快品質的多數集中在高頻,譜質心相對較高。該參數常用于對樂器聲色的分析研究。
3、聲譜衰減,它是對聲音信號形狀(波形圖)的一種衡量,表示低于總頻譜能量的指定百分比的頻率。
4、色度頻率是音樂音頻有趣且強大的表示,其中整個頻譜被投影到12個區間,代表音樂八度音的12個不同的半音(或色度)。
MCFF特征提取
人的耳朵在接收信號的時候,不同的頻率會引起耳蝸不同部位的震動。耳蝸就像一個頻譜儀,自動在做特征提取并進行語音信號的處理。在語音識別領域中MFCC(Mel Frequency Cepstral Coefficents)特征提取是最常用的方法,也是本次音頻分類任務中涉及到的特征提取方法。
具體來說,MFCC特征提取的步驟如下:
- 對語音信號進行分幀處理
- 用周期圖(periodogram)法來進行功率譜(power spectrum)估計
- 對功率譜用Mel濾波器組進行濾波,計算每個濾波器里的能量
- 對每個濾波器的能量取log
- 進行離散余弦變換(DCT)變換
- 保留DCT的第2-13個系數,去掉其它
其中,前面兩步是短時傅里葉變換,后面幾步主要涉及梅爾頻譜。
- 預加重——目的是為了去除口唇輻射的影響,增加語音的高頻分辨率
- 分幀——為了保證輸入信號是平穩的,我們需要將語音分成一小段(幀)
- 加窗是為了解決由于信號的非周期截斷,導致頻譜在整個頻帶內發生了拖尾現象的泄漏問題,可以使得使全局更加連續,避免出現吉布斯效應。
- 傅里葉變換
- Mel濾波器組——MFCC的分析著眼于人耳的聽覺特征,人耳所聽到的聲音高低與聲音的頻率并不成線性正比關系,而用Mel頻率尺度更符合人耳的聽覺特性。
- 倒譜分析
總結
以上是生活随笔為你收集整理的【学习笔记】Task3 食物声音识别-音频数据特征提取的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: .net 读取mysql数据库配置文件_
- 下一篇: tornado学习笔记day07-同步与