睡眠音频分割及识别问题(五)--YAMNet进一步分析
簡介
YAMNet 是一個經過預訓練的深度網絡,可基于?AudioSet-YouTube 語料庫?預測 521 種音頻事件類別,并采用Mobilenet_v1深度可分離卷積架構。
輸入
模型訓練所使用的音頻特征計算方式如下:
-
所有音頻均重采樣為 16 kHz 單聲道。
-
通過長度 25 毫秒,步長為 10 毫秒,且具有周期性 Hann 時間窗的短時距傅里葉變換計算出聲譜圖。
-
通過將聲譜圖映射到覆蓋 125 至 7500 Hz 范圍的 64 個梅爾倉計算出梅爾聲譜圖。
- 然后將這些特征分幀成具有 50% 重疊且長度為 0.96 秒的示例,每個示例覆蓋 64 個梅爾頻段,總共 96 幀,每幀 10 毫秒。
聲譜圖(spectrogram)
聲音信號是一維信號,直觀上只能看到時域信息,不能看到頻域信息。通過傅里葉變換(FT)可以變換到頻域,但是丟失了時域信息,無法看到時頻關系。為了解決這個問題,產生了很多方法,短時傅里葉變換,小波等都是很常用的時頻分析方法。
短時傅里葉變換(STFT),就是對短時的信號做傅里葉變換。原理如下:對一段長語音信號,分幀、加窗,再對每一幀做傅里葉變換,之后把每一幀的結果沿另一維度堆疊,得到一張圖(類似于二維信號),這張圖就是聲譜圖。
梅爾頻譜
由于得到的聲譜圖較大,為了得到合適大小的聲音特征,通常將它通過梅爾尺度濾波器組(Mel-scale filter banks),變為梅爾頻譜。
頻率的單位是HZ,人耳能聽到的頻率范圍是20-20000HZ,但是人耳對HZ單位不是線性敏感,而是對低HZ敏感,對高HZ不敏感,將HZ頻率轉化為梅爾頻率,則人耳對頻率的感知度就變為線性。變換公式如下:
輸出
將這些 96x64 的片段饋送到 Mobilenet_v1 模型,以在卷積之上針對 1024 個內核生成一個 3x2 的激活函數數組。平均之后將得到 1024 維的嵌入向量,然后通過單個邏輯層得到對應于 960 毫秒輸入波形段的 521 個按類別的輸出得分(由于采用窗口分幀,您至少需要 975 毫秒的輸入波形才能獲得第一幀輸出得分)。
模型
模型采用了大量的卷積和深度可分離卷積層。
總結
以上是生活随笔為你收集整理的睡眠音频分割及识别问题(五)--YAMNet进一步分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 风格迁移模型测试效果
- 下一篇: mysql命令行导入url_Mysql