當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文翻译：2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on

發布時間：2023/12/14 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了论文翻译：2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Python微信訂餐小程序課程視頻

https://edu.csdn.net/course/detail/36074

Python實戰量化交易理財系統

https://edu.csdn.net/course/detail/35475

摘要2? DeepfilterNet2.1? 信號模型2.2? Deep Filtering2.3? 框架概述2.4? DNN模型2.5? 數據處理2.6? 損失函數3? 實驗3.1? 訓練步驟3.2? 結果4? 結論

論文地址：DeepFilterNet：基于深度濾波的全頻帶音頻低復雜度語音增強框架

論文代碼：https://github.com/ Rikorose/DeepFilterNet

引用：Schr?ter H, Rosenkranz T, Maier A. DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering[J]. arXiv preprint arXiv:2110.05588, 2021.

摘要

復值處理將基于深度學習的語音增強和信號提取提升到一個新的水平。通常，該過程基于應用于噪聲頻譜圖的時頻 (TF) 掩膜，而復數掩模(CM)通常比實值掩模更受青睞，因為它們能夠修改相位。最近的工作提出用一個復數的濾波器代替帶掩碼的逐點乘法。這允許利用每個頻帶內的局部相關性，合并來自以前和未來時間步長的信息。

在這項工作中，我們提出了DeepFilterNet，一個利用深度過濾的兩階段語音增強框架。首先，我們使用模擬人類頻率感知的 ERB 縮放增益來增強頻譜包絡。第二階段采用Deep filtering 增強語音的周期性成分。除了利用語音的感知特性之外，我們還通過可分離的卷積和線性和循環層中的廣泛分組來強制網絡稀疏性，以設計一個低復雜度的架構。

我們進一步表明，我們的兩階段深度過濾方法在各種頻率分辨率和延遲上都優于復雜的掩碼，并且與其他最先進的模型相比，表現出令人信服的性能。

關鍵詞：復數域

2? DeepfilterNet

2.1? 信號模型

設x(k)x(k)x(k)為在嘈雜房間中錄制的混合信號。

公式1：x(t)=s(t)?h(t)+z(t)

公式1：x(t)=s(t)*h(t)+z(t)
式中，s(t)s(t)為純語音信號，h(t)h(t)為揚聲器對麥克風的室內脈沖響應，z(t)z(t)為已包含混響環境的加性噪聲信號。通常，降噪是在頻域進行的

公式2：X(k,f)=S(k,f)·H(k,f)+Z(k,f)

公式2：X(k,f)=S(k,f)·H(k,f)+Z(k,f)
其中X(k,f)X(k,f)是時域信號x(t)x(t)的STFT結果，tt和ff分別是時間和頻率bin。

2.2? Deep Filtering

Deep Filtering被定義為 TF域的復數濾波器：

公式3：Y(k,f)=N∑i=0C(k,i,f)?X(k?i+l,f)

公式3：Y(k, f)=\sum_{i=0}^{N} C(k, i, f) \cdot X(k-i+l, f)
其中CC為應用于輸入頻譜XX的濾波器階NN的復數系數，YY為增強頻譜。在我們的框架中，深度濾波器應用于增益增強頻譜YGY^G。ll是一個可選的lookahead(前瞻)，如果l≥1l\geq 1，它允許將非因果抽頭合并到線性組合中。此外，還可以在頻率軸上進行過濾，允許合并相關性，例如由于重疊頻帶。

為了進一步保證深度濾波只影響周期部分，我們引入了一個學習的加權因子α\alpha來生成最終輸出頻譜。

公式4：YDF(k,f)=α(k)?YDF′(k,f)+(1?α(k))?YG(k,f)

公式4：Y^{D F}(k, f)=\alpha(k) \cdot Y^{D F^{\prime}}(k, f)+(1-\alpha(k)) \cdot Y^{G}(k, f)

2.3? 框架概述

圖1所示。DeepFilterNet算法概述。第1階段用藍色表示，第2階段用黃色表示

DeepFilterNet 算法的概述如圖 1 所示。給定一個嘈雜(noisy)的音頻信號x(t)x(t)，我們使用短時傅立葉變換 (STFT) 將信號轉換到頻域。該框架設計用于高達 48 kHz 的采樣率，以支持高分辨率 VoIP 應用程序和介于 4 ms 和 30 ms 之間的 STFT 窗口大小NFFTN_FFT。默認情況下，我們使用Nov=50N_{ov} = 50%的重疊，但也支持低延遲場景的更高重疊。我們為深度神經網絡 (DNN) 使用兩種輸入特征。對于 ERB 編碼器/解碼器特征XERB(k,b)X_{ERB}(k,b)，b∈[0,NERB]b\in [0, N_{ERB}]，我們計算對數功率譜，使用衰減為 1 s 的指數均值歸一化 [12] 對其進行歸一化，并應用一個可配置的頻段數NERB的矩形ERB濾波器組(FB)N_{ERB}的矩形 ERB 濾波器組 (FB)。對于深度濾波器網絡特征$X_{DF}(k,f’), f’\in [0, f_{DF}]，我們使用復譜作為輸入，并使用具有相同衰減的指數單位歸一化 [9] 對其進行歸一化。

編碼器/解碼器體系結構用于預測ERBscale增益。利用逆ERB濾波器組將增益變換回頻域，然后與噪聲譜進行點向相乘。為了進一步增強周期分量，DeepFilterNet預測每頻帶濾波器系數CN的階數。我們只使用頻率fDFf_{DF}的深度濾波，假設周期分量包含較低頻率的大部分能量。

再加上卷積層的DNN前向和深度濾波器前向，得到整體延遲為lNFT+lNov+max(lDNN,lDF)l_{N_{FT}}+l_{N_{ov}}+max(l_{DNN}, l_{DF})導致的最小延遲為5毫秒。

2.4? DNN模型

我們專注于設計一個只使用標準DNN層(如卷積、批處理歸一化、ReLU等)的高效DNN，這樣我們就可以利用層融合以及推理框架的良好支持。我們采用類似于[13,7]的UNet架構，如圖2所示。我們的卷積塊包含一個可分離的卷積(深度卷積后是1x1卷積)，核大小為(3x2)， C = 64個通道，然后是批歸一化和ReLU激活。卷積層在時間上對齊，這樣第一層可以引入一個整體的lookkaahead lDNNl_{DNN}。我們在線性和GRU層中大量使用分組[14,13]。也就是說，將層輸入分成P = 8組，產生P個較小的GRUs/線性層，隱藏大小為512/P = 64。輸出被shuffle以恢復組間相關性，并再次concatenated到完全隱藏的大小。帶有addskip的卷積pathways(通路)[13,7]用于保持頻率分辨率。我們為DF Net使用了一個全局路徑跳過連接，以在輸出層提供原始噪聲相位的良好表示。

圖2所示。DeepFilterNet架構概述

我們使用1x1路徑卷積(PConv)作為add-skip連接和轉置卷積塊(TConv)，類似于編碼器塊

利用分組線性和GRU (GLinear, GGRU)引入稀疏性

2.5? 數據處理

DeepFilterNet框架利用了大量的動態增強。我們在信噪比(SNR)為{5,0,5,10,20,40}dB的情況下，將一個純凈的語音信號與多達5個噪聲信號混合。為了進一步增加變量，我們使用[1]、EQs和{6,0,6}dB的二階濾波器增強語音和噪聲信號。隨機重采樣增加了音高的變化，采用室內脈沖響應(RIR)模擬混響環境。如果語音信號的采樣率低于當前模型的采樣率，則在混合前對噪聲信號應用低通濾波器。例如，這也允許在全頻帶音頻(48 kHz)上訓練的模型在較低采樣率的輸入信號上表現同樣良好。我們進一步支持訓練衰減有限模型。因此，我們生成一個噪聲目標信號ss，它的信噪比比噪聲信號xx高6到20 dB。在訓練過程中，我們對預測增益G進行鉗子，并有一個噪聲目標ss，DF Net將學會不去除比指定更多的噪聲。這對可穿戴設備很有用，因為我們想讓用戶保持一定的環境意識(識別自己身處的環境)。

2.6? 損失函數

提供理想的DF系數CNC^{N并非易事，因為有無限多的可能性[8]。相反，我們使用壓縮譜損失來隱式學習ERB增益GG和濾波器系數CNC}N[15，13]。相反，我們使用壓縮(compressed)頻譜損失來隱式學習ERB增益GG和濾波器系數CNC^N[15，13]。

公式5：Lspec=∑k,f‖|Y|c?|S|c‖2+∑k,f‖|Y|cejφY?|S|cejφS‖2

公式5：\mathcal{L}_{s p e c}=\sum_{k, f}\left||Y|^{c}-|S|{c}\right|^{2}+\sum_{k, f}\left||Y|^{c} e^{j \varphi_{Y}}-|S|^{c} e^{j \varphi_{S}}\right|^{2}
其中，c=0.6c=0.6是建模感知響度的壓縮因子[16]。由于具有幅值和相位感知項，使得該損失既適用于建模實值增益，也適用于復數DF系數預測。為了使幅值接近于零的TF bin的梯度變硬(例如，對于采樣率較低的輸入信號)，我們計算φX的向后角度方法，如下所示：

公式6：δφδX=δX?(??{X}|Xh|2,?{X}|Xh|2)

公式6：\frac{\delta \varphi}{\delta X}=\delta X \cdot\left(\frac{-\Im{X}}{\left|X_{h}\right|^{2}}, \frac{\Re{X}}{\left|X_{h}\right|^{2}}\right)
式中?{X}\Re{X}和?{X}\Im{X}表示頻譜X的實部和虛部，|Xh|2=max(?{X}2+?{X}2,1e?12)|X_h|^2=max(\Re{X}2+\Im{X}^2,1e{-12})平方數量級以避免被0除。

作為額外的損失項，我們強制DF分量只增強信號的周期性部分。動機如下。對于只有噪音的部分，DF不提供任何優于ERB增益的好處。DF甚至可能通過對周期性噪聲（如發動機噪聲或巴布噪聲）進行建模而產生偽影，這在衰減受限模型中最為明顯。此外，對于只有隨機成分的語音，如摩擦音或爆破音，DF沒有任何好處。假設，這些部分包含大部分的高頻率能量，我們計算低于fDFf_{DF}頻率的局部SNR。因此，LαL_{\alpha}由下式給出：

公式7：Lα=∑k‖α?1LSNR<?10?dB‖2+∑k‖(1?α)?1LSNR>?5?dB‖2,

公式7：\mathcal{L}_{\alpha}=\sum_{k}\left|\alpha \cdot \mathbb{1}_{\mathrm{LSNR}<-10 \mathrm{~dB}}\right|^{2}+\sum_{k}\left|(1-\alpha) \cdot \mathbb{1}_{\mathrm{LSNR}>-5 \mathrm{~dB}}\right|^{2},
其中，當局部信噪比(LSNR)小于10 dB時，ILSNR?<?10?dB\mathbb{I}_{\text {LSNR }}<-10 \mathrm{~dB}為值為1的特征函數；當局部信噪比大于-5 dB時，ILSNR?>?5?dB\mathbb{I}_{\text {LSNR }}>-5 \mathrm{~dB}為1。在20ms窗口范圍內，在頻域中計算LSNR。綜合損失由

公式8：L=λspec??Lspec?(Y,S)+λα?Lα

公式8：\mathcal{L}=\lambda_{\text {spec }} \cdot \mathcal{L}_{\text {spec }}(Y, S)+\lambda_{\alpha} \cdot \mathcal{L}_{\alpha}

3? 實驗

3.1? 訓練步驟

我們基于深度噪聲抑制(DNS)挑戰數據集[10]訓練我們的模型，該數據集包含超過750小時的全頻帶純凈語音和180小時的各種噪聲類型。除了提供的在16 kHz采樣的RIR外，我們使用image source模型[17]模擬了另外10 000個在48 kHz采樣的RIR。我們將數據集分為train/validation/test(70/15/15%)。根據驗證損失應用早期停止，結果在測試集中報告。Voice Bank/DEMAND測試集[18]用于比較DeepFilterNet與相關工作，如DCCRN(+)[11,7]和PercepNet[2]。

所有實驗都使用采樣率為48khz的全頻帶信號。我們取NNRBN_{NRB}= 32，fDFf_{DF} = 5 kHz，DF階數N = 5，對DF和DNN卷積都取l=1l=1幀。我們用一個初始學習率為1?10?31*10^{-3}的adam優化器，訓練我們的模型在3 s樣本和32個batch的30個epoch。學習率每3個epoch衰減0.9。損耗參數為λspec=1\lambda_{spec} = 1和λα=0.05\lambda_\alpha = 0.05。框架的源代碼可以在?https://github.com/Rikorose/DeepFilterNet 獲得。

3.2? 結果

我們評估了我們的框架在多種FFT大小上的性能，并基于尺度不變的信號失真率(SI-SDR)比較了DF和CRM的性能[19]。CRM是DF的特例，階數N=1N=1，look-ahead l=0l=0。DNN前瞻對于CRM模型保持不變。

圖3顯示，在5 ms到30 ms的所有FFT大小中，DF都優于CRM。由于受到頻率分辨率的限制，當FFT窗口大小為20 ms時，CRMs的性能會下降。另一方面，由于相鄰幀間的相關性較小，DF相對恒定的性能下降了約30 ms。對于低延遲場景，將FFT重疊提高到75%會使DF和CRM的性能略有提高(輸入SNR為0時，性能為+0.6 dB SI-SNR)。這種性能的提高可以解釋為更高的幀內相關性，以及DNN更新RNN隱藏狀態的步驟增加了一倍，但計算復雜度增加了一倍。圖4給出了一個定性的例子，說明了DF重構噪聲譜圖中難以區分的語音諧波的能力。

圖3所示。深度濾波(DF)和常規復比掩模(CRM)在5 ~ 30 ms的多個FFT尺寸上的比較

圖4所示?來自Voice Bank測試集的樣本。噪聲(a)， CRM增強(b)， DF增強? (CRM和DF的NFFT = 960)

我們比較了使用NFFT=960 (20 ms)的DeepFilterNet和相關的工作，如PercepNet[2]，它使用類似的感知方法，以及DCRNN+[7]，它也使用深度濾波器。我們使用WB-PESSQ[20]評估語音增強的質量，并比較每秒乘法和累積(MACS)的計算復雜度。表1顯示，DeepFilterNet優于PercepNet，性能與DCRNN+相當，同時具有更低的計算復雜度，使DeepFilterNet能夠用于實時使用。

表1 Voice Bank/REMAND測試集的客觀結果

4? 結論

在這項工作中，我們提出了DeepFilterNet，一個低復雜度的語音增強框架。我們證明了深度過濾網的性能與其他算法相當，而計算量要求要低得多。我們進一步提供了深度過濾優于CRM的證據，特別是在較小的STF窗口大小的情況下。

5? 參考文獻

[1] Jean-Marc Valin, A hybrid DSP/deep learning approach to real-time full-band speech enhancement, in 2018 IEEE 20th International Workshop on Multimedia Signal Processing (MMSP). IEEE, 2018, pp. 1 5.

[2] Jean-Marc Valin, Umut Isik, Neerad Phansalkar, Ritwik Giri, Karim Helwani, and Arvindh Krishnaswamy, A Perceptually-Motivated Approach for Low-Complexity, Real-Time Enhancement of Fullband Speech, in INTERSPEECH 2020, 2020.

[3] Xu Zhang, Xinlei Ren, Xiguang Zheng, Lianwu Chen, Chen Zhang, Liang Guo, and Bing Yu, Low-Delay Speech Enhancement Using Perceptually Motivated Target and Loss, in Proc. Interspeech 2021, 2021, pp. 2826 2830.

[4] Donald S Williamson, Monaural speech separation using a phase-aware deep denoising auto encoder, in 2018 IEEE 28th International Workshop on Machine Learning for Signal Processing (MLSP). IEEE, 2018, pp. 1 6.

[5] Ke Tan and DeLiang Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 6865 6869.

[6] Jonathan Le Roux, Gordon Wichern, Shinji Watanabe, Andy Sarroff, and John R Hershey, Phasebook and friends: Leveraging discrete representations for source separation, IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 2, pp. 370 382, 2019.

[7] Shubo Lv, Yanxin Hu, Shimin Zhang, and Lei Xie, DCCRN+: Channel-wise Subband DCCRN with SNR Estimation for Speech Enhancement, in INTERSPEECH, 2021.

[8] Wolfgang Mack and Emanu el AP Habets, Deep Filtering: Signal Extraction and Reconstruction Using Complex Time-Frequency Filters, IEEE Signal Processing Letters, vol. 27, pp. 61 65, 2020.

[9] Hendrik Schr oter, Tobias Rosenkranz, Alberto Escalante Banuelos, Marc Aubreville, and Andreas Maier, CLCNet: Deep learning-based noise reduction for hearing aids using complex linear coding, in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.

[10] Chandan KA Reddy, Harishchandra Dubey, Kazuhito Koishida, Arun Nair, Vishak Gopal, Ross Cutler, Sebastian Braun, Hannes Gamper, Robert Aichner, and Sriram Srinivasan, INTERSPEECH 2021 Deep Noise Suppression Challenge, in INTERSPEECH, 2021.

[11] Yanxin Hu, Yun Liu, Shubo Lv, Mengtao Xing, Shimin Zhang, Yihui Fu, Jian Wu, Bihong Zhang, and Lei Xie, DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement, in INTERSPEECH, 2020.

[12] Hendrik Schr oter, Tobias Rosenkranz, Alberto N. Escalante-B. , Pascal Zobel, and Andreas Maier, Lightweight Online Noise Reduction on Embedded Devices using Hierarchical Recurrent Neural Networks, in INTERSPEECH 2020, 2020.

[13] Sebastian Braun, Hannes Gamper, Chandan KA Reddy, and Ivan Tashev, Towards efficient models for real-time deep noise suppression, in ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 656 660.

[14] Ke Tan and DeLiangWang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 380 390, 2019.

[15] Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T Freeman, and Michael Rubinstein, Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation, ACM Transactions on Graphics (TOG), vol. 37, no. 4, pp. 1 11, 2018.

[16] Jean-Marc Valin, Srikanth Tenneti, Karim Helwani, Umut Isik, and Arvindh Krishnaswamy, Low- Complexity, Real-Time Joint Neural Echo Control and Speech Enhancement Based On PercepNet, in 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.

[17] Emanu el AP Habets and Sharon Gannot, Generating sensor signals in isotropic noise fields, The Journal of the Acoustical Society of America, vol. 122, no. 6, pp. 3464 3470, 2007.

[18] Cassia Valentini-Botinhao, Xin Wang, Shinji Takaki, and Junichi Yamagishi, Investigating RNN-based speech enhancement methods for noise-robust Text-to- Speech, in SSW, 2016, pp. 146 152.

[19] Jonathan Le Roux, Scott Wisdom, Hakan Erdogan, and John R Hershey, SDR half-baked or well done? , in ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019, pp. 626 630.

[20] ITU, Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs, ITU-T Recommendation P.862.2, 2007.

作者：凌逆戰歡迎任何形式的轉載，但請務必注明出處。限于本人水平，如果文章和代碼有表述不當之處，還請不吝賜教。本文章不做任何商業用途，僅作為自學所用，文章后面會有參考鏈接，我可能會復制原作者的話，如果介意，我會修改或者刪除。

總結

以上是生活随笔為你收集整理的论文翻译：2021_DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。