亚马逊团队在Interspeech 2020深度噪声抑制挑战赛中获得第一名
該團(tuán)隊的非實時系統(tǒng)是性能最好的,而它的實時系統(tǒng)在整個系統(tǒng)中排名第三,在實時系統(tǒng)中排名第二,盡管只使用了4%的CPU核心。
文 / Arvindh Krishnaswamy
原文鏈接:
https://www.amazon.science/blog/amazon-team-takes-first-place-in-interspeech-2020-deep-noise-suppression-challenge
在電子語音通信中,噪音和混響不僅會損害語音清晰度,而且會導(dǎo)致聽者在長時間努力理解低質(zhì)量語音時感到疲勞。在COVID-19大流行期間,我們花在遠(yuǎn)程會議上的時間越來越多,這一問題比以往任何時候都更加重要。
?
在今年的Interspeech會議上的深度噪聲抑制挑戰(zhàn)便是為了幫助解決這個問題的一個嘗試,分別在實時語音增強(qiáng)和非實時語音增強(qiáng)上進(jìn)行比賽。在19個團(tuán)隊中,Amazon取得了最好的結(jié)果,在非實時賽道上獲得了第一名(階段1 |階段2-final),在實時賽道上獲得了第二名。
上面是一個有噪聲的語音樣本(上圖)
下面是被研究者的系統(tǒng)抑制了噪聲的同一個樣本(下圖)
?
為了滿足真實世界的需求,我們將實時輸入限制在CPU使用量的4%(在i7-8565U內(nèi)核上測量),這遠(yuǎn)遠(yuǎn)低于競賽所允許的最大限度。
然而,我們的實時輸入非常接近(0.03平均意見分?jǐn)?shù))的第一名,并且擊敗了其他非實時的輸入。
Amazon團(tuán)隊實時和非實時噪聲抑制結(jié)果的音頻示例可以在這里找到。
我們還發(fā)表了兩篇論文(paper1-offline | paper2-real)來更詳細(xì)地描述我們的技術(shù)方法。
在Interspeech中獲勝的技術(shù)已經(jīng)在Alexa通信公告和Drop in Everywhere功能中發(fā)布,并且從今天開始,我們的客戶也可以通過使用Amazon Chime蘋果macOS和微軟Windows客戶端來進(jìn)行視頻會議和在線會議。
優(yōu)化的感知
傳統(tǒng)的語音增強(qiáng)算法使用人工調(diào)整的語音和噪聲模型,通常假設(shè)噪聲是恒定的。
對于某些類型的噪音(例如汽車噪音),在噪音不太大或低混響的環(huán)境下,這種方法工作得相當(dāng)好。不幸的是,它們經(jīng)常在非平穩(wěn)噪音上失敗,比如鍵盤噪音和雜音。因此,研究人員轉(zhuǎn)向了深度學(xué)習(xí)方法。
?
語音增強(qiáng)不僅需要從噪音和混響中提取原始語音,而且需要以一種人類耳朵感覺自然和愉快的方式進(jìn)行。這使得自動回歸測試變得困難,并使深度學(xué)習(xí)語音增強(qiáng)系統(tǒng)的設(shè)計復(fù)雜化。
我們的實時系統(tǒng)實際上通過直接優(yōu)化了語音的感知特征(spectral envelope and voicing),利用了人類的感知因素同時忽略了與感知無關(guān)的方面。由此產(chǎn)生的算法產(chǎn)生了最先進(jìn)的語音質(zhì)量,同時保持非常高的計算效率。
對于非實時系統(tǒng),我們采取了一種不妥協(xié)的方法,使用改進(jìn)的U-Net深度卷積網(wǎng)絡(luò)從增強(qiáng)的語音壓縮每一點可能的質(zhì)量,從而贏得了輸入挑戰(zhàn)。
?
一描繪經(jīng)被允許使用的研究人員的實時系統(tǒng)的百分比中央處理器核心降噪后的一語音樣本的平均意見分?jǐn)?shù)(MOS)的變化的圖像
在深度噪聲抑制的挑戰(zhàn)中,經(jīng)過處理的音頻示例被盲發(fā)送給人類聽眾,由他們對其進(jìn)行評分,產(chǎn)生平均意見分?jǐn)?shù)(MOS)。
在實時應(yīng)用程序中,復(fù)雜性和質(zhì)量之間總是需要權(quán)衡的。
右邊的圖顯示了我們?nèi)绾瓮ㄟ^增加CPU需求來進(jìn)一步提高實時提交的質(zhì)量,或者通過犧牲一些質(zhì)量來進(jìn)一步節(jié)省CPU的使用。
紅點表示提交挑戰(zhàn)的實時系統(tǒng),圖像顯示了MOS分?jǐn)?shù)相對于不同CPU負(fù)載的變化。
人們普遍認(rèn)為,深度學(xué)習(xí)最終將對音頻處理產(chǎn)生深遠(yuǎn)影響。
雖然仍有很多挑戰(zhàn),比如數(shù)據(jù)增強(qiáng),感知相關(guān)的損失函數(shù)或者處理看不見的情況,但未來依然非常令人興奮。
LiveVideoStackCon 2020?北京
2020年10月31日-11月1日
點擊【閱讀原文】了解更多詳細(xì)信息
總結(jié)
以上是生活随笔為你收集整理的亚马逊团队在Interspeech 2020深度噪声抑制挑战赛中获得第一名的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI加持的竖屏沉浸播放新体验
- 下一篇: 使用WebRTC开发Android Me