三星电子推出X-net架构用于语音通话
X-net 影音探索 #003
作者 | Teresa
近日,三星電子推出X-net,這是一種聯合學習的Scale-down和Scale-up架構,用于語音編碼中的預處理和后處理,作為在帶寬受限的語音通話信道上擴展帶寬的一種手段。其中,在發送端和接收端分別部署Scale-down和Scale-up,以進行下采樣和上采樣處理。并對子模塊進行單獨監督訓練,這樣即使缺少一個子模塊,X-net也能夠正常工作。在三星電子發表的X-net論文中(X-net: A Joint Scale Down and Scale Up Method for Voice Call),有結果表明,聯合訓練的 X-net 在客觀和主觀指標上,比常見的音頻超分辨率方法有明顯改進,即使在只有 1k 參數量級的輕量級網絡上也是如此。
X-net 架構
上圖顯示了在語音通話場景中應用 X-net 架構。它包含一個在發送端部署的Scale-down模塊,以及一個在接收端部署的Scale-up模塊。在麥克風輸入的高帶寬語音信號后,應用Scale-down模塊做向下采樣,為語音編碼器提供對應的低帶寬語音。然后,應用Scale-up模塊將語音解碼器輸出的低帶寬語音轉換回高帶寬語音進行輸出。
由于編解碼器是一個標準的固定模塊,用于傳輸限定帶寬的語音數據。因此,三星電子推出的X-net架構包含了Scale-down、編解碼器和Scale-up模塊,能夠在不改變現有語音通話信道設置的情況下,達到傳輸高質量的語音的目的。
訓練X-net
其特點在于不僅使用時域損失函數或混合時域和頻域損失函數,而是應用具有不同目標的兩階段訓練計劃。其中,在第一階段使用時域 MSE 損失來獲取最小化波形失真。在第二階段切換到對數頻譜幅度 (LSA) 上的 MSE,這可以更好地保證聽覺上的相似性。
小 結
X-net主要針對的是限定帶寬的語音通話信道上的高質量語音傳輸,并提出了一種時域上的輕量化網絡的設計:Scale-down/Scale-up。它的特點是聯合優化的神經網絡下采樣和上采樣,分別部署在編碼端和解碼端,提高現有語音通話系統的語音質量。有實驗結果表明,X-net的表現優于常見的音頻帶寬擴展方法。將X-net應用于EVS (Enhanced Voice Services) 語音通話場景中,即便只有1k的網絡參數,POLQA MOS(平均意見評分)有著顯著提升。我們也注意到三星電子在論文結語中,表示會進一步研究X-net對于Codec性能的提升,甚至于設計新的Codec。
參考鏈接:
https://www.isca-speech.org/archive/interspeech_2021/wen21_interspeech.html
http://epub.cnipa.gov.cn/tdcdesc.action?strWhere=CN112885363A&8kt2YOWWXQBD=1631348218704
感謝三星電子音頻負責人,王立眾老師對本文進行技術審校。
掃描圖中二維碼了解大會更多信息
總結
以上是生活随笔為你收集整理的三星电子推出X-net架构用于语音通话的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【限时免费】LiveVideoStack
- 下一篇: 大话ion系列(一)