當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

三星电子推出X-net架构用于语音通话

發布時間：2024/4/11 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了三星电子推出X-net架构用于语音通话小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

X-net 影音探索 #003

作者 | Teresa

近日，三星電子推出X-net，這是一種聯合學習的Scale-down和Scale-up架構，用于語音編碼中的預處理和后處理，作為在帶寬受限的語音通話信道上擴展帶寬的一種手段。其中，在發送端和接收端分別部署Scale-down和Scale-up，以進行下采樣和上采樣處理。并對子模塊進行單獨監督訓練，這樣即使缺少一個子模塊，X-net也能夠正常工作。在三星電子發表的X-net論文中（X-net: A Joint Scale Down and Scale Up Method for Voice Call），有結果表明，聯合訓練的 X-net 在客觀和主觀指標上，比常見的音頻超分辨率方法有明顯改進，即使在只有 1k 參數量級的輕量級網絡上也是如此。

X-net 架構

上圖顯示了在語音通話場景中應用 X-net 架構。它包含一個在發送端部署的Scale-down模塊，以及一個在接收端部署的Scale-up模塊。在麥克風輸入的高帶寬語音信號后，應用Scale-down模塊做向下采樣，為語音編碼器提供對應的低帶寬語音。然后，應用Scale-up模塊將語音解碼器輸出的低帶寬語音轉換回高帶寬語音進行輸出。

由于編解碼器是一個標準的固定模塊，用于傳輸限定帶寬的語音數據。因此，三星電子推出的X-net架構包含了Scale-down、編解碼器和Scale-up模塊，能夠在不改變現有語音通話信道設置的情況下，達到傳輸高質量的語音的目的。

訓練X-net

其特點在于不僅使用時域損失函數或混合時域和頻域損失函數，而是應用具有不同目標的兩階段訓練計劃。其中，在第一階段使用時域 MSE 損失來獲取最小化波形失真。在第二階段切換到對數頻譜幅度 (LSA) 上的 MSE，這可以更好地保證聽覺上的相似性。

小結

X-net主要針對的是限定帶寬的語音通話信道上的高質量語音傳輸，并提出了一種時域上的輕量化網絡的設計：Scale-down/Scale-up。它的特點是聯合優化的神經網絡下采樣和上采樣，分別部署在編碼端和解碼端，提高現有語音通話系統的語音質量。有實驗結果表明，X-net的表現優于常見的音頻帶寬擴展方法。將X-net應用于EVS (Enhanced Voice Services) 語音通話場景中，即便只有1k的網絡參數，POLQA MOS(平均意見評分)有著顯著提升。我們也注意到三星電子在論文結語中，表示會進一步研究X-net對于Codec性能的提升，甚至于設計新的Codec。

參考鏈接：

https://www.isca-speech.org/archive/interspeech_2021/wen21_interspeech.html

http://epub.cnipa.gov.cn/tdcdesc.action?strWhere=CN112885363A&8kt2YOWWXQBD=1631348218704

感謝三星電子音頻負責人，王立眾老師對本文進行技術審校。

掃描圖中二維碼了解大會更多信息

總結

以上是生活随笔為你收集整理的三星电子推出X-net架构用于语音通话的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【限时免费】LiveVideoStack
下一篇：大话ion系列（一）