系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述
(本文閱讀時間:10?分鐘)
編者按:語音合成一直以來是語言、語音、深度學習及人工智能等領域的熱門研究方向,受到了學術界和工業界廣泛的關注。盡管語音合成技術的研究已有幾十年的歷史,基于神經網絡的語音合成技術也有近十年歷史,且已產出了大量的優質研究成果,但針對神經語音合成不同研究方向的整合型綜述論文卻十分匱乏。近日,微軟亞洲研究院的研究員們通過調研了450余篇語音合成領域的文獻,發表了迄今為止語音合成領域幾乎最詳盡的綜述論文 “A Survey on Neural Speech Synthesis”。在文中,研究員們還整理收集了語音合成領域的相關資源如數據集、開源實現、演講教程等,同時也對語音合成領域未來的研究方向進行了探討和展望。希望本文能對相關工作的研究人員提供具有價值的參考。
文本到語音合成旨在從文本合成高可懂度和自然度的語音,很久以來一直是語言、語音、深度學習、人工智能等領域熱門的研究方向,受到了學術界和工業界的廣泛關注。近年來,隨著深度學習的發展,基于神經網絡的語音合成極大地提高了合成語音的質量。盡管語音合成技術的研究已有幾十年的歷史,基于神經網絡的語音合成技術也有近十年的發展,領域內產出了大量的優質研究成果,但針對不同研究方向的整合型綜述論文卻十分匱乏。
因此,微軟亞洲研究院的研究員們發表了一篇綜述論文 “A Survey on Neural Speech Synthesis”,全面梳理、總結了神經語音合成領域的發展現狀以及未來發展方向。該文章可謂是迄今為止語音合成領域幾乎最為詳盡的綜述論文。研究員們共調研了450多篇文獻,分別從語音合成的核心模塊(文本分析、聲學模型、聲碼器)以及進階主題(快速語音合成、低資源語音合成、魯棒語音合成、富有表現力的語音合成、可適配語音合成)兩大方面對該領域的工作進行了梳理總結。同時,研究員們還收集了語音合成領域的相關資源(數據集、開源實現、演講教程等)并且討論了未來研究方向。
論文鏈接:https://arxiv.org/pdf/2106.15561.pdf
論文從兩個方面對神經語音合成領域的發展現狀進行了梳理總結(邏輯框架如圖1所示):
核心模塊:分別從文本分析(textanalysis)、聲學模型(acoustic model)、聲碼器(vocoder)、完全端到端模型(fully end-to-end model)等方面進行介紹。
進階主題:分別從快速語音合成(fast TTS)、低資源語音合成(low-resourceTTS)、魯棒語音合成(robust TTS)、富有表現力的語音合成(expressive TTS)、可適配語音合成(adaptive TTS)等方面進行介紹。
圖1:論文邏輯框架
TTS 核心模塊
研究員們根據神經語音合成系統的核心模塊提出了一個分類體系。每個模塊分別對應特定的數據轉換流程:
1)文本分析模塊將文本字符轉換成音素或語言學特征;
2)聲學模型將語言學特征、音素或字符序列轉換成聲學特征;
3)聲碼器將語言學特征或聲學特征轉換成語音波形;
4)完全端到端模型將字符或音素序列轉換成語音波形。
圖2:(a)TTS核心框架,(b)數據轉換流程
文本分析
文章總結了文本分析模塊幾個常見的任務,包括文本歸一化、分詞、詞性標注、韻律預測、字形轉音形以及多音字消歧等。
表1:文本分析模塊中的常見任務
聲學模型
在聲學模型部分,文章首先簡要介紹了在統計參數合成里用到的基于神經網絡的聲學模型,然后重點介紹了端到端模型的神經聲學模型,包括基于?RNN、CNN?和Transformer?的聲學模型以及其它基于?Flow、GAN、VAE、Diffusion?的聲學模型。
表2:不同聲學模型及其特征
聲碼器
聲碼器的發展分為兩個階段,包括傳統參數合成里的聲碼器如 STRAIGHT和 WORLD,以及基于神經網絡的聲碼器。論文重點介紹了基于神經網絡的聲碼器,并把相關工作分為以下幾類,包括:
1)自回歸聲碼器(WaveNet,SampleRNN,WaveRNN,LPCNet 等);
2)基于 Flow 的聲碼器(WaveGlow,FloWaveNet,WaveFlow,Par. WaveNet 等);
3)基于 GAN 的聲碼器(WaveGAN,GAN-TTS,MelGAN,Par. WaveGAN,HiFi-GAN,VocGAN,GED,Fre-GAN 等);
4)基于 VAE 的聲碼器(WaveVAE等);
5)基于 Diffusion 的聲碼器(DiffWave,WaveGrad,PriorGrad 等)。
表3:不同聲碼器及其特征
本文還針對基于?Flow?和?GAN?的聲碼器做了詳細分析,如表4和表5所示。
表4:基于Flow的聲碼器
表5:基于GAN的聲碼器
最后研究員們還統一分析、比較了基于不同生成模型的聲碼器的優缺點,如表6所示。
表6:基于不同生成模型的聲碼器分析結果
完全端到端模型
端到端模型的發展經歷了以下幾個階段:
階段0:在統計參數合成方法中,使用文本分析、聲學模型和聲碼器三個模塊級聯;
階段1:在統計參數合成方法中,將前兩個模塊合起來形成一個聲學模型;
階段2:直接從語言學特征生成最終的波形,例如 WaveNet;
階段3:聲學模型直接從字符或音素生成聲學模型,然后利用神經聲碼器生成波形;
階段4:完全端到端的神經網絡模型。
圖3:端到端模型發展過程
其它分類體系
除了上述按照?TTS?模型的核心模塊進行分類的方法,論文中還有從其它角度對?TTS?模型進行分類的方法,如圖4所示,包括:1)自回歸 vs 非自回歸;2)生成模型的類型;3)網絡結構的類型。
圖4:從其它角度對TTS模型進行分類
同時,本文還繪制了相關 TTS 工作隨著時間變化的關系圖,方便讀者更直觀地理解各個 TTS 模型及其在 TTS 發展中的位置。
圖5:相關 TTS 工作隨時間演化的關系圖
TTS 進階課題
研究員們還針對 TTS 面臨的各種挑戰,介紹了相關的進階課題,包括快速語音合成(fast TTS)、低資源語音合成(low-resource TTS)、魯棒語音合成(robust TTS)、富有表現力的語音合成(expressive TTS)、可適配語音合成(adaptive TTS)等。
圖6:TTS 相關的進階課題
快速語音合成
為了實現快速語音合成,常用的技術一般有以下幾種:1)并行生成;2)輕量級模型設計;3)利用領域知識進行加速。其中,并行生成技術的分類以及相關工作可見表7。
表7:并行生成技術的分類以及相關工作
低資源語音合成
低資源語音合成相關技術以及相關工作,如表8所示。
表8:低資源語音合成相關技術以及相關工作
魯棒語音合成
魯棒語音合成相關技術分類,可見表9。
表9:魯棒語音合成相關技術分類
富有表現力的語音合成
富有表現力的語音合成的關鍵在于對可變信息的建模,表10從不同角度總結了可變信息建模的相關工作。
表10:富有表現力的語音合成
可適配語音合成
可適配語音合成相關的技術分類見表11。
表11:可適配語音合成
最后,研究員們還收集了 TTS 領域相關的資源,包括開源代碼、TTS 教程、公開比賽以及數據集等。同時,文章也指出了 TTS 領域的潛在研究挑戰,并且根據 TTS 要實現的最終遠景和目標,將其分為兩個大方向:高質量的語音合成以及高效率的語音合成。
在高質量的語音合成方面,包括以下研究課題:更加強大的生成模型,更好的面向文本和語音的表征學習,魯棒的語音合成,富有表現力/可控/風格可遷移的語音合成,更符合人類表達風格的語音合成。在更高效的語音合成方面,包括在數據、模型參數、計算等方面設計更高效、利用資源更少的語音合成系統。
研究員們希望這篇綜述論文能對語音合成領域的相關工作人員提供有價值的參考,也希望這個領域的同行能提供意見和建議,一起共同維護、更新這篇綜述論文。歡迎將反饋提交到 GitHub 頁面 https://github.com/tts-tutorial/survey?或者發郵件至 xuta@microsoft.com。
相關鏈接:
https://www.microsoft.com/en-us/research/project/text-to-speech/
https://speechresearch.github.io/
https://www.microsoft.com/en-us/research/people/xuta/
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的系统调研450篇文献,微软亚洲研究院推出超详尽语音合成综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 蚊子怎么杀
- 下一篇: 语音识别:从GMM-HMM到端到端