语音合成学习(一)综述(在线语音合成)
一、資料推薦
愛丁堡大學課程(全英文,有能力的推薦學習一遍):https://speech.zone/courses/speech-synthesis/
TensorflowTTS(比較系統的開源項目):https://github.com/TensorSpeech/TensorFlowTTS
二、基礎概念介紹
1、時域:波形的振幅、頻率;
2、頻域:
- 傅里葉變換:每個復雜的波形都可以由不同頻率的正弦波組成;
- 語譜(spectrum):描述了信號包含的頻率成分和它們的幅度;
- 語譜圖(spectrogram):語譜隨時間的變化,也稱為頻譜圖;
推薦使用Adobe Audiotion工具來查看音頻信息:
三、語音基本信息
思考一下,一段語音中包含了什么信息呢?
語音信息:發音人身份、語種、文本、情感、環境;
語音任務:身份識別、語種識別、語音識別、情感識別、語音增強分離等;
四、語音生成
一段語音的生成其實是音素的構成,下面介紹關于音素的一些概念:
1、音素:一種語言中語音的”最小”單元,在聲學上也稱為Phone;
2、IPA:國際音標,統一一套體系標注標準;
3、音節:元音和輔音結合構成一個音節;
4、協同發音:音素在聲學上的實現和上下文強相關,往往我們需要采用上下文模型;
5、音素抄本:一段語音對應的音素列表(帶或不帶時間邊界),時間邊界可由人工標注或自動對齊獲得,用于聲學與時長模型,這里也是一種標注信息;
五、語音合成簡述
1、熱門研究方向
- 語音轉換:說話人轉換、語音到歌唱轉換、情感轉換、口音轉換等;
- 歌唱合成:文本到歌唱的轉換;
- AI虛擬人:可視化語音合成的技術,現在熱門的元宇宙就依賴語音合成技術;
2、應用方向
- 語音交互:機器人領域、智能車;
- 內容生成:有聲讀物,微信聽書等;
- 輔助功能:對障礙人士起到輔助功能,能夠讓他們發聲;
3、難點
文字—>波形:
-
一到多且不等長的映射;
-
局部+全局依賴性;
評價指標:
- 只能根據聽感來判斷,有比較明顯的主觀性;
實際應用:
- 小樣本(數據量少)
- 語音質量低,有噪聲;
- 實時性和效果的平衡;
- 需要具有可控性且有表現力;
- 具備多語種、跨語言的能力(中英混合);
4、現代語音合成技術
端到端級的語音合成架構:
上述描述了當前主流的一些端到端級的語音合成方法組合,
當前的TTS主要架構:NLP + Speech Generation(文本分析到波形生成)
六、文本分析
主要有以下幾個方面處理:
- 斷句:基于規則或基于模型來斷句;
- 文本歸一化(TN):消除非標準詞在讀音上的歧義,例如數字、縮寫、符號等(基于規則或模型)
- 分詞和詞性標注:有時候分詞錯誤會造成歧義;
- 注音:Grapheme to phoneme(G2P)也就是文本轉音素,解決多音字、兒化音、變調問題;
- 韻律分析:Prosody(反映在能量、基頻、時長上),句調、重讀、韻律邊界預測(停頓);
具體例子如下:
七、語音合成方法
1、波形拼接合成(單元選擇合成)
優點:高質量、高自然度;
缺點:需要大音庫,一致性差,可控性差,通常只能在線使用;
原理:從音庫中選擇”最佳”路徑上的單元進行拼接,使得目標代價和連接代價最低;
2、基于軌跡指導的拼接合成
方法:基于參數語音合成的軌跡指導單元合成;
優點:相對平滑和穩定的參數軌跡,又能保證比較自然的音質;
3、統計參數語音合成(SPSS)
第一步是幀級的建模:
- 時長模型:音素序列 ——> 幀級文本特征;
- 聲學模型:幀級文本特征 ——> 幀級語音輸出;
第二步是訓練數據:
- 利用語音識別強制對齊,得到音素幀級對應關系;
最常見的模型是基于HMM的SPSS:
優點:系統存儲空間小,靈活度高(可參數調節),語音平滑流暢,適合離線、嵌入式設備;
缺點:合成語音音質受限,合成的韻律平淡;
實現步驟:
提參——訓練數據幀級對齊——單音素HMM——三音素HMM——決策樹聚類——優化
4、基于神經網絡的語音合成
HMM存在問題:
利用上下文信息不足,決策樹聚類對模型來說不夠精細;
DNN優點:
神經網絡能夠擬合任何的函數映射,替代決策樹模型,增加語音合成的表現力;
方案:將HMM替換為DNN,自然都得到一定的提升;
5、聲碼器
功能:提取語音參數,合成還原語音波形;
常見傳統聲碼器:HTS、World等;
像一些基于神經網絡的聲碼器將在后續進行介紹,相對來說傳統聲碼器會造成一定損失,神經網絡的聲碼器效果會好一些,但大小和耗時會更大;
6、端到端神經網絡
定義:并不是完全端到端,是一套序列到序列(seq2seq)模型;
編碼器——解碼器架構:解決了對齊問題,但信息過度壓縮;(M—>1—>N)
編碼器——注意力機制——解碼器架構:保留了全部編碼信息,注意力機制是一種查表工具(M—>M—>N)
主流模型:Tacotron、Tacotron2、Transformer TTS
7、神經聲碼器
定義:利用神經網絡強大的非線性擬合能力從語音特征轉換為語音波形(采樣點)
目前有兩種主流方案:
① DSP+NN:傳統信號處理和神經網絡結合;
② GAN:生成效率很高,并且質量也不錯;
左邊一列表示合成質量,右邊一列表示合成成本,從圖中來看,采用GAN的聲碼器效果和性能上比較好;
八、語音合成前沿探索
有以下幾個熱門研究方向:
1、小樣本訓練;
2、增加對情感等信息的可控性;
3、完全端到端;
4、抗噪;
5、語音轉換;
6、唱歌合成;
九、語音合成評估
1、文本分析(前端)模塊
主要關注以下一些客觀指標
2、聲學模型模型及聲碼器(后端)模塊
主觀指標:
- 從測試集考察語音的”還原度”;
- 從集外數據考察泛化能力,以及對場景的覆蓋能力;
- MOS打分;
客觀指標:
- 時間等長:用原始語音的單元時長,計算差異;
- 時間不等長:時間對齊,對局部差異求和;
十、語音合成語料庫
對常見語料庫總結如下圖:
圖中網址不太清楚,如有需要的可直接私信我;
總結
本篇是對語音合成的一個綜述,實際上對于剛接觸TTS領域的來說,對很多概念并不能完全理解;并且搜索引擎中對于語音合成的總結并不多,也由于TTS是比較小眾的一個技術;通過本篇希望讀者對于常見的概念,以及TTS的具體任務和發展有一定掌握;
總結
以上是生活随笔為你收集整理的语音合成学习(一)综述(在线语音合成)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: BOM validation - can
- 下一篇: airpods尺寸(Airpods)