语音合成:模拟最像人类声音的系统
近年來隨著深度學習技術(shù)的不斷發(fā)展,語音合成技術(shù)也取得了突破性進展,也成為了很多設備的標配。比如siri通過手機跟我們講冷笑話,車載音箱實時播報汽車的行進路線等等無不用到語音合成。
并且,深度神經(jīng)網(wǎng)絡在語音合成模型與聲碼器中的應用,使得端到端語音合成系統(tǒng)得到飛速進展。序列到序列(seq2seq)模型框架簡潔,無需幀級對齊,聲學時長聯(lián)合建模,避免級聯(lián)誤差,也無需復雜文本特征。Google在2017年提出了一種新的端到端的語音合成系統(tǒng)Tacotron,借助深度學習模型的強表達能力,表現(xiàn)出驚人的合成效果。
目前國內(nèi)的語音合成技術(shù)趨于成熟,但是企業(yè)對語音合成候選人的要求也極高。語音技術(shù)相較于AI其他方向而言,具有典型的跨學科特點。除了聲學、語音語言學、信號處理等,還要會編程語言,并且要對常見的深度學習模型有深入了解,以及對語音合成本身的Tacotron、WaveNet等系統(tǒng)異常熟悉。內(nèi)容涉及的越廣泛,大家學習周期也就越長,企業(yè)的人才缺口也會相應的增加。
并且語音合成算法工程師的薪資也極為可觀,基本是30k/月起步。(是不是很心動!)
而國內(nèi)高校并沒有培養(yǎng)對應人才的學習機制,并且,真正想學習的同學,在網(wǎng)絡上都很難搜索到系統(tǒng)地學習語音合成的相關(guān)資料,更別說還需要相關(guān)項目來動手實踐了,終究是“巧婦難為無米之炊”。
深藍學院特邀西北工業(yè)大學教授、博導謝磊團隊講授《語音合成:基礎(chǔ)與前沿》課程,既講解傳統(tǒng)語音合成算法(幀級+信號聲碼器),而且講解端到端語音合成進階算法,最后帶大家實現(xiàn)語音合成應用,如風格化語音合成、多說話人建模與說話人自適應技術(shù)。
?
1.講師團隊介紹
左右滑動查看更多
?
2. 實踐項目
01
實現(xiàn)基于CRF的分詞
學習如何使用CRF實現(xiàn)中文分詞,了解CRF的數(shù)據(jù)格式、訓練流程以及測試客觀指標。通過該實踐能夠快速搭建一套分詞系統(tǒng)。
02
World vocoder參數(shù)提取與合成
基于World vocoder實現(xiàn)參數(shù)的提取與合成,旨在了解傳統(tǒng)語音聲碼器中各個參數(shù),包括基頻、頻譜包絡以及非周期信號。同時嘗試使用這些特征還原語音,并且對比各種采樣率下的不同還原效果。
03
基于LSTM/GRU的聲學與時長模型
在此實踐中,我們將基于Tensorflow實現(xiàn)遞歸神經(jīng)網(wǎng)絡LTSM/GRU的語音合成時長與聲學模型。從而將設計好的文本特征經(jīng)過時長和聲學模型,合成語音。
04
實現(xiàn)基于Tacotron的聲學模型
基于Tensorflow構(gòu)建Tacotron模型,包括特征處理、模型訓練和解碼等。旨在了解Tacotron各個模塊的細節(jié),以及如何基于注意力機制構(gòu)建序列到序列聲學模型。
05
實現(xiàn)基于LSA的注意力機制
基于Tensorflow實現(xiàn)Location-sensitive attention (LSA)機制。旨在進一步了解注意力機制的基礎(chǔ)原理以及使用方法,并嘗試尋找更符合語音特點的注意力機制。
06
實現(xiàn)基于Mel特征的WaveRNN
基于Tensorflow實現(xiàn)基于Mel特征的WaveRNN神經(jīng)聲碼器,從而將譜特征轉(zhuǎn)換為真實語音波形。同時可以考慮對原始模型進行擴展或改進以提高訓練速度。
?
3. 課程亮點
1.本課程全面覆蓋當前主流算法和模型,學習省時省力;
2.授課團隊為國內(nèi)知名的語音團隊——西北工業(yè)大學謝磊團隊;
3.理論與實踐相結(jié)合。每章節(jié)課程后的都會配有相應的作業(yè),助教1V1批改;
4.班主任帶班。督促學習(告別拖延~);
5.超優(yōu)質(zhì)的學習圈子。學習本課程的同學來自超牛的學校與企業(yè)。
?
4. 課程收獲
1.掌握傳統(tǒng)語音合成系統(tǒng)中文本正則化、分詞、注音、韻律預測等前端子模塊的作用以及基于BLSTM+CRF的方法;
2.掌握傳統(tǒng)語音合成系統(tǒng)中主流后端算法,包括基于HMM/NN的統(tǒng)計參數(shù)模型,以及基于單元拼接的方法;
3.領(lǐng)悟基于Attention的序列到序列算法的思想,掌握Tacotron模型的細節(jié);
4.深入了解更適合語音任務的Attention機制及其應用;
5.熟悉基于WaveNet的神經(jīng)網(wǎng)絡聲碼器以及WaveRNN和LPCNet聲碼器的原理。
咨詢更多
掃碼添加深藍學院-葉子
備注【130】,才會通過好友哦!
咨詢課程可免費領(lǐng)取試聽課哦~
總結(jié)
以上是生活随笔為你收集整理的语音合成:模拟最像人类声音的系统的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有口臭怎么办怎样去除(有口臭怎么办)
- 下一篇: 什么是急性胰腺炎(什么是胰腺炎)