功率谱 幅值谱_语音合成中的Mel谱和MFCC谱无区别
生活随笔
收集整理的這篇文章主要介紹了
功率谱 幅值谱_语音合成中的Mel谱和MFCC谱无区别
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
語音合成目前比較流行的方案是Tacotron(2) + WaveNet(WaveRNN, LPCNet)等神經網絡聲碼器。
這些方案的流程大致相同,先由文本生成特征譜,再將特征譜重建為音頻。在選擇特征譜的時候,有的使用了Mel譜,有的使用了倒譜。
本文通過梳理計算倒譜的流程,試圖說明使用Mel譜和倒譜并無區別。
下圖是Matlab計算倒譜的過程
可以分成以下幾步:
從以上過程可以知道,Mel譜和倒譜系數的區別,在于一個取對數和取離散余弦變換的過程。
我們知道,離散余弦變換是一個線性變換。線性變換對于神經網絡來說是小菜一碟。所以Mel譜和倒譜系數的主要區別是取對數的過程。
在幾乎所有的開源代碼中,使用Mel譜特征的時候,都會對Mel譜特征求db值,也就是求一個N*log10()的值。其中N與mel譜幅值是否平方有關:如果Mel譜單是傅里葉變換后的幅值,那么N一般取10;如果Mel譜是傅里葉變換后幅值的平方,那么N一般取20。按照這樣的方法,Mel譜特征和倒譜特征只差了一個線性變換矩陣,對于神經網絡來說相當于沒差。
所以,在使用Mel譜特征時,如果計算了db值,那么和使用Mfcc倒譜特征效果應是相同的。
總結
以上是生活随笔為你收集整理的功率谱 幅值谱_语音合成中的Mel谱和MFCC谱无区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 06_JAVA06 数组
- 下一篇: qt添加菜单纯代码_Qt Creator