[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING
作者:Li Zhonghao
會議:投稿2021 icassp
單位:bytedance
文章目錄
- abstract
- 1. introduction
- 2. METHOD
- 2.1 PPGs Encoder & decoder
- 2.2 Mel Encoder
- 2.3 singer confusion module
- 2.4 Mel-Regressive Representation learning Module
- 3. EXPERIMENTS
- 3.1. Experimental Setup
- 3.2 Ablation Test
- 3.3 Noise Robustness
abstract
兩個encoder,一個編碼PPGs的文本信息,一個輸入mel譜編碼聲學和音樂信息;為了改善timbre和melody,另外有adversarial singer confusion module和mel-regressive 表征學習模塊。
1. introduction
在VC中,對于pitch,pause的修改是被允許的; 但是在SVC中,pitch,pause被認為是歌唱相關,說話人無關的特征,應該在轉換過程中被保留。
傳統的SVC方法基于平行數據:參數生成結構–GMM,GAN網絡
基于非平行數據的方法:VAE—用wavenet分別做encoder和decoder,用這么強大的一個網絡來做這件事情,可以在非平行數據上達到較好的效果。【8】引入domain confusion module從encoder output中解耦singer information。【9】沿用了domain confusion 的思路,進一步提出了pitch confusion module,可以從encoder outputs中移除picth信息,進而能夠通過F0值控制基頻包絡和韻律。還有一些其他基于VAE的方法在研究SVC,但是他們不能解決輸入音頻包含噪聲的情況。
PPGs(sun) 是一個好的文本特征,同時保留了速度信息。DBLSTM用PPGs做many-to-one的轉換【14】,【15】又進一步將這個方法擴展到many-to-many的轉換。
2. METHOD
2.1 PPGs Encoder & decoder
- singing ASR:使用的是歌唱識別數據集,CTC loss訓練的ASR,提取1467-d PPGs
- look_up_tabel方式得到的speaker_embedding,GMM attention和stop token被引入
- source song中提取LF0
- decoder input:encoder_output + LF0 + spk_emb
YYY是mel spec,ttt是stop token
binary CE loss預測停止點
2.2 Mel Encoder
-
PPGs去除了音色信息,僅保留文本信息,但丟失了歌唱轉換需要的風格(intonation-語調,melody, emotion),因此用額外的mel encoder編碼這些信息。
-
實驗發現:mel encoder的輸出維度被設為最小,這樣可以更好的抑制source voice中的音色和sound noise。4 units在平衡 timbre, sound quality, and musical characters 音素時表現最好。
2.3 singer confusion module
- 作用:為了加強轉換語音和source的音色相似度;此處嘗試過CBHG結構的module,但是性能不穩定,且很容易訓崩
- CtargetC_{target}Ctarget?是目標說話人的one-hot embedding
- CtargetjC_{target}^jCtargetj?是第jjj幀預測的spk_emb,然后對N幀結果求平均
- 訓練分成兩步
- (1)訓練分類網絡,以最小化LDL_DLD?
- (2)訓練conversion path:(singer 分類器參數不再更新),loss函數是下公式,說話人判別器根據encoder output的輸出判斷說話人身份
2.4 Mel-Regressive Representation learning Module
- 測試發現加入singer confusion module,在解耦說話人身份之外,發音和音樂特征的表達被削弱了,因此加入額外的模塊,對學習的特征進行指導補充。
- 訓練階段L:將speaker embedding+mel encoder outputs拼音送入Mel-Regressive Representation learning Module,恢復mel,
生成器的loss函數可以表示為
3. EXPERIMENTS
3.1. Experimental Setup
train-set:中文普通話歌唱數據集32.7h(9個female, 7個male),每個說話人平均1000句訓練,10句evaluation。
test-set:訓練集以外的20人,40個segment,
decoder:WaveRNN
singing ASR(SASR):20k hours數據, 1467-d PPGs
參數設置:γ = 1.0, λ = 0.1
18個專業的音樂人進行聽測;測試了(1)自然度;(2)相似度;另外測試了客觀指標NCC(normalized cross-correlation,歸一化互相關)—prediction和ground-truth之間的pitch匹配度;
3.2 Ablation Test
結論:
3.3 Noise Robustness
對source加入不同信噪比的白噪聲,性能損失很少(信噪比表明聲音的清晰度)
總結
以上是生活随笔為你收集整理的[2021 icas]PPG-BASED SINGING VOICE CONVERSION WITH ADVERSARIAL REPRESENTATION LEARNING的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python tkinter相关Demo
- 下一篇: 网络渗透(作业)