又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2項(xiàng)目近期炸裂更新,放出了v2.0.2版本的代碼,修正了存在于2.0先前版本的重大bug,并且重?zé)捔说啄#敬胃率羌?.1.1版本后最重大的更新,支持了三語(yǔ)言訓(xùn)練及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我們基于新版V2.0.2來(lái)本地推理原神小姐姐們的音色模型。
具體的更新日志請(qǐng)參見(jiàn)官網(wǎng):
https://github.com/fishaudio/Bert-VITS2/releases
模型配置
首先克隆官方最近的v2.0.2代碼:
git clone https://github.com/fishaudio/Bert-VITS2.git
隨后在項(xiàng)目的根目錄創(chuàng)建Data目錄
cd Bert-VITS2
mkdir Data
該目錄用來(lái)存放音色模型文件。
隨后下載雷電將軍和八重神子的音色模型:
鏈接:https://pan.baidu.com/s/1e9gKidfvYKLU2IzjoW3sVw?pwd=v3uc
這兩個(gè)模型都是基于老版本進(jìn)行訓(xùn)練的,囿于篇幅,訓(xùn)練流程先按下不表。
需要注意的是,模型文件所在的目錄不支持中文,最好改成英文,目錄結(jié)構(gòu)如下所示:
E:\work\Bert-VITS2-v202_launch_yingAndBachong\Data>tree/F
Folder PATH listing for volume myssd
Volume serial number is 7CE3-15AE
E:.
├───bachong
│ │ config.json
│ │
│ └───models
│ G_47700.pth
│
└───ying
│ config.json
│ config.yml
│
├───custom_character_voice
├───filelists
└───models
G_4600.pth
這里.pth文件就是模型本體,config.json是模型配置文件。
當(dāng)然,除了筆者分享的模型,也可以加載之前老版本自己訓(xùn)練的模型,但需要注意的是,必須指定模型訓(xùn)練的版本,也就是當(dāng)時(shí)訓(xùn)練操作過(guò)程中Bert-VITS2的版本,比如筆者的模型訓(xùn)練時(shí)是基于v1.1.1,那么就必須在config中進(jìn)行指定:
{
"train": {
"log_interval": 100,
"eval_interval": 100,
"seed": 52,
"epochs": 200,
"learning_rate": 0.0001,
"betas": [
0.8,
0.99
],
"eps": 1e-09,
"batch_size": 4,
"fp16_run": false,
"lr_decay": 0.999875,
"segment_size": 16384,
"init_lr_ratio": 1,
"warmup_epochs": 0,
"c_mel": 45,
"c_kl": 1.0,
"skip_optimizer": true
},
"data": {
"training_files": "filelists/train.list",
"validation_files": "filelists/val.list",
"max_wav_value": 32768.0,
"sampling_rate": 44100,
"filter_length": 2048,
"hop_length": 512,
"win_length": 2048,
"n_mel_channels": 128,
"mel_fmin": 0.0,
"mel_fmax": null,
"add_blank": true,
"n_speakers": 2,
"cleaned_text": true,
"spk2id": {
"bachong": 0
}
},
"model": {
"use_spk_conditioned_encoder": true,
"use_noise_scaled_mas": true,
"use_mel_posterior_encoder": false,
"use_duration_discriminator": true,
"inter_channels": 192,
"hidden_channels": 192,
"filter_channels": 768,
"n_heads": 2,
"n_layers": 6,
"kernel_size": 3,
"p_dropout": 0.1,
"resblock": "1",
"resblock_kernel_sizes": [
3,
7,
11
],
"resblock_dilation_sizes": [
[
1,
3,
5
],
[
1,
3,
5
],
[
1,
3,
5
]
],
"upsample_rates": [
8,
8,
2,
2,
2
],
"upsample_initial_channel": 512,
"upsample_kernel_sizes": [
16,
16,
8,
2,
2
],
"n_layers_q": 3,
"use_spectral_norm": false,
"gin_channels": 256
},
"version": "1.1.1"
}
最后的version參數(shù)用來(lái)指定模型,如果不指定模型,系統(tǒng)默認(rèn)是v2.0版本,假設(shè)模型和版本不匹配,會(huì)造成本地推理的音色異常。
修改好版本之后,可以通過(guò)pip安裝依賴(lài):
pip install -r requirements.txt
至此,模型就配置好了。
本地推理
依賴(lài)安裝好之后,在根目錄執(zhí)行命令:
python3 server_fastapi.py
程序返回:
E:\work\Bert-VITS2-v202_launch_yingAndBachong>python server_fastapi.py
E:\work\Bert-VITS2-v202_launch_yingAndBachong\venv\lib\site-packages\torch\nn\utils\weight_norm.py:30: UserWarning: torch.nn.utils.weight_norm is deprecated in favor of torch.nn.utils.parametrizations.weight_norm.
warnings.warn("torch.nn.utils.weight_norm is deprecated in favor of torch.nn.utils.parametrizations.weight_norm.")
11-20 11:08:46 SUCCESS | server_fastapi.py:101 | 添加模型E:\work\Bert-VITS2-v202_launch_yingAndBachong\Data\ying\models\G_4600.pth,使用配置文件E:\work\Bert-VITS2-v202_launch_yingAndBachong\Data\ying\config.json
11-20 11:08:46 SUCCESS | server_fastapi.py:107 | 模型已存在,添加模型引用。
11-20 11:08:46 WARNING | server_fastapi.py:626 | 本地服務(wù),請(qǐng)勿將服務(wù)端口暴露于外網(wǎng)
11-20 11:08:46 INFO | server_fastapi.py:627 | api文檔地址 http://127.0.0.1:7860/docs
說(shuō)明服務(wù)已經(jīng)啟動(dòng),沒(méi)錯(cuò),Bert-vits2的推理api是基于Fast-api的。關(guān)于Fast-api框架,請(qǐng)移步:
2020年是時(shí)候更新你的技術(shù)武器庫(kù)了:Asgi vs Wsgi(FastAPI vs Flask)
隨后訪(fǎng)問(wèn)http://127.0.0.1:7860/:
這里可以將兩個(gè)模型一起加載進(jìn)來(lái)。
右側(cè)參數(shù)為推理設(shè)備和語(yǔ)言,默認(rèn)是使用cuda和中文。
如果是沒(méi)有N卡的同學(xué),也可以選擇用cpu進(jìn)行本地推理。
隨后將推理文本寫(xiě)入文本框:
這里值得一提的是,Bert-vits2解決了長(zhǎng)文本報(bào)錯(cuò)的問(wèn)題,如果是長(zhǎng)文本,只需要打開(kāi)自動(dòng)切分的選項(xiàng)即可,系統(tǒng)會(huì)根據(jù)文本中的標(biāo)點(diǎn)進(jìn)行切割,減少每次推理的token數(shù)量,從而避免報(bào)錯(cuò)。
最后新版本支持多模型同時(shí)推理:
只需要選擇對(duì)應(yīng)的模型選項(xiàng),然后下載音頻即可。
結(jié)語(yǔ)
筆者已經(jīng)采用:一鍵整合,萬(wàn)用萬(wàn)靈,Python3.10項(xiàng)目嵌入式一鍵整合包的制作(Embed)的方式將項(xiàng)目做成了一鍵整合包,解壓后運(yùn)行l(wèi)aunch.bat文件,開(kāi)箱可用,一鍵推理:
鏈接:https://pan.baidu.com/s/12pinwHb5mmYvskYTZtLKvg?pwd=v3uc
歡迎諸公下載品鑒。
總結(jié)
以上是生活随笔為你收集整理的又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Seaurl-分享一个云上网址收藏网站
- 下一篇: 滚动更新和回滚部署在 Kubernete