當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2022年3月语音合成（TTS)和语音识别(ASR)论文月报

發(fā)布時(shí)間：2024/1/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 2022年3月语音合成（TTS)和语音识别(ASR)论文月报小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

論文統(tǒng)計(jì)每月更新一次，主要跟蹤語音合成和語音識(shí)別的發(fā)展?fàn)顩r(很多文章都是在會(huì)議后才發(fā)出，但不影響統(tǒng)計(jì)。統(tǒng)計(jì)過程難免存在疏漏，因此統(tǒng)計(jì)結(jié)果僅供參考。所有文章語音合成領(lǐng)域統(tǒng)計(jì)列表請(qǐng)?jiān)L問http://yqli.tech/page/tts_paper.html，語音識(shí)別領(lǐng)域論文統(tǒng)計(jì)請(qǐng)?jiān)L問http://yqli.tech/page/asr_paper.html。開源語音數(shù)據(jù)查詢?http://yqli.tech/page/data.html。

如何查找語音資料請(qǐng)參考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg）。讀者有什么建議可以直接給我發(fā)消息，我將不斷修改該統(tǒng)計(jì)。如有轉(zhuǎn)載，請(qǐng)注明出處。歡迎關(guān)注微信公眾號(hào)：低調(diào)奮進(jìn)。

在正文之前，我先介紹一下開源數(shù)據(jù)整理網(wǎng)頁，便于同行查詢數(shù)據(jù)。感興趣的讀者請(qǐng)?jiān)L問http://yqli.tech/page/data.html。

（我在三月份讀的文章也少，編寫解碼器剛上線測試。我在整理3月份的文章，發(fā)現(xiàn)幾篇較好的文章，將會(huì)在接下來時(shí)間進(jìn)行分享）

一語音合成篇

表一給出具體分類說明。2022年3月的語音合成相關(guān)的文章有56篇，比1月份和2月份都差不多增長1倍，詳情參見圖1。表二和圖2是語音合成的具體方向的文章情況，由此可知，聲學(xué)模型、聲碼器、聲音轉(zhuǎn)換和歌唱合成?是主要熱點(diǎn)。另外這期的前端工作有三篇文章，主要是tn和多音字消歧的?工作。

表一? 語音合成分類說明

分類	說明
前端	多音字，韻律，g2p等等。
聲學(xué)模型	語言特征轉(zhuǎn)聲學(xué)特征，attention工作，多說話人以及雙重學(xué)習(xí)
聲碼器	波形生成
個(gè)性化	少數(shù)據(jù)，臟數(shù)據(jù)應(yīng)用等自適應(yīng)
多語言	多語言模型
歌唱合成	歌唱和音樂合成
情感	風(fēng)格和情感
多模態(tài)	主要搜集talking head文章
聲音轉(zhuǎn)換	基于GAN方案和特征解耦方案
S2S	?speech-to-speech
其它	基于EEG合成，開源數(shù)據(jù)，MOS評(píng)測以及語音合成的應(yīng)用

圖1?語音合成論文總數(shù)

表二??語音合成論文分布情況

	1月	2月	3月
前端	2	0	3
聲學(xué)模型	4	5	17
聲碼器	1	5	7
個(gè)性化	1	2	4
多語言	1	1	0
歌唱合成	5	3	5
情感風(fēng)格	2	2	1
多模態(tài)	4	3	2
聲音轉(zhuǎn)換	4	2	11
s2s	1	0	2
其它	2	0	4

圖2?語音合成論文分布情況柱狀圖

語音合成的文章列表請(qǐng)?jiān)L問http://yqli.tech/page/tts_paper.html

2022.03月份的文章

二?語音識(shí)別篇

語音識(shí)別的文章分類參照表三說明。圖3是語音識(shí)別文章總數(shù)，跟語音合成一樣，3月份的文章數(shù)量是2月份和1月份的?1倍。語音識(shí)別的研究方向具體情況參見表4和圖4。另外對(duì)于會(huì)議場景、訪談場景的工作研究有增加的?趨勢(shì)。?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 表三? 語音識(shí)別分類說明

分類	說明
general	包括傳統(tǒng)、混合語音識(shí)別，以及對(duì)asr的優(yōu)化
ctc	ctc優(yōu)化
rnn-t	rnn-t的優(yōu)化
aed	aed優(yōu)化
dataset	開源數(shù)據(jù)庫
data aug	數(shù)據(jù)增廣
lm	語言模型研究
multilingual	多語音系統(tǒng)以及code-switch
personal	少數(shù)據(jù)量自適應(yīng)以及個(gè)性化ASR
rescoring	多種模型聯(lián)合打分
unsupervised	無監(jiān)督或者自監(jiān)督學(xué)習(xí)
accent?,dialect	口音和方言
other	其它方向研究，包括系統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)等等
robust	魯棒性
speaker diarization	speaker diarization
multichannel	多通道

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖3? 語音識(shí)別文章數(shù)量統(tǒng)計(jì)（單位：篇）

? ? ? ? ? ?? ? ?表4?語音識(shí)別研究方向分布情況

	1月	2月	3月
general	12	10	13
ctc	1	0	2
rnn-t	3	1	2
aed	1	1	1
dataset	3	0	3
data augmentation	1	1	1
lm	2	2	4
multilingual	2	1	2
personal	0	7	3
rescoring	1	1	2
unsupervised	2	3	17
accent	1	0	0
multichannel	0	4	1
robust	0	0	5
other	6	13	22
speaker diarization	0	3	4

?? ? ? ? ? ? ? ? ? ?圖4 語音識(shí)別研究方向柱狀圖

語音識(shí)別的文章列表請(qǐng)?jiān)L問http://yqli.tech/page/asr_paper.html

2022.03月份語音識(shí)別具體文章

總結(jié)

以上是生活随笔為你收集整理的2022年3月语音合成（TTS)和语音识别(ASR)论文月报的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： ProxySQL 配置详解及读写分离(+
下一篇： MS SQL用两个字段中较大的值为条件进

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

2022年3月语音合成（TTS)和语音识别(ASR)论文月报

總結(jié)