常用音频数据库记录
記錄一下常用的數(shù)據(jù)庫(kù)。
- TIMIT
也忘記當(dāng)時(shí)從哪下的了,網(wǎng)上也沒(méi)看到好一點(diǎn)的鏈接。
TIMIT全稱(chēng)The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, 是由德州儀器(TI)、麻省理工學(xué)院(MIT)和坦福研究院(SRI)合作構(gòu)建的聲學(xué)-音素連續(xù)語(yǔ)音語(yǔ)料庫(kù)。TIMIT數(shù)據(jù)集的語(yǔ)音采樣頻率為16kHz,一共包含6300個(gè)句子,由來(lái)自美國(guó)八個(gè)主要方言地區(qū)的630個(gè)人每人說(shuō)出給定的10個(gè)句子,所有的句子都在音素級(jí)別(phone level)上進(jìn)行了手動(dòng)分割,標(biāo)記。70%的說(shuō)話人是男性;大多數(shù)說(shuō)話者是成年白人。
- THCHS30
THCHS30是Dong Wang, Xuewei Zhang, Zhiyong Zhang這幾位大神發(fā)布的開(kāi)放語(yǔ)音數(shù)據(jù)集,可用于開(kāi)發(fā)中文語(yǔ)音識(shí)別系統(tǒng)。 - CSTR VCTK Corpus?
Google Wavenet用到的數(shù)據(jù)庫(kù)。
This CSTR VCTK Corpus includes speech data uttered by 109 native speakers of English with various accents. Each speaker reads out about 400 sentences, most of which were selected from a newspaper plus the Rainbow Passage and an elicitation paragraph intended to identify the speaker's accent. The newspaper texts were taken from The Herald (Glasgow), with permission from Herald & Times Group. Each speaker reads a different set of the newspaper sentences, where each set was selected using a greedy algorithm designed to maximise the contextual and phonetic coverage. The Rainbow Passage and elicitation paragraph are the same for all speakers. The Rainbow Passage can be found in the International Dialects of English Archive: (http://web.ku.edu/~idea/readings/rainbow.htm). The elicitation paragraph is identical to the one used for the speech accent archive (http://accent.gmu.edu). The details of the the speech accent archive can be found at http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf
All speech data was recorded using an identical recording setup: an omni-directional head-mounted microphone (DPA 4035), 96kHz sampling frequency at 24 bits and in a hemi-anechoic chamber of the University of Edinburgh. All recordings were converted into 16 bits, were downsampled to 48 kHz based on STPK, and were manually end-pointed. This corpus was recorded for the purpose of building HMM-based text-to-speech synthesis systems, especially for speaker-adaptive HMM-based speech synthesis using average voice models trained on multiple speakers and speaker adaptation technologies.
- VoxForge(開(kāi)源的識(shí)別庫(kù))
VoxForge創(chuàng)建的初衷是為免費(fèi)和開(kāi)源的語(yǔ)音識(shí)別引擎收集標(biāo)注錄音(在Linux/Unix,Windows以及Mac平臺(tái)上)。
我們以GPL協(xié)議開(kāi)放所有提交的錄音文件,并制作聲學(xué)模型,以供開(kāi)源語(yǔ)音識(shí)別引擎使用,如CMUSphinx,ISIP,Julias(github)和HTK(注意:HTK有分發(fā)限制)。
- OpenSL
OpenSLR是一個(gè)有聲書(shū)數(shù)據(jù)集。
OpenSLR is a site devoted to hosting speech and language resources, such as training corpora for speech recognition, and software related to speech recognition. We intend to be a convenient place for anyone to put resources that they have created, so that they can be downloaded publicly.
其他:
來(lái)自論文?Zhang et al., 2015。這是有八個(gè)文字分類(lèi)數(shù)據(jù)集組成的大型數(shù)據(jù)庫(kù)。對(duì)于新的文字分類(lèi)基準(zhǔn),它是最常用的。樣本大小為 120K 到 3.6M,包括了從二元到 14 階的問(wèn)題。來(lái)自 DBPedia, Amazon, Yelp, Yahoo!,搜狗和 AG 的數(shù)據(jù)集。
地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
WikiText
標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)
源自高品質(zhì)維基百科文章的大型語(yǔ)言建模語(yǔ)料庫(kù)。Salesforce MetaMind 維護(hù)。
地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
Question Pairs
標(biāo)簽:實(shí)用
Quora 發(fā)布的第一個(gè)數(shù)據(jù)集,包含副本/語(yǔ)義近似值標(biāo)記。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
SQuAD
標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)
斯坦福的問(wèn)答社區(qū)數(shù)據(jù)集——適用范圍較廣的問(wèn)題回答和閱讀理解數(shù)據(jù)集。每一個(gè)回答都被作為一個(gè) span,或者一段文本。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset
標(biāo)簽:無(wú)
人工創(chuàng)建的仿真陳述問(wèn)題/回答組合,還有維基百科文章的難度評(píng)分。
地址:http://www.cs.cmu.edu/~ark/QA-data/
Maluuba Datasets
標(biāo)簽:實(shí)用
為 NLP 研究人工創(chuàng)建的復(fù)雜數(shù)據(jù)集。
地址:https://datasets.maluuba.com/
Billion Words
標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)
大型、通用型建模數(shù)據(jù)集。時(shí)常用來(lái)訓(xùn)練散布音(distributed)的詞語(yǔ)表達(dá),比如 word2vec 或 ?GloVe。
地址:http://www.statmt.org/lm-benchmark/
Common Crawl
標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)
PB(拍字節(jié))級(jí)別的網(wǎng)絡(luò)爬蟲(chóng)。最經(jīng)常被用來(lái)學(xué)習(xí)詞語(yǔ)嵌入。可從 Amazon S3 免費(fèi)獲取。對(duì)于 WWW 萬(wàn)維網(wǎng)的信息采集,是一個(gè)比較有用的網(wǎng)絡(luò)數(shù)據(jù)集。
地址:http://commoncrawl.org/the-data/
bAbi
標(biāo)簽:學(xué)術(shù)基準(zhǔn)?經(jīng)典
Facebook AI Research (FAIR) 推出的合成閱讀理解和問(wèn)題回答數(shù)據(jù)集。
地址:https://research.fb.com/projects/babi/
The Children's Book Test
標(biāo)簽:學(xué)術(shù)基準(zhǔn)
Project Gutenberg(一項(xiàng)正版數(shù)字圖書(shū)免費(fèi)分享工程)兒童圖書(shū)里提取的成對(duì)數(shù)據(jù)(問(wèn)題加情境,回答)基準(zhǔn)。對(duì)問(wèn)答、閱讀理解、仿真陳述(factoid)查詢比較有用。
地址:https://research.fb.com/projects/babi/
Stanford Sentiment Treebank
標(biāo)簽:學(xué)術(shù)基準(zhǔn) 經(jīng)典 較舊
標(biāo)準(zhǔn)的情緒數(shù)據(jù)集,對(duì)每一句話每一個(gè)節(jié)點(diǎn)的語(yǔ)法樹(shù),都有細(xì)致的情感注解。
地址:http://nlp.stanford.edu/sentiment/code.html
20 Newsgroups
標(biāo)簽:經(jīng)典 較舊
一個(gè)較經(jīng)典的文本分類(lèi)數(shù)據(jù)集。通常作為純粹分類(lèi)或者對(duì) IR / indexing 算法驗(yàn)證的基準(zhǔn),在這方面比較有用。
地址:http://qwone.com/~jason/20Newsgroups/
Reuters
標(biāo)簽:經(jīng)典 較舊
較老的、基于純粹分類(lèi)的數(shù)據(jù)集。文本來(lái)自于路透社新聞專(zhuān)線。常被用于教程之中。
地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
?IMDB
標(biāo)簽:經(jīng)典 較舊
較老的、相對(duì)比較小的數(shù)據(jù)集。用于情緒分類(lèi)。但在文學(xué)基準(zhǔn)方面逐漸失寵,讓位于更大的數(shù)據(jù)集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
UCI’s Spambase
標(biāo)簽:經(jīng)典 較舊
較老的、經(jīng)典垃圾郵件數(shù)據(jù)集,源自于 UCI Machine Learning Repository。由于數(shù)據(jù)集的管理細(xì)節(jié),在學(xué)習(xí)私人訂制垃圾信息過(guò)濾方面,這會(huì)是一個(gè)有趣的基準(zhǔn)。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語(yǔ)音
大多數(shù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)都是專(zhuān)有的——這些數(shù)據(jù)對(duì)其所有公司而言有巨大價(jià)值。絕大部分該領(lǐng)域的公共數(shù)據(jù)集已經(jīng)很老了。
2000 HUB5 English
標(biāo)簽:學(xué)術(shù)基準(zhǔn) 較舊
只包含英語(yǔ)的語(yǔ)音數(shù)據(jù)。最近一次被使用是百度的深度語(yǔ)音論文。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech
標(biāo)簽:學(xué)術(shù)基準(zhǔn)
有聲圖書(shū)數(shù)據(jù)集,包含文字和語(yǔ)音。接近 500 個(gè)小時(shí)的清楚語(yǔ)音,來(lái)自于多名朗讀者和多個(gè)有聲讀物,根據(jù)圖書(shū)章節(jié)來(lái)組織。
地址:http://www.openslr.org/12/
VoxForge
標(biāo)簽:實(shí)用 學(xué)術(shù)基準(zhǔn)
帶口音英語(yǔ)的清晰語(yǔ)音數(shù)據(jù)集。如果你需要有強(qiáng)大的不同口音、語(yǔ)調(diào)識(shí)別能力,會(huì)比較有用。
地址:http://www.voxforge.org/
TIMIT
標(biāo)簽:學(xué)術(shù)基準(zhǔn) 經(jīng)典
只含英語(yǔ)的語(yǔ)音識(shí)別數(shù)據(jù)集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
CHIME
標(biāo)簽:實(shí)用
含大量噪音的語(yǔ)音識(shí)別挑戰(zhàn)杯數(shù)據(jù)集。它包含真實(shí)、模擬和清晰的錄音:真實(shí),是因?yàn)樵摂?shù)據(jù)集包含四個(gè)說(shuō)話對(duì)象在四個(gè)不同吵鬧環(huán)境下接近 9000 段的錄音;模擬,是通過(guò)把多個(gè)環(huán)境與語(yǔ)音結(jié)合來(lái)生成;清晰,是指沒(méi)有噪音的清楚錄音。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM
標(biāo)簽:無(wú)
TED 演講的音頻轉(zhuǎn)錄。包含 1495 場(chǎng) TED 演講,以及它們的完整字幕文本。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
?
其他
- 語(yǔ)音合成
1-HTS:HMM-based Speech Synthesis System (HTS)?
2-Wavenet,Google的大殺器,后邊打算單獨(dú)寫(xiě)文介紹
- 語(yǔ)音識(shí)別
1-HTK
2-Kaldi
3-Juicer
4-Julius
- 語(yǔ)音增強(qiáng)
1-Loizou教授, 主要貢獻(xiàn)在于從聽(tīng)覺(jué)上把握/分析/優(yōu)化 語(yǔ)音增強(qiáng), 工作做的比較細(xì)
2-I. Cohen,此人灌水了一大批文章, 看他的文章抓住一點(diǎn)就行了, speech presence probability, 說(shuō)水是比較而言,此人算是高手了
3-Y.Ephraim, 此人大牛, 可以說(shuō)開(kāi)啟/總結(jié) 了語(yǔ)音增強(qiáng)的三個(gè)方向,statiscial model based, HMM training based, subspace based.?
4-R.Martin,主要貢獻(xiàn)在于noise power estimation 和 super-Guassian model based speech enhancement?
?
其他:
1)手機(jī) 音頻延遲測(cè)試:http://superpowered.com/latency
2)語(yǔ)音課程:
a)課件:http://llcao.net/cu-deeplearning17/schedule.html
b)有視頻:https://telecombcn-dl.github.io/2017-dlsl/
3)Hinton-deep_learning課程:https://www.youtube.com/watch?v=cbeTc-Urqak&list=PLoRl3Ht4JOcdU872GhiYWf6jwrk_SNhz9
4)NLP,stanford講義:https://web.stanford.edu/~jurafsky/NLPCourseraSlides.html
https://web.stanford.edu/~jurafsky/slp3/
NLP方向:http://web.stanford.edu/class/cs224s/
?
參考:
http://www.cnblogs.com/AriesQt/articles/6742721.html
轉(zhuǎn)載于:https://www.cnblogs.com/xingshansi/p/6819532.html
總結(jié)
- 上一篇: 出差第一天
- 下一篇: MairaDB 函数(一)