由海天瑞声支持,全球最大多领域英语开源数据集发布
日前,由陳果果、都家宇、張衛(wèi)強等發(fā)起的語音社區(qū)志愿者組織SpeechColab和清華語音與音頻技術實驗室,聯合語音社區(qū)的8個團隊,在語音界大神Daniel Povey, Sanjeev Khudanpur, Shinji Watanabe等的大力支持下(詳見下圖),發(fā)布了全球最大的多領域英語開源數據集—GigaSpeech,介紹該數據集的論文已被國際語音頂會InterSpeech2021接收。
參與人員及團隊,完整論文下載見下文
海天瑞聲很榮幸參與了本次開源數據集的工作,為部分數據集提供了標注以及全部數據集的鏡像下載支持,也為全球語音識別技術的探索貢獻了自己的力量。
語音識別的性能,很大程度上取決于訓練數據集的規(guī)模和覆蓋性。現有的語音開源數據集適用領域狹窄,缺少難度挑戰(zhàn),準確率接近飽和。學術界和工業(yè)界研究開始分道揚鑣,碎片化嚴重。作為目前全球最大的多領域英語開源數據集,GigaSpeech致力于推動學術界和產業(yè)界的共同進步。
以下文章來源于THUsatlab ,作者THUsatlab
01
概述
GigaSpeech是一個不斷發(fā)展的、多領域英語語音識別語料庫。它擁有10000小時的高質量標注音頻,適用于有監(jiān)督訓練任務;以及33000小時的總音頻,適用于半監(jiān)督和無監(jiān)督訓練任務。
02
數據來源及質量控制
從發(fā)音風格和覆蓋主題入手,GigaSpeech從有聲讀物、播客和YouTube上收集了約33000小時的轉錄音頻,以及對應的人工轉錄文本、人工字幕等,涵蓋誦讀和自發(fā)口語等一系列不同風格,以及藝術、科學、體育等多種主題。
在質量控制上,GigaSpeech提供一種新的強制對齊和分段處理pipeline工具,以創(chuàng)建適合ASR訓練的句子段,并濾除低質量轉錄片段。對于有監(jiān)督訓練任務,GigaSpeech提供了5個不同規(guī)模的子集。在過濾驗證環(huán)節(jié),最大訓練子集的詞錯誤率控制在4%以下;其它較小規(guī)模的子集的詞錯誤率控制在0%。
03
適用于有監(jiān)督訓練任務的數據子集詳情
GigaSpeech提供了10小時、250小時、1000小時、2500小時和10000小時等5個不同規(guī)模的子集,以適用于有監(jiān)督訓練任務。詳情如下表所示:
04
開發(fā)集和測試集
05
排行榜
為方便使用,GIgaSpeech為主流的ASR框架提供了baseline的訓練腳本,并開放leaderboard排行榜,目前提供的系統(tǒng)包括Athena、Espnet、Kaldi、Pika、WeNet,后續(xù)還將繼續(xù)更新與完善。
06
使用申請入口
GigaSpeech數據集已開放,歡迎大家使用。
申請入口:
https://forms.gle/UuGQAPyscGRrUMLq6
更多細節(jié),請訪問github鏈接:
https://github.com/SpeechColab/GigaSpeech
預印版論文地址(已被InterSpeech 2021接收):
https://arxiv.org/abs/2106.06909
總結
以上是生活随笔為你收集整理的由海天瑞声支持,全球最大多领域英语开源数据集发布的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【教程】Ubuntu20.04 + Vi
- 下一篇: 了解《诗歌生成》必看的6篇论文【附打包下