當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

由海天瑞声支持，全球最大多领域英语开源数据集发布

發(fā)布時間：2024/3/13 编程问答 57 豆豆

生活随笔收集整理的這篇文章主要介紹了由海天瑞声支持，全球最大多领域英语开源数据集发布小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

日前，由陳果果、都家宇、張衛(wèi)強等發(fā)起的語音社區(qū)志愿者組織SpeechColab和清華語音與音頻技術實驗室，聯合語音社區(qū)的8個團隊，在語音界大神Daniel Povey, Sanjeev Khudanpur, Shinji Watanabe等的大力支持下（詳見下圖），發(fā)布了全球最大的多領域英語開源數據集—GigaSpeech,介紹該數據集的論文已被國際語音頂會InterSpeech2021接收。

參與人員及團隊，完整論文下載見下文

海天瑞聲很榮幸參與了本次開源數據集的工作，為部分數據集提供了標注以及全部數據集的鏡像下載支持，也為全球語音識別技術的探索貢獻了自己的力量。

語音識別的性能，很大程度上取決于訓練數據集的規(guī)模和覆蓋性。現有的語音開源數據集適用領域狹窄，缺少難度挑戰(zhàn)，準確率接近飽和。學術界和工業(yè)界研究開始分道揚鑣，碎片化嚴重。作為目前全球最大的多領域英語開源數據集，GigaSpeech致力于推動學術界和產業(yè)界的共同進步。

以下文章來源于THUsatlab ，作者THUsatlab

01
概述

GigaSpeech是一個不斷發(fā)展的、多領域英語語音識別語料庫。它擁有10000小時的高質量標注音頻，適用于有監(jiān)督訓練任務；以及33000小時的總音頻，適用于半監(jiān)督和無監(jiān)督訓練任務。

02
數據來源及質量控制

從發(fā)音風格和覆蓋主題入手，GigaSpeech從有聲讀物、播客和YouTube上收集了約33000小時的轉錄音頻，以及對應的人工轉錄文本、人工字幕等，涵蓋誦讀和自發(fā)口語等一系列不同風格，以及藝術、科學、體育等多種主題。

在質量控制上，GigaSpeech提供一種新的強制對齊和分段處理pipeline工具，以創(chuàng)建適合ASR訓練的句子段，并濾除低質量轉錄片段。對于有監(jiān)督訓練任務，GigaSpeech提供了5個不同規(guī)模的子集。在過濾驗證環(huán)節(jié)，最大訓練子集的詞錯誤率控制在4%以下；其它較小規(guī)模的子集的詞錯誤率控制在0%。

03
適用于有監(jiān)督訓練任務的數據子集詳情

GigaSpeech提供了10小時、250小時、1000小時、2500小時和10000小時等5個不同規(guī)模的子集，以適用于有監(jiān)督訓練任務。詳情如下表所示：

04
開發(fā)集和測試集

05
排行榜

為方便使用，GIgaSpeech為主流的ASR框架提供了baseline的訓練腳本，并開放leaderboard排行榜，目前提供的系統(tǒng)包括Athena、Espnet、Kaldi、Pika、WeNet，后續(xù)還將繼續(xù)更新與完善。

06
使用申請入口

GigaSpeech數據集已開放，歡迎大家使用。

申請入口：
https://forms.gle/UuGQAPyscGRrUMLq6

更多細節(jié)，請訪問github鏈接：
https://github.com/SpeechColab/GigaSpeech

預印版論文地址（已被InterSpeech 2021接收）：
https://arxiv.org/abs/2106.06909

總結

以上是生活随笔為你收集整理的由海天瑞声支持，全球最大多领域英语开源数据集发布的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【教程】Ubuntu20.04 + Vi
下一篇：了解《诗歌生成》必看的6篇论文【附打包下

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

由海天瑞声支持，全球最大多领域英语开源数据集发布

總結