国内外深度学习开放数据集下载集合(值得收藏,不断更新)
國(guó)內(nèi)外深度學(xué)習(xí)開(kāi)放數(shù)據(jù)集下載集合(值得收藏,不斷更新)
一、Image processing data set
1、MNIST ,是最流行的深度學(xué)習(xí)數(shù)據(jù)集之一。這是一個(gè)手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集,包含一個(gè)有著 60000 樣本的訓(xùn)練集和一個(gè)有著 10000 樣本的測(cè)試集。對(duì)于在現(xiàn)實(shí)世界數(shù)據(jù)上嘗試學(xué)習(xí)技術(shù)和深度識(shí)別模式而言,這是一個(gè)非常好的數(shù)據(jù)庫(kù),且無(wú)需花費(fèi)過(guò)多時(shí)間和精力進(jìn)行數(shù)據(jù)預(yù)處理。
大小:約 50 MB
數(shù)量:70000 張圖像,共分為 10 個(gè)類別。
Identify the Digits:Identify the Digits下載
MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges:mnist下載
2、Fashion-MNIST, 包含 60,000 個(gè)訓(xùn)練集圖像和 10,000 個(gè)測(cè)試集圖像。它是一個(gè)類似 MNIST 的時(shí)尚產(chǎn)品數(shù)據(jù)庫(kù)。開(kāi)發(fā)人員認(rèn)為 MNIST 的使用次數(shù)太多了,因此他們把這個(gè)數(shù)據(jù)集用作 MNIST 的直接替代品。每張圖像都以灰度顯示,并具備一個(gè)標(biāo)簽(10 個(gè)類別之一)。
大小:30MB
數(shù)量:70,000 張圖像,共 10 類
zalandoresearch/fashion-mnist:下載地址
3、PASCAL VOC挑戰(zhàn)賽是視覺(jué)對(duì)象的分類識(shí)別和檢測(cè)的一個(gè)基準(zhǔn)測(cè)試,提供了檢測(cè)算法和學(xué)習(xí)性能的標(biāo)準(zhǔn)圖像注釋數(shù)據(jù)集和標(biāo)準(zhǔn)的評(píng)估系統(tǒng)。PASCAL VOC圖片集包括20個(gè)目錄:人類;動(dòng)物(鳥(niǎo)、貓、牛、狗、馬、羊);交通工具(飛機(jī)、自行車(chē)、船、公共汽車(chē)、小轎車(chē)、摩托車(chē)、火車(chē));室內(nèi)(瓶子、椅子、餐桌、盆栽植物、沙發(fā)、電視)。PASCAL VOC挑戰(zhàn)賽在2012年后便不再舉辦,但其數(shù)據(jù)集圖像質(zhì)量好,標(biāo)注完備,非常適合用來(lái)測(cè)試算法性能。
數(shù)據(jù)集大小:~2GB
Visual Object Classes Challenge 2012 (VOC2012):下載地址
4、VQA ,是一個(gè)包含圖像開(kāi)放式問(wèn)題的數(shù)據(jù)集。這些問(wèn)題的解答需要視覺(jué)和語(yǔ)言的理解。該數(shù)據(jù)集擁有下列有趣的特征:
大小:25GB(壓縮后)
數(shù)量:265,016 張圖像,每張圖像至少 3 個(gè)問(wèn)題,每個(gè)問(wèn)題 10 個(gè)正確答案
Announcing the VQA Challenge 2018!:下載地址
5、COCO, 是一個(gè)大型數(shù)據(jù)集,用于目標(biāo)檢測(cè)、分割和標(biāo)題生成。Announcing the VQA Challenge 2018!2、COCO 是一個(gè)大型數(shù)據(jù)集,用于目標(biāo)檢測(cè)、分割和標(biāo)題生成。
大小:約 25 GB(壓縮后)
數(shù)量:33 萬(wàn)張圖像、80 個(gè)目標(biāo)類別、每張圖像 5 個(gè)標(biāo)題、25 萬(wàn)張帶有關(guān)鍵點(diǎn)的人像
Common Objects in Context:下載地址
6、CIFAR-10,該數(shù)據(jù)集也用于圖像分類。它由 10 個(gè)類別共計(jì) 60,000 張圖像組成(每個(gè)類在上圖中表示為一行)。該數(shù)據(jù)集共有 50,000 張訓(xùn)練集圖像和 10,000 個(gè)測(cè)試集圖像。數(shù)據(jù)集分為 6 個(gè)部分——5 個(gè)訓(xùn)練批和 1 個(gè)測(cè)試批。每批含有 10,000 張圖像。
大小:170MB
數(shù)量:60,000 張圖像,共 10 類
http://www.cs.toronto.edu/~kriz/cifar.html:下載地址
7、ImageNet ,是根據(jù) WordNet 層次來(lái)組織的圖像數(shù)據(jù)集。WordNet 包含大約 10 萬(wàn)個(gè)短語(yǔ),而 ImageNet 為每個(gè)短語(yǔ)提供平均約 1000 張描述圖像。
大小:約 150 GB
數(shù)量:圖像的總數(shù)約為 1,500,000;每一張圖像都具備多個(gè)邊界框和各自的類別標(biāo)簽。
http://www.image-net.org/:下載地址
ImageNet:下載地址
8、街景門(mén)牌號(hào)數(shù)據(jù)集(SVHN),這是一個(gè)現(xiàn)實(shí)世界數(shù)據(jù)集,用于開(kāi)發(fā)目標(biāo)檢測(cè)算法。它需要最少的數(shù)據(jù)預(yù)處理過(guò)程。它與 MNIST 數(shù)據(jù)集有些類似,但是有著更多的標(biāo)注數(shù)據(jù)(超過(guò) 600,000 張圖像)。這些數(shù)據(jù)是從谷歌街景中的房屋門(mén)牌號(hào)中收集而來(lái)的。
大小:2.5GB
數(shù)量:6,30,420 張圖像,共 10 類
The Street View House Numbers (SVHN) Dataset
:下載地址
9、Open Images ,是一個(gè)包含近 900 萬(wàn)個(gè)圖像 URL 的數(shù)據(jù)集。這些圖像使用包含數(shù)千個(gè)類別的圖像級(jí)標(biāo)簽邊界框進(jìn)行了標(biāo)注。該數(shù)據(jù)集的訓(xùn)練集包含 9,011,219 張圖像,驗(yàn)證集包含 41,260 張圖像,測(cè)試集包含 125,436 張圖像。
大小:500GB(壓縮后)~1.5GB(不包括圖片)
數(shù)量:9,011,219 張圖像,帶有超過(guò) 5000 個(gè)標(biāo)簽
openimages/dataset:下載地址
10、機(jī)器標(biāo)注的一個(gè)超大規(guī)模數(shù)據(jù)集,包含2億圖像。
We address the problem of large-scale annotation of web images. Our approach is based on the concept of visual synset, which is an organization of images which are visually-similar and semantically-related. Each visual synset represents a single prototypical visual concept, and has an associated set of weighted annotations. Linear SVM’s are utilized to predict the visual synset membership for unseen image examples, and a weighted voting rule is used to construct a ranked list of predicted annotations from a set of visual synsets. We demonstrate that visual synsets lead to better performance than standard methods on a new annotation database containing more than 200 million im- ages and 300 thousand annotations, which is the largest ever reported.
VisualSynset:下載地址
11、包含13萬(wàn)的圖像的數(shù)據(jù)集。Scene categorization is a fundamental problem in computer vision. However, scene understanding research has been constrained by the limited scope of currently-used databases which do not capture the full variety of scene categories. Whereas standard databases for object categorization contain hundreds of different classes of objects, the largest available dataset of scene categories contains only 15 classes. In this paper we propose the extensive Scene UNderstanding (SUN) database that contains 899 categories and 130,519 images. We use 397 well-sampled categories to evaluate numerous state-of-the-art algorithms for scene recognition and establish new bounds of performance. We measure human scene classification performance on the SUN database and compare this with computational methods.
http://vision.princeton.edu/projects/2010/SUN/
?vision.princeton.edu
12、包含100萬(wàn)的圖像,23000視頻;微軟亞洲研究院出品,質(zhì)量應(yīng)該有保障。
Microsoft Research – Emerging Technology, Computer, and Software Research
:下載地址
二、Natural Language Processing data setVisualSynset二、Natural Language Processing data setLarge-scale Scene Recognition from Abbey to Zoo
二、Natural Language Processing data setVisualSynset二、Natural Language Processing data set
1、IMDB 電影評(píng)論數(shù)據(jù)集,該數(shù)據(jù)集對(duì)于電影愛(ài)好者而言非常贊。它用于二元情感分類,目前所含數(shù)據(jù)超過(guò)該領(lǐng)域其他數(shù)據(jù)集。除了訓(xùn)練集評(píng)論樣本和測(cè)試集評(píng)論樣本之外,還有一些未標(biāo)注數(shù)據(jù)可供使用。此外,該數(shù)據(jù)集還包括原始文本和預(yù)處理詞袋格式。
大小:80 MB
數(shù)量:訓(xùn)練集和測(cè)試集各包含 25,000 個(gè)高度兩極化的電影評(píng)論
Sentiment Analysis:下載地址
2、 歐洲語(yǔ)言機(jī)器翻譯數(shù)據(jù)集 ,該數(shù)據(jù)集包含四種歐洲語(yǔ)言的訓(xùn)練數(shù)據(jù),旨在改進(jìn)當(dāng)前的翻譯方法。你可以使用以下任意語(yǔ)言對(duì): 法語(yǔ) - 英語(yǔ) 西班牙語(yǔ) - 英語(yǔ) 德語(yǔ) - 英語(yǔ) 捷克語(yǔ) - 英語(yǔ)
大小: 約 15 GB
數(shù)量:約 30,000,000 個(gè)句子及對(duì)應(yīng)的譯文
2018 Third Conference on Machine Translation (WMT18)
?statmt.org:下載地址
3、WordNet,WordNet 是一個(gè)大型英語(yǔ) synset 數(shù)據(jù)庫(kù)。Synset 也就是同義詞組,每組描述的概念不同。WordNet 的結(jié)構(gòu)讓它成為 NLP 中非常有用的工具。
大小:10 MB
數(shù)量:117,000 個(gè)同義詞集
A Lexical Database for English:下載地址
4、Wikipedia Corpus,該數(shù)據(jù)集是維基百科全文的集合,包含來(lái)自超過(guò) 400 萬(wàn)篇文章的將近 19 億單詞。你能逐單詞、逐短語(yǔ)、逐段地對(duì)其進(jìn)行檢索,這使它成為強(qiáng)大的 NLP 數(shù)據(jù)集。
大小:20 MB
數(shù)量:4,400,000 篇文章,包含 19 億單詞
Tagged and Cleaned Wikipedia (TC Wikipedia) and its Ngram:下載地址
5、Yelp 數(shù)據(jù)集,這是 Yelp 出于學(xué)習(xí)目的而發(fā)布的開(kāi)放數(shù)據(jù)集。它包含數(shù)百萬(wàn)個(gè)用戶評(píng)論、商業(yè)屬性(businesses attribute)和來(lái)自多個(gè)大都市地區(qū)的超過(guò) 20 萬(wàn)張照片。該數(shù)據(jù)集是全球范圍內(nèi)非常常用的 NLP 挑戰(zhàn)賽數(shù)據(jù)集。 ,
大小:2.66 GB JSON、2.9 GB SQL 和 7.5 GB 的照片(全部壓縮后)
數(shù)量:5,200,000 個(gè)評(píng)論、174,000 份商業(yè)屬性、200,000 張照片和 11 個(gè)大都市地區(qū)
Yelp Dataset:下載地址
6、Blog Authorship Corpus,該數(shù)據(jù)集包含從數(shù)千名博主那里收集到的博客文章,這些數(shù)據(jù)從 blogger.com 中收集而來(lái)。每篇博客都以一個(gè)單獨(dú)的文件形式提供。每篇博客至少出現(xiàn) 200 個(gè)常用的英語(yǔ)單詞。
大小:300 MB
數(shù)量:681,288 篇博文,共計(jì)超過(guò) 1.4 億單詞。
:下載地址
7、Twenty Newsgroups 數(shù)據(jù)集 ,顧名思義,該數(shù)據(jù)集涵蓋新聞組相關(guān)信息,包含從 20 個(gè)不同新聞組獲取的 20000 篇新聞組文檔匯編(每個(gè)新聞組選取 1000 篇)。這些文章有著典型的特征,例如標(biāo)題、導(dǎo)語(yǔ)。
大小:20MB
數(shù)量:來(lái)自 20 個(gè)新聞組的 20,000 篇報(bào)道
Twenty Newsgroups Data Set:下載地址
8、Sentiment140,是一個(gè)用于情感分析的數(shù)據(jù)集。這個(gè)流行的數(shù)據(jù)集能讓你完美地開(kāi)啟自然語(yǔ)言處理之旅。數(shù)據(jù)中的情緒已經(jīng)被預(yù)先清空。最終的數(shù)據(jù)集具備以下六個(gè)特征: 推文的情緒極性 推文的 ID 推文的日期 查詢 推特的用戶名 推文的文本
大小:80MB(壓縮后)
數(shù)量: 1,60,000 篇推文
For Academics - Sentiment140 - A Twitter Sentiment Analysis Tool:下載地址
三、Audio / voice dataset
1、VoxCeleb, 是一個(gè)大型人聲識(shí)別數(shù)據(jù)集。它包含來(lái)自 YouTube 視頻的 1251 位名人的約 10 萬(wàn)段語(yǔ)音。數(shù)據(jù)基本上是性別平衡的(男性占 55%)。這些名人有不同的口音、職業(yè)和年齡。開(kāi)發(fā)集和測(cè)試集之間沒(méi)有重疊。對(duì)大明星所說(shuō)的話進(jìn)行分類并識(shí)別——這是一項(xiàng)有趣的工作。
大小:150 MB
數(shù)量:1251 位名人的 100,000 條語(yǔ)音
VoxCeleb dataset
:下載地址
2、Youtube-8M為谷歌開(kāi)源的視頻數(shù)據(jù)集,視頻來(lái)自youtube,共計(jì)8百萬(wàn)個(gè)視頻,總時(shí)長(zhǎng)50萬(wàn)小時(shí),4800類。為了保證標(biāo)簽視頻數(shù)據(jù)庫(kù)的穩(wěn)定性和質(zhì)量,谷歌只采用瀏覽量超過(guò)1000的公共視頻資源。為了讓受計(jì)算機(jī)資源所限的研究者和學(xué)生也可以用上這一數(shù)據(jù)庫(kù),谷歌對(duì)視頻進(jìn)行了預(yù)處理,并提取了幀級(jí)別的特征,提取的特征被壓縮到可以放到一個(gè)硬盤(pán)中(小于1.5T)。
大小:~1.5TB
https://research.google.com/youtube8m/
:下載地址
3、Free Spoken Digit 數(shù)據(jù)集 ,這是本文又一個(gè)受 MNIST 數(shù)據(jù)集啟發(fā)而創(chuàng)建的數(shù)據(jù)集!該數(shù)據(jù)集旨在解決識(shí)別音頻樣本中口述數(shù)字的任務(wù)。這是一個(gè)公開(kāi)數(shù)據(jù)集,所以希望隨著人們繼續(xù)提供數(shù)據(jù),它會(huì)不斷發(fā)展。目前,它具備以下特點(diǎn): 3 種人聲 1500 段錄音(每個(gè)人口述 0- 9 各 50 次) 英語(yǔ)發(fā)音
大小: 10 MB
數(shù)量: 1500 個(gè)音頻樣本 SOTA:《Raw Waveform-based Audio
Jakobovski/free-spoken-digit-dataset:下載地址
圖標(biāo)
4、Million Song 數(shù)據(jù)集,包含一百萬(wàn)首當(dāng)代流行音樂(lè)的音頻特征和元數(shù)據(jù),可免費(fèi)獲取。其目的是: 鼓勵(lì)研究商業(yè)規(guī)模的算法 為評(píng)估研究提供參考數(shù)據(jù)集 作為使用 API 創(chuàng)建大型數(shù)據(jù)集的捷徑(例如 The Echo Nest API) 幫助入門(mén)級(jí)研究人員在 MIR 領(lǐng)域展開(kāi)工作 數(shù)據(jù)集的核心是一百萬(wàn)首歌曲的特征分析和元數(shù)據(jù)。該數(shù)據(jù)集不包含任何音頻,只包含導(dǎo)出要素。示例音頻可通過(guò)哥倫比亞大學(xué)提供的代碼(https://github.com/tb2332/MSongsDB/tree/master/Tasks_Demos/Preview7digital)從 7digital 等服務(wù)中獲取。
大小:280 GB
數(shù)量:一百萬(wàn)首歌曲!
https://labrosa.ee.columbia.edu/millionsong/
:https://labrosa.ee.columbia.edu/millionsong/
5、FMA 是音樂(lè)分析數(shù)據(jù)集,由整首 HQ 音頻、預(yù)計(jì)算的特征,以及音軌和用戶級(jí)元數(shù)據(jù)組成。它是一個(gè)公開(kāi)數(shù)據(jù)集,用于評(píng)估 MIR 中的多項(xiàng)任務(wù)。以下是該數(shù)據(jù)集包含的 csv 文件及其內(nèi)容: tracks.csv:記錄每首歌每個(gè)音軌的元數(shù)據(jù),例如 ID、歌名、演唱者、流派、標(biāo)簽和播放次數(shù),共計(jì) 106,574 首歌。 genres.csv:記錄所有 163 種流派的 ID 與名稱及上層風(fēng)格名(用于推斷流派層次和上層流派)。 features.csv:記錄用 librosa 提取的常見(jiàn)特征。 echonest.csv:由 Echonest(現(xiàn)在的 Spotify)為 13,129 首音軌的子集提供的音頻功能。
大小:約 1000 GB
數(shù)量:約 100,000 個(gè)音軌
:下載地址
6、Ballroom , 該數(shù)據(jù)集包含舞廳的舞曲音頻文件。它以真實(shí)音頻格式提供了許多舞蹈風(fēng)格的一些特征片段。以下是該數(shù)據(jù)集的一些特點(diǎn): 實(shí)例總數(shù):698 單段時(shí)長(zhǎng):約 30 秒 總時(shí)長(zhǎng):約 20940 秒 大小:14 GB(壓縮后) 數(shù)量:約 700 個(gè)音頻樣本
Ballroom:下載地址
7、LibriSpeech,該數(shù)據(jù)集是一個(gè)包含約 1000 小時(shí)英語(yǔ)語(yǔ)音的大型語(yǔ)料庫(kù)。數(shù)據(jù)來(lái)源為 LibriVox 項(xiàng)目的音頻書(shū)籍。該數(shù)據(jù)集已經(jīng)得到了合理地分割和對(duì)齊。如果你還在尋找起始點(diǎn),那么點(diǎn)擊 http://www.kaldi-asr.org/downloads/build/6/trunk/egs/查看在該數(shù)據(jù)集上訓(xùn)練好的聲學(xué)模型,點(diǎn)擊 http://www.openslr.org/11/查看適合評(píng)估的語(yǔ)言模型。
大小:約 60 GB
數(shù)量:1000 小時(shí)的語(yǔ)音
openslr.org
:http://www.openslr.org/12/
圖標(biāo)
四、綜合數(shù)據(jù)集
1、雅虎發(fā)布的超大Flickr數(shù)據(jù)集,包含1億多張圖片。
The data collected so far represents the world largest multimedia metadata collection that is available for research on scalable similarity search techniques. CoPhIR consist of 106 million processed images. CoPhIR is now available to the research community to try and compare different indexing technologies for similarity search, with scalability being the key issue. Our use of the Flickr image content is compliant to the Creative Commons license. CoPhIR Test Collection is compliant to the European Recommendation 29/2001 CE, based on WIPO (World Intellectual Property Organization) Copyright Treaty and Performances and Phonograms Treaty, and to the current Italian law 68/2003. In order to access the CoPhIR distribution, the organizations (universities, research labs, etc.) interested in building experimentations on it will have to sign the enclosed CoPhIR Access Agreement and the CoPhIR Access Registration Form, sending the original signed document to us by mail. Please follow the instruction in the section “How to get CoPhIR Test Collection”. You will then receive Login and Password to download the required files.
CoPhIR - what is
http://cophir.isti.cnr.it/whatis.html
2、包含8000萬(wàn)的32x32圖像,CIFAR-10和CIFAR-100便是從中挑選的。
The 79 million images are stored in one giant binary file, 227Gb insize. The metadata accompanying each image is also in a single giantfile, 57Gb in size. To read images/metadata from these files, we haveprovided some Matlab wrapper functions. There are two versions of the functions for reading image data: (i) loadTinyImages.m - plain Matlab function (no MEX), runs under32/64bits. Loads images in by image number. Use this by default. (ii) read_tiny_big_binary.m - Matlab wrapper for 64-bit MEXfunction. A bit faster and more flexible than (i), but requires a 64-bit machine. There are two types of annotation data: (i) Manual annotation data, sorted in annotations.txt, that holds thelabel of images manually inspected to see if image content agrees withnoun used to collect it. Some other information, such as searchengine, is also stored. This data is available for only a very smallportion of images. (ii) Automatic annotation data, stored in tiny_metadata.bin,consisting of information relating the gathering of the image,e.g. search engine, which page, url to thumbnail etc. This data isavailable for all 79 million images.
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
3、The MIRFLICKR-25000 open evaluation project consists of 25000 images downloaded from the social photography site Flickr through its public API coupled with complete manual annotations, pre-computed descriptors and software for bag-of-words based similarity and classification and a matlab-like tool for exploring and classifying imagery.
800谷歌學(xué)術(shù)引文和3萬(wàn)9000的下載量來(lái)自大學(xué)(麻省理工學(xué)院、劍橋、斯坦福、牛津,哥倫比亞市,美國(guó),新加坡,Tsinghua,東京大學(xué),韓國(guó)科學(xué)技術(shù)院,等)和公司(IBM,微軟,谷歌,雅虎!臉譜網(wǎng)、飛利浦、索尼、諾基亞等)
下載地址
以上就是一些國(guó)內(nèi)外深度學(xué)習(xí)開(kāi)放數(shù)據(jù)集下載集合。
更多數(shù)據(jù)集下載
參考地址:
https://zhuanlan.zhihu.com/p/35535460
https://www.kaggle.com/datasets
http://www.52ml.net/20458.html
You got a dream, you gotta protect it.
如果你有夢(mèng)想的話,就要去捍衛(wèi)它 ——《當(dāng)幸福來(lái)敲門(mén)》
總結(jié)
以上是生活随笔為你收集整理的国内外深度学习开放数据集下载集合(值得收藏,不断更新)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: matlab电位图仿真实验,基于MATL
- 下一篇: SPI 测试程序sja1105