公开数据集
Open Images dataset
為了促進計算機視覺技術(shù)的進步,谷歌發(fā)布了Open Images,大約900萬URL的已經(jīng)標(biāo)注圖像數(shù)據(jù)集,橫跨6000個分類。
2016年8月20日
UCI Machine Learning Repository
機器學(xué)習(xí)的一個數(shù)據(jù)庫
2016年8月2日
社交數(shù)據(jù)及匯總
清華大學(xué)唐杰老師課題組將他們近年論文中用到的相關(guān)數(shù)據(jù)匯總,共24個數(shù)據(jù)集,包括twitter,專利,mobile,linkedin,維基百科,電影,微博等。很多數(shù)據(jù)還包括人工標(biāo)注的結(jié)果
如果你是一個初學(xué)者,你每完成一個新項目后自身能力都會有極大的提高,如果你是一個有經(jīng)驗的數(shù)據(jù)科學(xué)專家,你已經(jīng)知道這里所蘊含的價值。
本文將為您提供一個網(wǎng)站/資源列表,從中你可以使用數(shù)據(jù)來完成你自己的數(shù)據(jù)項目,甚至創(chuàng)造你自己的產(chǎn)品。
一.如何使用這些資源?
如何使用這些數(shù)據(jù)源是沒有限制的,應(yīng)用和使用只受到您的創(chuàng)造力和實際應(yīng)用。使用它們最簡單的方法是進行數(shù)據(jù)項目并在網(wǎng)站上發(fā)布它們。這不僅能提高你的數(shù)據(jù)和可視化技能,還能改善你的結(jié)構(gòu)化思維。另一方面,如果你正在考慮/處理基于數(shù)據(jù)的產(chǎn)品,這些數(shù)據(jù)集可以通過提供額外的/新的輸入數(shù)據(jù)來增加您的產(chǎn)品的功能。所以,繼續(xù)在這些項目上工作吧,與更大的世界分享它們,以展示你的數(shù)據(jù)能力!我們已經(jīng)在不同的部分中劃分了這些數(shù)據(jù)源,以幫助你根據(jù)應(yīng)用程序?qū)?shù)據(jù)源進行分類。我們從簡單、通用和易于處理數(shù)據(jù)集開始,然后轉(zhuǎn)向大型/行業(yè)相關(guān)數(shù)據(jù)集。然后,我們?yōu)樘囟ǖ哪康摹谋就诰颉D像分類、推薦引擎等提供數(shù)據(jù)集的鏈接。這將為您提供一個完整的數(shù)據(jù)資源列表。如果你能想到這些數(shù)據(jù)集的任何應(yīng)用,或者知道我們漏掉了什么流行的資源,請在下面的評論中與我們分享。(部分可能需要翻墻)
二.由簡單和通用的數(shù)據(jù)集開始
1.data.gov( https://www.data.gov/ )
這是美國政府公開數(shù)據(jù)的所在地,該站點包含了超過19萬的數(shù)據(jù)點。這些數(shù)據(jù)集不同于氣候、教育、能源、金融和更多領(lǐng)域的數(shù)據(jù)。
2.data.gov.in( https://data.gov.in/ )
這是印度政府公開數(shù)據(jù)的所在地,通過各種行業(yè)、氣候、醫(yī)療保健等來尋找數(shù)據(jù),你可以在這里找到一些靈感。根據(jù)你居住的國家的不同,你也可以從其他一些網(wǎng)站上瀏覽類似的網(wǎng)站。
3.WorldBank( http://data.worldbank.org/ )
世界銀行的開放數(shù)據(jù)。該平臺提供 Open Data Catalog,世界發(fā)展指數(shù),教育指數(shù)等幾個工具。
4.RBI( https://rbi.org.in/Scripts/Statistics.aspx )
印度儲備銀行提供的數(shù)據(jù)。這包括了貨幣市場操作、收支平衡、銀行使用和一些產(chǎn)品的幾個指標(biāo)。
5.Five ThirtyEight Datasets ( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦稱作 538,專注與民意調(diào)查分析,政治,經(jīng)濟與體育的博客。該數(shù)據(jù)集為 Five ThirtyEight Datasets 使用的數(shù)據(jù)集。每個數(shù)據(jù)集包括數(shù)據(jù),解釋數(shù)據(jù)的字典和Five ThirtyEight 文章的鏈接。如果你想學(xué)習(xí)如何創(chuàng)建數(shù)據(jù)故事,沒有比這個更好。
三.大型數(shù)據(jù)集
1.Amazon WebServices(AWS)datasets
( https://aws.amazon.com/cn/datasets/ )
Amazon提供了一些大數(shù)據(jù)集,可以在他們的平臺上使用,也可以在本地計算機上使用。您還可以通過EMR使用EC2和Hadoop來分析云中的數(shù)據(jù)。在亞馬遜上流行的數(shù)據(jù)集包括完整的安然電子郵件數(shù)據(jù)集,Google Booksn-gram,NASA NEX 數(shù)據(jù)集,百萬歌曲數(shù)據(jù)集等。
2.Googledatasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些數(shù)據(jù)集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數(shù)據(jù),Hacker News 的所有故事和評論。
3.Youtubelabeled Video Dataset
( https://research.google.com/youtube8m/ )
幾個月前,谷歌研究小組發(fā)布了YouTube上的“數(shù)據(jù)集”,它由800萬個YouTube視頻id和4800個視覺實體的相關(guān)標(biāo)簽組成。它來自數(shù)十億幀的預(yù)先計算的,最先進的視覺特征。
四.預(yù)測建模與機器學(xué)習(xí)數(shù)據(jù)集
1.UCI MachineLearning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI機器學(xué)習(xí)庫顯然是最著名的數(shù)據(jù)存儲庫。如果您正在尋找與機器學(xué)習(xí)存儲庫相關(guān)的數(shù)據(jù)集,通常是首選的地方。這些數(shù)據(jù)集包括了各種各樣的數(shù)據(jù)集,從像Iris和泰坦尼克這樣的流行數(shù)據(jù)集到最近的貢獻,比如空氣質(zhì)量和GPS軌跡。存儲庫包含超過350個與域名類似的數(shù)據(jù)集(分類/回歸)。您可以使用這些過濾器來確定您需要的數(shù)據(jù)集。
2.Kaggle
( https://www.kaggle.com/datasets )
Kaggle提出了一個平臺,人們可以貢獻數(shù)據(jù)集,其他社區(qū)成員可以投票并運行內(nèi)核/腳本。他們總共有超過350個數(shù)據(jù)集——有超過200個特征數(shù)據(jù)集。雖然一些最初的數(shù)據(jù)集通常出現(xiàn)在其他地方,但我在平臺上看到了一些有趣的數(shù)據(jù)集,而不是在其他地方出現(xiàn)。與新的數(shù)據(jù)集一起,界面的另一個好處是,您可以在相同的界面上看到來自社區(qū)成員的腳本和問題。
3.AnalyticsVidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
您可以從我們的實踐問題和黑客馬拉松問題中參與和下載數(shù)據(jù)集。問題數(shù)據(jù)集基于真實的行業(yè)問題,并且相對較小,因為它們意味著2 - 7天的黑客馬拉松。
4.Quandl
( https://www.quandl.com/ )
Quandl 通過起網(wǎng)站、API 或一些工具的直接集成提供了不同來源的財務(wù)、經(jīng)濟和替代數(shù)據(jù)。他們的數(shù)據(jù)集分為開放和付費。所有開放數(shù)據(jù)集為免費,但高級數(shù)據(jù)集需要付費。通過搜索仍然可以在平臺上找到優(yōu)質(zhì)數(shù)據(jù)集。例如,來自印度的證券交易所數(shù)據(jù)是免費的。
5.Past KDDCups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度數(shù)據(jù)挖掘和知識發(fā)現(xiàn)競賽。
6.DrivenData
( https://www.drivendata.org/ )
Driven Data 發(fā)現(xiàn)運用數(shù)據(jù)科學(xué)帶來積極社會影響的現(xiàn)實問題。然后,他們?yōu)閿?shù)據(jù)科學(xué)家組織在線模擬競賽,從而開發(fā)出最好的模型來解決這些問題。
五.圖像分類數(shù)據(jù)集
1.The MNISTDatabase
( http://yann.lecun.com/exdb/mnist/ )
最流行的圖像識別數(shù)據(jù)集,使用手寫數(shù)字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進行圖像識別的數(shù)據(jù)集。
2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
這里是下一階段的進化,如果你已經(jīng)通過了手寫的數(shù)字。該數(shù)據(jù)集包括自然圖像中的字符識別。數(shù)據(jù)集包含74,000個圖像,因此數(shù)據(jù)集的名稱。
3.Frontal FaceImages
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經(jīng)完成了前兩個項目,并且能夠識別數(shù)字和字符,這是圖像識別中的下一個挑戰(zhàn)級別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個文件夾中。
4.ImageNet
( http://image-net.org/ )
現(xiàn)在是時候構(gòu)建一些通用的東西了。根據(jù)WordNet層次結(jié)構(gòu)組織的圖像數(shù)據(jù)庫(目前僅為名詞)。層次結(jié)構(gòu)的每個節(jié)點都由數(shù)百個圖像描述。目前,該集合平均每個節(jié)點有超過500個圖像(而且還在增加)。
六.文本分類數(shù)據(jù)集
1.Spam – NonSpam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區(qū)分短信是否為垃圾郵件是一個有趣的問題。你需要構(gòu)建一個分類器將短信進行分類。
2.TwitterSentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數(shù)據(jù)集包含 1578627 個分類推文,每行被標(biāo)記為1的積極情緒,0位負面情緒。數(shù)據(jù)依次基于 Kaggle 比賽和 Nick Sanders 的分析。
3.Movie ReviewData
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
這個網(wǎng)站提供了一系列的電影評論文件,這些文件標(biāo)注了他們的總體情緒極性(正面或負面)或主觀評價(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標(biāo)簽。
七.推薦引擎數(shù)據(jù)集
1.MovieLens
( https://grouplens.org/ )
MovieLens 是一個幫助人們查找電影的網(wǎng)站。它有成千上萬的注冊用戶。他們進行自動內(nèi)容推薦,推薦界面,基于標(biāo)簽的推薦頁面等在線實驗。這些數(shù)據(jù)集可供下載,可用于創(chuàng)建自己的推薦系統(tǒng)。
2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統(tǒng)。
八.各種來源的數(shù)據(jù)集網(wǎng)站
1.KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的數(shù)據(jù)集頁面一直是人們搜索數(shù)據(jù)集的參考。列表全面,但是某些來源不再提供數(shù)據(jù)集。因此,需要謹(jǐn)慎選擇數(shù)據(jù)集和來源。
2.Awesome PublicDatasets
(https://github.com/caesar0301/awesome-public-datasets)
一個GitHub存儲庫,它包含一個由域分類的完整的數(shù)據(jù)集列表。數(shù)據(jù)集被整齊地分類在不同的領(lǐng)域,這是非常有用的。但是,對于存儲庫本身的數(shù)據(jù)集沒有描述,這可能使它非常有用。
整理了一些網(wǎng)上的免費數(shù)據(jù)集,分類下載地址如下,希望能節(jié)約大家找數(shù)據(jù)的時間。歡迎數(shù)據(jù)達人加入QQ群 674283733 交流。
金融
美國勞工部統(tǒng)計局官方發(fā)布數(shù)據(jù)
房地產(chǎn)公司 Zillow 公開美國房地產(chǎn)歷史數(shù)據(jù)
滬深股票除權(quán)除息、配股增發(fā)全量數(shù)據(jù),截止 2016.12.31
上證主板日線數(shù)據(jù),截止 2017.05.05,原始價、前復(fù)權(quán)價、后復(fù)權(quán)價,1260支股票
深證主板日線數(shù)據(jù),截止 2017.05.05,原始價、前復(fù)權(quán)價、后復(fù)權(quán)價,466支股票
深證中小板日線數(shù)據(jù),截止 2017.05.05,原始價、前復(fù)權(quán)價、后復(fù)權(quán)價,852支股票
深證創(chuàng)業(yè)板日線數(shù)據(jù),截止 2017.05.05,原始價、前復(fù)權(quán)價、后復(fù)權(quán)價,636支股票
上證A股日線數(shù)據(jù),1999.12.09至 2016.06.08,前復(fù)權(quán),1095支股票
深證A股日線數(shù)據(jù),1999.12.09至 2016.06.08,前復(fù)權(quán),1766支股票
深證創(chuàng)業(yè)板日線數(shù)據(jù),1999.12.09 至2016.06.08,前復(fù)權(quán),510支股票
MT4平臺外匯交易歷史數(shù)據(jù)
Forex平臺外匯交易歷史數(shù)據(jù)
幾組外匯交易逐筆(Ticks)數(shù)據(jù)
美國股票新聞數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國醫(yī)療保險市場數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國金融客戶投訴數(shù)據(jù)【Kaggle數(shù)據(jù)】
Lending Club 網(wǎng)貸違約數(shù)據(jù)【Kaggle數(shù)據(jù)】
信用卡欺詐數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國股票數(shù)據(jù)XBRL【Kaggle數(shù)據(jù)】
紐約股票交易所數(shù)據(jù)【Kaggle數(shù)據(jù)】
貸款違約預(yù)測競賽數(shù)據(jù)【Kaggle競賽】
Zillow 網(wǎng)站房地產(chǎn)價值預(yù)測競賽數(shù)據(jù)【Kaggle競賽】
Sberbank 俄羅斯房地產(chǎn)價值預(yù)測競賽數(shù)據(jù)【Kaggle競賽】
Homesite 保險定價競賽數(shù)據(jù)【Kaggle競賽】
Winton 股票回報率預(yù)測競賽數(shù)據(jù)【Kaggle競賽】
房屋租賃信息查詢次數(shù)預(yù)測競賽【Kaggle競賽】
交通
2013年紐約出租車行駛數(shù)據(jù)
2013年芝加哥出租車行駛數(shù)據(jù)
Udacity自動駕駛數(shù)據(jù)
紐約Uber 接客數(shù)據(jù) 【Kaggle數(shù)據(jù)】
英國車禍數(shù)據(jù)(2005-2015)【Kaagle數(shù)據(jù)】
芝加哥汽車超速數(shù)據(jù)【Kaggle數(shù)據(jù)】
KITTI 自動駕駛?cè)蝿?wù)數(shù)據(jù)【數(shù)據(jù)太大僅有部分】
Cityscapes 場景標(biāo)注數(shù)據(jù)【數(shù)據(jù)太大僅有部分】
德國交通標(biāo)志識別數(shù)據(jù)
交通信號識別數(shù)據(jù)
芝加哥Divvy共享自行車騎行數(shù)據(jù)(2013年至今)
美國查塔努加市共享單車騎行數(shù)據(jù)
Capital 共享單車騎行數(shù)據(jù)
Bay Area 共享單車騎行數(shù)據(jù)
Nice Ride 共享單車騎行數(shù)據(jù)
花旗銀行共享單車騎行數(shù)據(jù)
運用衛(wèi)星數(shù)據(jù)跟蹤亞馬遜熱帶雨林中的人類軌跡競賽【Kaggle競賽】
紐約出租車管理委員會官方的乘車數(shù)據(jù)(2009年-2016年)
商業(yè)
Airbnb 開放的民宿信息和住客評論數(shù)據(jù)
Amazon 食品評論數(shù)據(jù)【Kaggle數(shù)據(jù)】
Amazon 無鎖手機評論數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國視頻游戲銷售和評價數(shù)據(jù)【Kaggle數(shù)據(jù)】
Kaggle 各項競賽情況數(shù)據(jù)【Kaggle數(shù)據(jù)】
Bosch 生產(chǎn)流水線降低次品率競賽數(shù)據(jù)【Kaggle競賽】
預(yù)測公寓租金競賽數(shù)據(jù)
廣告點擊預(yù)測競賽數(shù)據(jù)
餐廳營業(yè)收入預(yù)測建模競賽
銀行產(chǎn)品推薦競賽數(shù)據(jù)
網(wǎng)站用戶推薦點擊預(yù)測競賽數(shù)據(jù)
在線廣告實時競價數(shù)據(jù)【Kaggle數(shù)據(jù)】
購物車商品關(guān)聯(lián)競賽數(shù)據(jù)【Kaggle競賽】
Airbnb 新用戶的民宿預(yù)定預(yù)測競賽數(shù)據(jù)【Kaggle競賽】
Yelp 點評網(wǎng)站公開數(shù)據(jù)
KKBOX 音樂用戶續(xù)訂預(yù)測競賽【Kaggle競賽】
Grupo Bimbo 面包店庫存和銷量預(yù)測競賽【Kaggle競賽】
推薦系統(tǒng)
Netflix 電影評價數(shù)據(jù)
MovieLens 20m 電影推薦數(shù)據(jù)集
WikiLens
Jester HetRec2011
Book Crossing Large MovieReview
Retailrocket 商品評論和推薦數(shù)據(jù)
1萬本暢銷書的6百萬讀者評分?jǐn)?shù)據(jù)
醫(yī)療健康
人識別物體時大腦核磁共振影像數(shù)據(jù)
人理解單詞時大腦核磁共振影像數(shù)據(jù)
心臟病心房圖像及標(biāo)注數(shù)據(jù)
細胞病理識別
FIRE 視網(wǎng)膜眼底病變圖像數(shù)據(jù)
食物營養(yǎng)成分?jǐn)?shù)據(jù) 【Kaggle數(shù)據(jù)】
EGG 大腦電波形狀數(shù)據(jù)【Kaggle數(shù)據(jù)】
某人基因序列數(shù)據(jù)【Kaggle數(shù)據(jù)】
癌癥CT影像數(shù)據(jù)【Kaggle數(shù)據(jù)】
軟組織肉瘤CT圖像數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國國家健康與服務(wù)部-國家癌癥研究所發(fā)起的癌癥數(shù)據(jù)倉庫介紹【僅有介紹】
Data ScienceBowl 2017 肺癌識別競賽數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
TCGA-LUAD 肺癌CT圖像數(shù)據(jù)
RIDER Lung CT 肺癌CT影像
TCGA-COAD癌癥CT影像數(shù)據(jù)
TCIA-TCGA-OV 癌癥CT影像數(shù)據(jù)
TCIA RIDER NEURO癌癥MRI影像數(shù)據(jù)
QIN Beast 乳腺癌MRI影像數(shù)據(jù)
SPIE-AAPM-NCIPROSTATEx競賽第1部分?jǐn)?shù)據(jù)(MRI核磁共振影像識別前列腺癌程度數(shù)據(jù)) SPIE-AAPM-NCIPROSTATEx競賽第2部分?jǐn)?shù)據(jù)(MRI核磁共振影像識別前列腺癌程度數(shù)據(jù))RIDER Breast 乳腺癌 MRI 影像數(shù)據(jù)
Lung Phantom 癌癥 CT 影像數(shù)據(jù)集
TCIA-QIN-LUNG 肺癌 CT 影像數(shù)據(jù)集
醫(yī)療CT影像、年齡和對比標(biāo)注數(shù)據(jù)【Kaggle競賽】
TCGA-ESCA癌癥 CT 影像數(shù)據(jù)集
TCGA-CESC癌癥 CT 影像數(shù)據(jù)集
TCGA-KICH癌癥 CT 影像數(shù)據(jù)集
從 CT 影像中對肺部影像進行分割并識別肺部容積【Kaggle競賽】
通過Egg腦電圖像預(yù)測患者癲癇病發(fā)作競賽【Kaggle競賽】
遺傳突變分類競賽【Kaggle競賽】
MIMIC-III 臨床監(jiān)護數(shù)據(jù)
圖像數(shù)據(jù)
綜合圖像
Visual Genome 圖像數(shù)據(jù)
Visual7w 圖像數(shù)據(jù)
COCO 圖像數(shù)據(jù)
SUFR 圖像數(shù)據(jù)
ILSVRC 2014 訓(xùn)練數(shù)據(jù)(ImageNet的一部分)
PASCAL Visual Object Classes 2012 圖像數(shù)據(jù)
PASCAL Visual Object Classes 2011 圖像數(shù)據(jù)
PASCAL Visual Object Classes 2010 圖像數(shù)據(jù)
80 Million Tiny Image 圖像數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
ImageNet【數(shù)據(jù)太大僅有介紹】
Google Open Images【數(shù)據(jù)太大僅有介紹】
Imagenet 小尺寸圖像數(shù)據(jù)集
Yahoo Flickr 照片和視頻數(shù)據(jù)集
場景圖像
Street Scences 圖像數(shù)據(jù)
Places2 場景圖像數(shù)據(jù)
UCF GoogleStreet View 圖像數(shù)據(jù)
SUN 場景圖像數(shù)據(jù)
The Celebrity inPlaces 圖像數(shù)據(jù)
Web標(biāo)簽圖像
HARRISON 社交標(biāo)簽圖像
NUS-WIDE 標(biāo)簽圖像
Visual Synset 標(biāo)簽圖像
Animals WithAttributes 標(biāo)簽圖像
人形輪廓圖像
MPII Human Shape人體輪廓數(shù)據(jù)
Biwi Kinect Head Pose 頭部姿勢數(shù)據(jù)
上半身人像數(shù)據(jù) INRIA Person 數(shù)據(jù)集
視覺文字識別圖像
Street View House Number 門牌號圖像數(shù)據(jù)
MNIST 手寫數(shù)字識別圖像數(shù)據(jù)
3D MNIST 數(shù)字識別圖像數(shù)據(jù)【Kaggle數(shù)據(jù)】
MediaTeam Document 文檔影印和內(nèi)容數(shù)據(jù)
Text Recognition 文字圖像數(shù)據(jù)
NIST Handprinted Forms and Characters 手寫英文字符數(shù)據(jù)
NIST Structured Forms Reference Set of Binary Images (SFRS) 圖像數(shù)據(jù)
NIST Structured Forms Reference Set of Binary Images (SFRS) II 圖像數(shù)據(jù)
特定一類事物圖像
著名的貓圖像標(biāo)注數(shù)據(jù)
Caltech-UCSDBirds200 鳥類圖像數(shù)據(jù)
Stanford Car 汽車圖像數(shù)據(jù)
Cars 汽車圖像數(shù)據(jù)
MIT Cars 汽車圖像數(shù)據(jù)
Stanford Cars 汽車圖像數(shù)據(jù)
Food-101 美食圖像數(shù)據(jù)
17_Category_Flower 圖像數(shù)據(jù)
102_Category_Flower 圖像數(shù)據(jù)
UCI Folio Leaf 圖像數(shù)據(jù)
Labeled Fishes in the Wild 魚類圖像
美國 Yelp 點評網(wǎng)站酒店照片
CMU-Oxford Sculpture 塑像雕像圖像
Oxford-IIIT Pet 寵物圖像數(shù)據(jù)
Nature Conservancy Fisheries Monitoring 過度捕撈監(jiān)控圖像數(shù)據(jù)【Kaggle數(shù)據(jù)】
Stanford Dogs Dataset 數(shù)據(jù)集
辛普森一家卡通形象圖像【Kaggle競賽】
Fashion-MNIST 時尚服飾圖像數(shù)據(jù)
材質(zhì)紋理圖像
CURET 紋理材質(zhì)圖像數(shù)據(jù)
ETHZ Synthesizability 紋理圖像數(shù)據(jù)
KTH-TIPS 紋理材質(zhì)圖像數(shù)據(jù)
Describable Textures 紋理圖像數(shù)據(jù)
物體分類圖像
COIL-20 圖像數(shù)據(jù)
COIL-100 圖像數(shù)據(jù)
Caltech-101 圖像數(shù)據(jù)
Caltech-256 圖像數(shù)據(jù)
CIFAR-10 圖像數(shù)據(jù)
CIFAR-100 圖像數(shù)據(jù)
STL-10 圖像數(shù)據(jù)
LabelMe_12_50k圖像數(shù)據(jù)
NORB v1.0 圖像數(shù)據(jù)
NEC Toy Animal 圖像數(shù)據(jù)
iCubWorld 圖像分類數(shù)據(jù)
Multi-class 圖像分類數(shù)據(jù)
GRAZ 圖像分類數(shù)據(jù)
人臉圖像
IMDB-WIKI 500k+ 人臉圖像、年齡性別數(shù)據(jù)
Labeled Faces in the Wild 人臉數(shù)據(jù)
Extended Yale Face Database B 人臉數(shù)據(jù)
Bao Face 人臉數(shù)據(jù)
DC-IGN 論文人臉數(shù)據(jù)
300 Face in Wild 圖像數(shù)據(jù)
BioID Face 人臉數(shù)據(jù)
CMU Frontal Face Images
FDDB_Face Detection Data Set and Benchmark
NIST Mugshot Identification Database Faces in the Wild 人臉數(shù)據(jù)
CelebA 名人人臉圖像數(shù)據(jù)
VGG Face 人臉圖像數(shù)據(jù)
Caltech 10k WebFaces 人臉圖像數(shù)據(jù)
姿勢動作圖像
HMDB_a large human motion database
Human Actionsand Scenes Dataset
Buffy Stickmen V3 人體輪廓識別圖像數(shù)據(jù)
Human Pose Evaluator 人體輪廓識別圖像數(shù)據(jù)
Buffy pose 人類姿勢圖像數(shù)據(jù)
VGG Human Pose Estimation 姿勢圖像標(biāo)注數(shù)據(jù)
指紋識別
NIST FIGS 指紋識別數(shù)據(jù)
NIST Supplemental Fingerprint Card Data (SFCD) 指紋識別數(shù)據(jù)
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指紋識別數(shù)據(jù)
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指紋識別數(shù)據(jù)
其它圖像數(shù)據(jù)
Visual Question Answering V1.0 圖像數(shù)據(jù)
Visual Question Answering V2.0 圖像數(shù)據(jù)
視頻數(shù)據(jù)
綜合視頻
DAVIS_Densely Annotated Video Segmentation 數(shù)據(jù)
YouTube-8M 視頻數(shù)據(jù)集【數(shù)據(jù)太大僅有介紹】
YouTube 網(wǎng)站視頻備份【數(shù)據(jù)太大僅有介紹】
人類動作視頻
Microsoft Research Action 人類動作視頻數(shù)據(jù)
UCF50 Action Recognition 動作識別數(shù)據(jù)
UCF101 Action Recognition 動作識別數(shù)據(jù)
UT-Interaction 人類動作視頻數(shù)據(jù)
UCF iPhone 運動中傳感器數(shù)據(jù)
UCF YouTube 人類動作視頻數(shù)據(jù)
UCF Sport 人類動作視頻數(shù)據(jù)
UCF-ARG 人類動作視頻數(shù)據(jù)
HMDB 人類動作視頻
HOLLYWOOD2 人類行為動作視頻數(shù)據(jù)
Recognition of human actions 動作視頻數(shù)據(jù)
Motion Capture 動作捕捉視頻數(shù)據(jù)
SBU Kinect Interaction 肢體動作視頻數(shù)據(jù)
目標(biāo)檢測視頻
UCSD Pedestrian 行人視頻數(shù)據(jù)
Caltech Pedestrian 行人視頻數(shù)據(jù)
ETH 行人視頻數(shù)據(jù)
INRIA 行人視頻數(shù)據(jù)
TudBrussels 行人視頻數(shù)據(jù)
Daimler 行人視頻數(shù)據(jù)
ALOV++ 物體追蹤視頻數(shù)據(jù)
密集人群視頻
Crowd Counting 高密度人群圖像
Crowd Segmentation 高密度人群視頻數(shù)據(jù)
Tracking in High Density Crowds 高密度人群視頻
其它視頻
Fire Detection 視頻數(shù)據(jù)
音頻數(shù)據(jù)
綜合音頻
Google Audioset 音頻數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
語音識別
Sinhala TTS 英語語音識別
TIMIT 美式英語語音識別數(shù)據(jù)
LibriSpeech ASR corpus 語音數(shù)據(jù)
Room Impulse Response and Noise 語音數(shù)據(jù)
ALFFA 非洲語音數(shù)據(jù)
THUYG-20 維吾爾語語音數(shù)據(jù)
AMI Corpus 語音識別
自然語言處理
RCV1英語新聞數(shù)據(jù)
20news 英語新聞數(shù)據(jù)
First Quora Release Question Pairs 問答數(shù)據(jù)
JRC Names各國語言專有實體名稱
Multi-Domain Sentiment V2.0
LETOR 信息檢索數(shù)據(jù)
Yale Youtube Vedio Text斯坦福問答數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國假新聞數(shù)據(jù)【Kaggle數(shù)據(jù)】
NIPS會議文章信息數(shù)據(jù)(1987-2016)【Kaggle數(shù)據(jù)】
2016年美國總統(tǒng)選舉辯論數(shù)據(jù)【Kaggle數(shù)據(jù)】
WikiLinks 跨文檔指代語料
European Parliament Proceedings Parallel Corpus 機器翻譯數(shù)據(jù)
WikiText 英語語義詞庫數(shù)據(jù)
WMT 2011 News Crawl 機器翻譯數(shù)據(jù)
Stanford Sentiment Treebank 詞匯數(shù)據(jù)
英語語言模型單詞預(yù)測競賽數(shù)據(jù)
WikiAnswers 問題復(fù)述數(shù)據(jù)集
中文經(jīng)典典籍語料
幾個網(wǎng)上采集的自然語言語料中文姓名語料
81萬互聯(lián)網(wǎng)詞匯詞庫
Question-Answer 問答數(shù)據(jù)集
Wikilinks 跨文檔語料擴展版
幾個聊天機器人語料
TED 平行語料庫
社會數(shù)據(jù)
希拉里郵件門泄露郵件
波士頓Airbnb 公開數(shù)據(jù)【Kaggle數(shù)據(jù)】
世界各國經(jīng)濟發(fā)展數(shù)據(jù)【Kaagle數(shù)據(jù)】
世界大學(xué)排名芝加哥犯罪數(shù)據(jù)(2001-2017)【Kaagle數(shù)據(jù)】
世界范圍顯著地震數(shù)據(jù)(1965-2016)【Kaagle數(shù)據(jù)】
美國嬰兒姓名數(shù)據(jù)【Kaagle數(shù)據(jù)】
全世界鯊魚襲擊人類數(shù)據(jù)【Kaagle數(shù)據(jù)】
1908年以來空難數(shù)據(jù)【Kaagle數(shù)據(jù)】
2016年美國總統(tǒng)大選數(shù)據(jù)【Kaagle數(shù)據(jù)】
2013年美國社區(qū)統(tǒng)計數(shù)據(jù)【Kaagle數(shù)據(jù)】
2014年美國社區(qū)統(tǒng)計數(shù)據(jù)【Kaagle數(shù)據(jù)】
2015年美國社區(qū)統(tǒng)計數(shù)據(jù)【Kaagle數(shù)據(jù)】
歐洲足球運動員賽事表現(xiàn)數(shù)據(jù)【Kaagle數(shù)據(jù)】
美國環(huán)境污染數(shù)據(jù)【Kaagle數(shù)據(jù)】
美國H1-B簽證申請數(shù)據(jù)【Kaggle數(shù)據(jù)】
IMDB五千部電影數(shù)據(jù)【Kaggle數(shù)據(jù)】
2015年航班延誤和取消數(shù)據(jù)【Kaggle數(shù)據(jù)】
兇殺案報告數(shù)據(jù)【Kaggle數(shù)據(jù)】
人力資源分析數(shù)據(jù)【Kaggle數(shù)據(jù)】
美國費城犯罪數(shù)據(jù)【Kaggle數(shù)據(jù)】
安然公司郵件數(shù)據(jù)【Kaggle數(shù)據(jù)】
歷史棒球數(shù)據(jù)【Kaggle數(shù)據(jù)】
美聯(lián)航 Twitter 用戶評論數(shù)據(jù)【Kaggle數(shù)據(jù)】
波士頓 Airbnb 公開數(shù)據(jù)【Kaggle數(shù)據(jù)】
芝加哥市2001年以來犯罪記錄數(shù)據(jù)
美國查塔努加市犯罪記錄數(shù)據(jù)(2003年至今)
芝加哥街邊咖啡廳季節(jié)中的人行道咖啡廳許可數(shù)據(jù)
芝加哥餐館衛(wèi)生檢查結(jié)果數(shù)據(jù)
幾個人類運動位置路線GPS數(shù)據(jù)集(騎行、跑步等)
希拉里 vs 特朗普競選期間 Twitter 數(shù)據(jù)【Kaggle競賽】
美國連環(huán)兇案數(shù)據(jù)(1980-2014)【Kaggle競賽】
廣告實時競價數(shù)據(jù)【Kaggle競賽】
美國費城犯罪記錄數(shù)據(jù)【Kaggle競賽】
Reddit 用戶交互記錄【Kaggle競賽】
泰坦尼克災(zāi)難數(shù)據(jù)【Kaggle競賽】
Wikipedia 頁面點擊流量數(shù)據(jù)【Kaggle競賽】
紐約市出租車乘車時間預(yù)測競賽數(shù)據(jù)【Kaggle競賽】
新聞和網(wǎng)頁內(nèi)容推薦及點擊競賽【Kaggle競賽】
科比布萊恩特投籃命中率數(shù)據(jù)【Kaggle競賽】
幾個城市氣象交換站日間天氣數(shù)據(jù)
Reddit 2.5 百萬社交新聞數(shù)據(jù)
Google的機群訪問數(shù)據(jù)
MIT Saliency 眼睛瀏覽軌跡數(shù)據(jù)集
根據(jù)安檢人體掃描成像預(yù)測威脅競賽【Kaggle競賽】
處理后的科研和競賽數(shù)據(jù)
NIPS 2003 屬性選擇競賽數(shù)據(jù)
臺灣大學(xué)林智仁教授處理為 LibSVM 格式的分類建模數(shù)據(jù)
Large-scale 分類建模數(shù)據(jù)
幾個UCI 中 large-scale 分類建模數(shù)據(jù)
Social Computing Data Repository 社交網(wǎng)絡(luò)數(shù)據(jù)
貓和狗分類識別競賽數(shù)據(jù)【Kaggle競賽】
DSTL 衛(wèi)星圖像識別競賽數(shù)據(jù)【Kaggle競賽】
根據(jù)手機應(yīng)用軟件使用行為預(yù)測用戶性別年齡競賽數(shù)據(jù)【Kaggle競賽】
人臉關(guān)鍵點標(biāo)定競賽數(shù)據(jù)【Kaggle競賽】
Kaggle競賽數(shù)據(jù)合輯(部分競賽數(shù)據(jù))
UCI多分類組合出的二分類數(shù)據(jù)集
UCI經(jīng)典二分類數(shù)據(jù)集
場景圖像分類競賽數(shù)據(jù)【ChallengerAI 競賽】
人體骨骼關(guān)鍵點檢測競賽數(shù)據(jù)【ChallengerAI 競賽】
圖像中文表述競賽數(shù)據(jù)【ChallengerAI 競賽】
英文同聲傳譯競賽數(shù)據(jù)【ChallengerAI 競賽】
中英文本翻譯競賽數(shù)據(jù)【ChallengerAI 競賽】
虛擬股票趨勢預(yù)測【ChallengerAI 競賽數(shù)據(jù)】
機器視覺推理實驗數(shù)據(jù)
BigMM 2015 競賽驗證數(shù)據(jù)集
KONECT 網(wǎng)絡(luò)圖結(jié)構(gòu)和網(wǎng)絡(luò)科學(xué)數(shù)據(jù)合輯
總結(jié)
- 上一篇: 网上书店系统活动设计
- 下一篇: IDEA+Java+SSM+Mysql+