各种数据集汇总——转载而来
?
【第一波】
目前系統(tǒng)整理了一些網(wǎng)上開放的免費(fèi)科研數(shù)據(jù)集,以下是分類列表以及下載地址,供高校和科研機(jī)構(gòu)免費(fèi)下載和使用。
金融
- 美國(guó)勞工部統(tǒng)計(jì)局官方發(fā)布數(shù)據(jù)
- 上證A股日線數(shù)據(jù),1999.12.09 至 2016.06.08,前復(fù)權(quán),1095支股票
- 深證A股日線數(shù)據(jù),1999.12.09 至 2016.06.08,前復(fù)權(quán),1766支股票
- 深證創(chuàng)業(yè)板日線數(shù)據(jù),1999.12.09 至 2016.06.08,前復(fù)權(quán),510支股票
- MT4平臺(tái)外匯交易歷史數(shù)據(jù)
- Forex平臺(tái)外匯交易歷史數(shù)據(jù)
- 幾組外匯交易逐筆(Ticks)數(shù)據(jù)
- 美國(guó)股票新聞數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 美國(guó)醫(yī)療保險(xiǎn)市場(chǎng)數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 美國(guó)金融客戶投訴數(shù)據(jù)【Kaggle數(shù)據(jù)】
- Lending Club 網(wǎng)貸違約數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 信用卡欺詐數(shù)據(jù)【Kaggle 數(shù)據(jù)】
- 某個(gè)金融產(chǎn)品實(shí)時(shí)交易數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 美國(guó)股票數(shù)據(jù)XBRL【Kaggle數(shù)據(jù)】
- 紐約股票交易所數(shù)據(jù)【Kaggle數(shù)據(jù)】
交通
- 2013年紐約出租車行駛數(shù)據(jù)
- Udacity自動(dòng)駕駛數(shù)據(jù)
- 紐約 Uber 接客數(shù)據(jù) 【Kaggle數(shù)據(jù)】
- 英國(guó)車禍數(shù)據(jù)(2005-2015)【Kaagle數(shù)據(jù)】
- 芝加哥汽車超速數(shù)據(jù)【Kaggle數(shù)據(jù)】
商業(yè)
- Amazon 食品評(píng)論數(shù)據(jù)【Kaggle數(shù)據(jù)】
- Amazon 無(wú)鎖手機(jī)評(píng)論數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 美國(guó)視頻游戲銷售和評(píng)價(jià)數(shù)據(jù)【Kaggle數(shù)據(jù)】
- Kaggle 各項(xiàng)競(jìng)賽情況數(shù)據(jù)【Kaggle數(shù)據(jù)】
推薦系統(tǒng)
- Netflix 電影評(píng)價(jià)數(shù)據(jù)
- MovieLens 20m 電影推薦數(shù)據(jù)集
- WikiLens
- Jester
- HetRec2011
- Book Crossing
- Large Movie Review
醫(yī)療健康
- 人識(shí)別物體時(shí)大腦核磁共振影像數(shù)據(jù)
- 人理解單詞時(shí)大腦核磁共振影像數(shù)據(jù)
- 心臟病心房圖像及標(biāo)注數(shù)據(jù)
- 細(xì)胞病理識(shí)別
- FIRE 視網(wǎng)膜眼底病變圖像數(shù)據(jù)
- 食物營(yíng)養(yǎng)成分?jǐn)?shù)據(jù) 【Kaggle數(shù)據(jù)】
- EGG 大腦電波形狀數(shù)據(jù)【Kaggle數(shù)據(jù)】
圖像數(shù)據(jù)
綜合圖像
- Visual Genome 圖像數(shù)據(jù)
- Visual7w 圖像數(shù)據(jù)
- COCO 圖像數(shù)據(jù)
- SUFR 圖像數(shù)據(jù)
- ILSVRC 2014 訓(xùn)練數(shù)據(jù)(ImageNet的一部分)
- PASCAL Visual Object Classes 2012 圖像數(shù)據(jù)
- PASCAL Visual Object Classes 2011 圖像數(shù)據(jù)
- PASCAL Visual Object Classes 2010 圖像數(shù)據(jù)
- 80 Million Tiny Image 圖像數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
- ImageNet【數(shù)據(jù)太大僅有介紹】
場(chǎng)景圖像
- Street Scences 圖像數(shù)據(jù)
- Places2 場(chǎng)景圖像數(shù)據(jù)
- UCF Google Street View 圖像數(shù)據(jù)
- SUN 場(chǎng)景圖像數(shù)據(jù)
- The Celebrity in Places 圖像數(shù)據(jù)
Web標(biāo)簽圖像
- HARRISON 社交標(biāo)簽圖像
- NUS-WIDE 標(biāo)簽圖像
- Visual Synset 標(biāo)簽圖像
- Animals With Attributes 標(biāo)簽圖像
人形輪廓圖像
- MPII Human Shape人體輪廓數(shù)據(jù)
- Biwi Kinect Head Pose 頭部姿勢(shì)數(shù)據(jù)
- 上半身人像數(shù)據(jù)
- INRIA Person 數(shù)據(jù)集
視覺文字識(shí)別圖像
- Street View House Number 門牌號(hào)圖像數(shù)據(jù)
- MNIST 手寫數(shù)字識(shí)別圖像數(shù)據(jù)
- 3D MNIST 數(shù)字識(shí)別圖像數(shù)據(jù)【Kaggle數(shù)據(jù)】
- MediaTeam Document 文檔影印和內(nèi)容數(shù)據(jù)
特定一類事物圖像
- 著名的貓圖像標(biāo)注數(shù)據(jù)
- Caltech-UCSD Birds200 鳥類圖像數(shù)據(jù)
- Stanford Car 汽車圖像數(shù)據(jù)
- Cars 汽車圖像數(shù)據(jù)
- MIT Cars 汽車圖像數(shù)據(jù)
- Stanford Cars 汽車圖像數(shù)據(jù)
- Food-101 美食圖像數(shù)據(jù)
- 17_Category_Flower 圖像數(shù)據(jù)
- 102_Category_Flower 圖像數(shù)據(jù)
- UCI Folio Leaf 圖像數(shù)據(jù)
- Labeled Fishes in the Wild 魚類圖像
- 美國(guó) Yelp 點(diǎn)評(píng)網(wǎng)站酒店照片
- CMU-Oxford Sculpture 塑像雕像圖像
- Oxford-IIIT Pet 寵物圖像數(shù)據(jù)
材質(zhì)紋理圖像
- CURET 紋理材質(zhì)圖像數(shù)據(jù)
- ETHZ Synthesizability 紋理圖像數(shù)據(jù)
- KTH-TIPS 紋理材質(zhì)圖像數(shù)據(jù)
- Describable Textures 紋理圖像數(shù)據(jù)
物體分類圖像
- COIL-20 圖像數(shù)據(jù)
- COIL-100 圖像數(shù)據(jù)
- Caltech-101 圖像數(shù)據(jù)
- Caltech-256 圖像數(shù)據(jù)
- CIFAR-10 圖像數(shù)據(jù)
- CIFAR-100 圖像數(shù)據(jù)
- STL-10 圖像數(shù)據(jù)
- LabelMe_12_50k圖像數(shù)據(jù)
- NORB v1.0 圖像數(shù)據(jù)
- NEC Toy Animal 圖像數(shù)據(jù)
- iCubWorld 圖像分類數(shù)據(jù)
- Multi-class 圖像分類數(shù)據(jù)
- GRAZ 圖像分類數(shù)據(jù)
人臉圖像
- IMDB-WIKI 500k+ 人臉圖像、年齡性別數(shù)據(jù)
- Labeled Faces in the Wild 人臉數(shù)據(jù)
- Extended Yale Face Database B 人臉數(shù)據(jù)
- Bao Face 人臉數(shù)據(jù)
- DC-IGN 論文人臉數(shù)據(jù)
- 300 Face in Wild 圖像數(shù)據(jù)
- BioID Face 人臉數(shù)據(jù)
- CMU Frontal Face Images
- FDDB_Face Detection Data Set and Benchmark
- NIST Mugshot Identification Database
- Faces in the Wild 人臉數(shù)據(jù)
- CelebA 名人人臉圖像數(shù)據(jù)
- VGG Face 人臉圖像數(shù)據(jù)
姿勢(shì)動(dòng)作圖像
- HMDB_a large human motion database
- Human Actions and Scenes Dataset
指紋識(shí)別
- NIST FIGS 指紋識(shí)別數(shù)據(jù)
其它圖像數(shù)據(jù)
- Visual Question Answering 圖像數(shù)據(jù)
視頻數(shù)據(jù)
綜合視頻
- DAVIS_Densely Annotated Video Segmentation 數(shù)據(jù)
- YouTube-8M 視頻數(shù)據(jù)集【數(shù)據(jù)太大僅有介紹】
- YouTube 網(wǎng)站視頻備份【數(shù)據(jù)太大僅有介紹】
人類動(dòng)作視頻
- Microsoft Research Action 人類動(dòng)作視頻數(shù)據(jù)
- UCF50 Action Recognition 動(dòng)作識(shí)別數(shù)據(jù)
- UCF101 Action Recognition 動(dòng)作識(shí)別數(shù)據(jù)
- UT-Interaction 人類動(dòng)作視頻數(shù)據(jù)
- UCF iPhone 運(yùn)動(dòng)中傳感器數(shù)據(jù)
- UCF YouTube 人類動(dòng)作視頻數(shù)據(jù)
- UCF Sport 人類動(dòng)作視頻數(shù)據(jù)
- UCF-ARG 人類動(dòng)作視頻數(shù)據(jù)
- HMDB 人類動(dòng)作視頻
- HOLLYWOOD2 人類行為動(dòng)作視頻數(shù)據(jù)
- Recognition of human actions 動(dòng)作視頻數(shù)據(jù)
- Motion Capture 動(dòng)作捕捉視頻數(shù)據(jù)
- SBU Kinect Interaction 肢體動(dòng)作視頻數(shù)據(jù)
行人檢測(cè)視頻
- UCSD Pedestrian 行人視頻數(shù)據(jù)
- Caltech Pedestrian 行人視頻數(shù)據(jù)
- ETH 行人視頻數(shù)據(jù)
- INRIA 行人視頻數(shù)據(jù)
- TudBrussels 行人視頻數(shù)據(jù)
- Daimler 行人視頻數(shù)據(jù)
密集人群視頻
- Crowd Counting 高密度人群圖像
- Crowd Segmentation 高密度人群視頻數(shù)據(jù)
- Tracking in High Density Crowds 高密度人群視頻
其它視頻
- Fire Detection 視頻數(shù)據(jù)
?
音頻數(shù)據(jù)
綜合音頻
Google Audioset 音頻數(shù)據(jù)【數(shù)據(jù)太大僅有介紹】
語(yǔ)音識(shí)別
- Sinhala TTS 英語(yǔ)語(yǔ)音識(shí)別
- TIMIT 美式英語(yǔ)語(yǔ)音識(shí)別數(shù)據(jù)
- LibriSpeech ASR corpus 語(yǔ)音數(shù)據(jù)
- Room Impulse Response and Noise 語(yǔ)音數(shù)據(jù)
- ALFFA 非洲語(yǔ)音數(shù)據(jù)
?
自然語(yǔ)言處理
- RCV1英語(yǔ)新聞數(shù)據(jù)
- 20news 英語(yǔ)新聞數(shù)據(jù)
- First Quora Release Question Pairs
- JRC Names各國(guó)語(yǔ)言專有實(shí)體名稱
- Multi-Domain Sentiment V2.0
- LETOR 信息檢索數(shù)據(jù)
- Yale Youtube Vedio Text
- 斯坦福問(wèn)答數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 美國(guó)假新聞數(shù)據(jù)【Kaggle數(shù)據(jù)】
- NIPS會(huì)議文章信息數(shù)據(jù)(1987-2016)【Kaggle數(shù)據(jù)】
- 2016年美國(guó)總統(tǒng)選舉辯論數(shù)據(jù)【Kaggle數(shù)據(jù)】
?
社會(huì)數(shù)據(jù)
- 希拉里郵件門泄露郵件
- 波士頓 Airbnb 公開數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 世界各國(guó)經(jīng)濟(jì)發(fā)展數(shù)據(jù)【Kaagle數(shù)據(jù)】?
- 世界大學(xué)排名芝加哥犯罪數(shù)據(jù)(2001-2017)【Kaagle數(shù)據(jù)】
- 世界范圍顯著地震數(shù)據(jù)(1965-2016)【Kaagle數(shù)據(jù)】
- 美國(guó)嬰兒姓名數(shù)據(jù)【Kaagle數(shù)據(jù)】
- 全世界鯊魚襲擊人類數(shù)據(jù)【Kaagle數(shù)據(jù)】
- 1908年以來(lái)空難數(shù)據(jù)【Kaagle數(shù)據(jù)】
- 2016年美國(guó)總統(tǒng)大選數(shù)據(jù)【Kaagle數(shù)據(jù)】
- 2013年美國(guó)社區(qū)統(tǒng)計(jì)數(shù)據(jù)【Kaagle數(shù)據(jù)】
- 歐洲足球運(yùn)動(dòng)員賽事表現(xiàn)數(shù)據(jù)【Kaagle數(shù)據(jù)】
- 美國(guó)環(huán)境污染數(shù)據(jù)【Kaagle數(shù)據(jù)】
- 美國(guó)H1-B簽證申請(qǐng)數(shù)據(jù)【Kaggle數(shù)據(jù)】
- IMDB五千部電影數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 2015年航班延誤和取消數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 兇殺案報(bào)告數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 人力資源分析數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 某人基因序列數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 美國(guó)費(fèi)城犯罪數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 安然公司郵件數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 歷史棒球數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 美聯(lián)航 Twitter 用戶評(píng)論數(shù)據(jù)【Kaggle數(shù)據(jù)】
- 波士頓 Airbnb 公開數(shù)據(jù)【Kaggle數(shù)據(jù)】
?
處理后的科研和競(jìng)賽數(shù)據(jù)
- NIPS 2003 屬性選擇競(jìng)賽數(shù)據(jù)http://dataju.cn/Dataju/web/datasetInstanceDetail/370
- 臺(tái)灣大學(xué)林智仁教授處理為 LibSVM 格式的分類建模數(shù)據(jù)?http://dataju.cn/Dataju/web/datasetInstanceDetail/296
- Large-scale 分類建模數(shù)據(jù)http://dataju.cn/Dataju/web/datasetInstanceDetail/297
- 幾個(gè)UCI 中 large-scale 分類建模數(shù)據(jù)http://dataju.cn/Dataju/web/datasetInstanceDetail/298
- Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
- Data Repository 社交網(wǎng)絡(luò)數(shù)據(jù)http://dataju.cn/Dataju/web/datasetInstanceDetail/300
- 貓和狗分類識(shí)別競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/318
- DSTL 衛(wèi)星圖像識(shí)別競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
- 根據(jù)手機(jī)應(yīng)用軟件使用行為預(yù)測(cè)用戶性別年齡競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】?http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- 人臉關(guān)鍵點(diǎn)標(biāo)定競(jìng)賽數(shù)據(jù)【Kaggle競(jìng)賽】?http://dataju.cn/Dataju/web/datasetInstanceDetail/331
- Kaggle競(jìng)賽數(shù)據(jù)合輯(部分競(jìng)賽數(shù)據(jù))http://dataju.cn/Dataju/web/datasetInstanceDetail/368
【第二波】
ImageNet挑戰(zhàn)賽中超越人類的計(jì)算機(jī)視覺系統(tǒng)
微軟亞洲研究院視覺計(jì)算組基于深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的計(jì)算機(jī)視覺系統(tǒng),在ImageNet 1000挑戰(zhàn)中首次超越了人類進(jìn)行對(duì)象識(shí)別分類的能力。他們的系統(tǒng)在ImageNet 2012分類數(shù)據(jù)集中的錯(cuò)誤率已降低至4.94%。
這個(gè)數(shù)據(jù)集包含約120萬(wàn)張訓(xùn)練圖像、5萬(wàn)張驗(yàn)證圖像和10萬(wàn)張測(cè)試圖像,分為1000個(gè)不同的類別。
該研究團(tuán)隊(duì)由微軟亞洲研究院研究員孫劍、何愷明以及來(lái)自西安交通大學(xué)和中國(guó)科學(xué)技術(shù)大學(xué)的實(shí)習(xí)生張祥雨和任少卿組成。
百度網(wǎng)盤里有Imagenet數(shù)據(jù)下載(有140G以上):鏈接:http://pan.baidu.com/s/1pJT8kLd?密碼:12kx
======================================
公開的海量數(shù)據(jù)集 Public Research-Quality Datasets
海量數(shù)據(jù)(又稱大數(shù)據(jù))已經(jīng)成為各大互聯(lián)網(wǎng)企業(yè)面臨的最大問(wèn)題,如何處理海量數(shù)據(jù),提供更好的解決方案,是目前相當(dāng)熱門的一個(gè)話題。類似MapReduce、 Hadoop等架構(gòu)的普遍推廣,大家都在構(gòu)建自己的大數(shù)據(jù)處理,大數(shù)據(jù)分析平臺(tái)。
相應(yīng)之下,目前對(duì)于海量數(shù)據(jù)處理人才的需求也在不斷增多,此類人才可謂炙手可熱!越來(lái)越多的開發(fā)者把目光轉(zhuǎn)移到海量數(shù)據(jù)的處理上。但是不是所有人都能真正接觸到,或者有機(jī)會(huì)去處理海量數(shù)據(jù)的,所以就需要一些公開的海量數(shù)據(jù)集來(lái)研究。
在Quora上有人就問(wèn)到,如何獲取海量數(shù)據(jù)集。此問(wèn)題得到了很多人的關(guān)注。具體可以看看回答,數(shù)據(jù)集的種類多種多樣,有化學(xué)分析,基因遺傳等等,從中你肯定能得到自己想要個(gè)數(shù)據(jù)集。?
Where can I get large datasets open to the public?
首先說(shuō)說(shuō)幾個(gè)收集數(shù)據(jù)集的網(wǎng)站:?
1、Public Data Sets on Amazon Web Services (AWS)?
http://aws.amazon.com/datasets?
Amazon從2008年開始就為開發(fā)者提供幾十TB的開發(fā)數(shù)據(jù)。
2、Yahoo! Webscope?
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets?
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection?
http://snap.stanford.edu/data/index.html
再就是說(shuō)說(shuō)幾個(gè)跟互聯(lián)網(wǎng)有關(guān)的數(shù)據(jù)集:?
1、Dataset for "Statistics and Social Network of YouTube Videos"?
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs?
http://ita.ee.lbl.gov/html/contrib/WorldCup.html?
這個(gè)是1998年世界杯期間的數(shù)據(jù)集。從1998/04/26 到 1998/07/26 的92天中,發(fā)生了 1,352,804,107次請(qǐng)求。
3、Page view statistics for Wikimedia projects?
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP?
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet?
http://blog.livedoor.jp/techblog/archives/65836960.html
海量圖像數(shù)據(jù)集:?
1、ImageNet?
http://www.image-net.org/?
包含1400萬(wàn)的圖像。
2、Tiny Images Dataset?
http://horatio.cs.nyu.edu/mit/tiny/data/index.html?
包含8000萬(wàn)的32x32圖像。
3、 MirFlickr1M?
http://press.liacs.nl/mirflickr/?
Flickr中的100萬(wàn)的圖像集。
4、 CoPhIR?
http://cophir.isti.cnr.it/whatis.html?
Flickr中的1億600萬(wàn)的圖像
5、SBU captioned photo dataset?
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/?
Flickr中的100萬(wàn)的圖像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)?
http://cpl.cc.gatech.edu/projects/VisualSynset/?
包含2億圖像
7、NUS-WIDE?
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm?
Flickr中的27萬(wàn)的圖像集。
8、SUN dataset?
http://people.csail.mit.edu/jxiao/SUN/?
包含13萬(wàn)的圖像
9、MSRA-MM?
http://research.microsoft.com/en-us/projects/msrammdata/?
包含100萬(wàn)的圖像,23000視頻
10、TRECVID?
http://trecvid.nist.gov/
Stack Overflow Dump Files?
7.3G stackoverflow.com-Posts.7z?
573.1K stackoverflow.com-Tags.7z?
153.0M stackoverflow.com-Users.7z?
2.2G stackoverflow.com-Comments.7z
截止目前好像還沒有國(guó)內(nèi)的企業(yè)或者組織開放自己的數(shù)據(jù)集。希望也能有企業(yè)開發(fā)自己的數(shù)據(jù)集給研究人員使用,從而推動(dòng)海量數(shù)據(jù)處理在國(guó)內(nèi)的發(fā)展!
2014/07/07 雅虎發(fā)布超大Flickr數(shù)據(jù)集 1億的圖片+視頻?
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================
數(shù)據(jù)挖掘數(shù)據(jù)集下載資源
1、氣候監(jiān)測(cè)數(shù)據(jù)集?http://cdiac.ornl.gov/ftp/ndp026b
2、幾個(gè)實(shí)用的測(cè)試數(shù)據(jù)集下載的網(wǎng)站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的網(wǎng)址可以找到reuters數(shù)據(jù)集:http://www.research.att.com/~lewis/reuters21578.html
該網(wǎng)址有各種數(shù)據(jù)集:http://kdd.ics.uci.edu/summary.data.type.html
進(jìn)行文本分類,還有一個(gè)數(shù)據(jù)集是可以用的,即rainbow的數(shù)據(jù)集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的機(jī)器學(xué)習(xí)數(shù)據(jù)集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
5、關(guān)于基金的數(shù)據(jù)挖掘的網(wǎng)站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、進(jìn)行文本分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
7、時(shí)間序列數(shù)據(jù)的網(wǎng)址
http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori算法的測(cè)試數(shù)據(jù)
http://www.almaden.ibm.com/cs/quest/syndata.html
9、數(shù)據(jù)生成器的鏈接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、關(guān)聯(lián):
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌癥基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融數(shù)據(jù):
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一個(gè)很好的資源網(wǎng)址為:http://kdd.ics.uci.edu/,里面包含的數(shù)據(jù)資源按應(yīng)用領(lǐng)域劃分的。
============================================================================================
1、Public Data Sets on Amazon Web Services (AWS)?
http://aws.amazon.com/datasets?
Amazon從2008年開始就為開發(fā)者提供幾十TB的開發(fā)數(shù)據(jù)。
2、Yahoo! Webscope?
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets?
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection?
http://snap.stanford.edu/data/index.html
再就是說(shuō)說(shuō)幾個(gè)跟互聯(lián)網(wǎng)有關(guān)的數(shù)據(jù)集:?
1、Dataset for "Statistics and Social Network of YouTube Videos"?
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs?
http://ita.ee.lbl.gov/html/contrib/WorldCup.html?
這個(gè)是1998年世界杯期間的數(shù)據(jù)集。從1998/04/26 到 1998/07/26 的92天中,發(fā)生了 1,352,804,107次請(qǐng)求。
3、Page view statistics for Wikimedia projects?
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP?
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet?
http://blog.livedoor.jp/techblog/archives/65836960.html
海量圖像數(shù)據(jù)集:?
1、ImageNet?
http://www.image-net.org/?
包含1400萬(wàn)的圖像。
2、Tiny Images Dataset?
http://horatio.cs.nyu.edu/mit/tiny/data/index.html?
包含8000萬(wàn)的32x32圖像。
3、 MirFlickr1M?
http://press.liacs.nl/mirflickr/?
Flickr中的100萬(wàn)的圖像集。
4、 CoPhIR?
http://cophir.isti.cnr.it/whatis.html?
Flickr中的1億600萬(wàn)的圖像
5、SBU captioned photo dataset?
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/?
Flickr中的100萬(wàn)的圖像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)?
http://cpl.cc.gatech.edu/projects/VisualSynset/?
包含2億圖像
7、NUS-WIDE?
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm?
Flickr中的27萬(wàn)的圖像集。
8、SUN dataset?
http://people.csail.mit.edu/jxiao/SUN/?
包含13萬(wàn)的圖像
9、MSRA-MM?
http://research.microsoft.com/en-us/projects/msrammdata/?
包含100萬(wàn)的圖像,23000視頻
10、TRECVID?
http://trecvid.nist.gov/
Stack Overflow Dump Files?
7.3G stackoverflow.com-Posts.7z?
573.1K stackoverflow.com-Tags.7z?
153.0M stackoverflow.com-Users.7z?
2.2G stackoverflow.com-Comments.7z
截止目前好像還沒有國(guó)內(nèi)的企業(yè)或者組織開放自己的數(shù)據(jù)集。希望也能有企業(yè)開發(fā)自己的數(shù)據(jù)集給研究人員使用,從而推動(dòng)海量數(shù)據(jù)處理在國(guó)內(nèi)的發(fā)展!
2014/07/07 雅虎發(fā)布超大Flickr數(shù)據(jù)集 1億的圖片+視頻?
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================
數(shù)據(jù)挖掘數(shù)據(jù)集下載資源
1、氣候監(jiān)測(cè)數(shù)據(jù)集?http://cdiac.ornl.gov/ftp/ndp026b
2、幾個(gè)實(shí)用的測(cè)試數(shù)據(jù)集下載的網(wǎng)站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的網(wǎng)址可以找到reuters數(shù)據(jù)集:http://www.research.att.com/~lewis/reuters21578.html
該網(wǎng)址有各種數(shù)據(jù)集:http://kdd.ics.uci.edu/summary.data.type.html
進(jìn)行文本分類,還有一個(gè)數(shù)據(jù)集是可以用的,即rainbow的數(shù)據(jù)集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的機(jī)器學(xué)習(xí)數(shù)據(jù)集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
5、關(guān)于基金的數(shù)據(jù)挖掘的網(wǎng)站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、進(jìn)行文本分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
7、時(shí)間序列數(shù)據(jù)的網(wǎng)址
http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori算法的測(cè)試數(shù)據(jù)
http://www.almaden.ibm.com/cs/quest/syndata.html
9、數(shù)據(jù)生成器的鏈接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、關(guān)聯(lián):
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌癥基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融數(shù)據(jù):
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一個(gè)很好的資源網(wǎng)址為:http://kdd.ics.uci.edu/,里面包含的數(shù)據(jù)資源按應(yīng)用領(lǐng)域劃分的。
【第三波】來(lái)一波另類數(shù)據(jù)集
100+詭異的數(shù)據(jù)集,20萬(wàn)Eclipse Bug、死囚遺言等
Robert Seaton整理了100多個(gè)最有趣的數(shù)據(jù)集,其中包括Jeopardy真題,死囚的最后一句話,20萬(wàn)個(gè)Eclipse Bug,足球比賽相關(guān),柏拉圖式的愛情,太陽(yáng)系以外的行星,11.3萬(wàn)個(gè)恐怖事件等。
在數(shù)據(jù)爆發(fā)式增長(zhǎng)的逼迫下,當(dāng)下數(shù)據(jù)分析能力已得到長(zhǎng)足的發(fā)展,機(jī)器學(xué)習(xí)更成為數(shù)據(jù)處理中必不可缺少的一環(huán)。這里,為大家分享Robert Seaton在其個(gè)人博客上整理的100+最有趣的數(shù)據(jù)集,從柏拉圖式的愛情到政治競(jìng)選再到死刑囚犯,可謂是應(yīng)有盡有,旨在給大家的模型訓(xùn)練的過(guò)程增加一些樂(lè)趣。
在尋找數(shù)據(jù)集?這里給你準(zhǔn)備了100多個(gè)最有趣的,從柏拉圖式的愛情到政治競(jìng)選再到死刑囚犯,應(yīng)有盡有。
個(gè)人對(duì)“信息時(shí)代”這個(gè)名詞非常不感冒,就好像隨便來(lái)了個(gè)人,往過(guò)一坐,然后說(shuō):“當(dāng)下的信息已經(jīng)非常多了,我們?cè)撊绾涡稳?#xff1f;我覺得‘信息時(shí)代’這個(gè)詞不錯(cuò)。”個(gè)人認(rèn)為這是極度不負(fù)責(zé)的,沒有創(chuàng)意,命名者太懶了;其次,如此多的數(shù)據(jù)帶來(lái)更多的是處理上的無(wú)助和絕望,用“drinking from the firehose” 比喻起來(lái)或許更貼切一點(diǎn)。因此,與其叫“信息時(shí)代”,我們不妨稱之為“飽和時(shí)代”,或者是“泛濫時(shí)代”。然而,不管稱之為什么,毫無(wú)疑問(wèn)的是,我們已經(jīng)被數(shù)據(jù)淹沒了。這里為大家分享100+最有意思的數(shù)據(jù)集。無(wú)他,在提供數(shù)據(jù)分析材料的同時(shí),給大家增加一點(diǎn)樂(lè)趣。
100+ Most Interesting Data Sets
1. 如果你是智力競(jìng)賽節(jié)目Jeopardy的參賽選手,你該如何準(zhǔn)備?你可以下載這個(gè)數(shù)據(jù)集—— 215930個(gè)Jeopardy真題。把這個(gè)數(shù)據(jù)集放到記憶系統(tǒng)中,你就是下一個(gè)贏家。
2. 想知道被判死刑是什么樣的感受?看看這個(gè)數(shù)據(jù)集—— 德克薩斯州將1984年以來(lái)每個(gè)死刑犯的最后一句放到了網(wǎng)上。借助這些數(shù)據(jù),我們可以進(jìn)行臨刑者的情感分析。
3. 談到監(jiān)獄,還有很多關(guān)于囚犯的信息,如“犯罪史,家庭背景和個(gè)人性格,藥物史、酗酒史、治療方案,槍支所有權(quán)和使用史、監(jiān)獄活動(dòng),項(xiàng)目,服務(wù)”。
4. 想讀他人的郵件么?即使你想,你也沒有那個(gè)技術(shù),更沒有哪個(gè)膽量去。來(lái)看看安然公司的文集數(shù)據(jù)庫(kù)吧。這個(gè)數(shù)據(jù)庫(kù)包括來(lái)自 150多個(gè)使用者的100萬(wàn)封郵件,大部分郵件來(lái)自Enron公司的管理層,以文件夾的形式呈現(xiàn)。
5. 想了解互聯(lián)網(wǎng)用戶都關(guān)心什么?這個(gè)問(wèn)題不好回答,我們可以先回答一個(gè)更簡(jiǎn)單的問(wèn)題:Reddit(新聞網(wǎng)站)用戶都關(guān)心什么。有人將 Reddit上250萬(wàn)個(gè)帖子進(jìn)行了分析,公布到了GitHub上。通過(guò)這些數(shù)據(jù),我們可以了解用戶對(duì)貓的喜愛程度,一個(gè)數(shù)據(jù)是否支持r/circlejerk。
6. 談到貓,還有一個(gè)數(shù)據(jù)集上 10000張有注釋的貓圖片。當(dāng)我們想訓(xùn)練機(jī)器人消滅除了貓以外的所有生物時(shí),這個(gè)數(shù)據(jù)集會(huì)非常有用。
7. 如果你對(duì)構(gòu)建金融算法有興趣,或者只是對(duì)預(yù)測(cè)美國(guó)最大經(jīng)濟(jì)作物的套利機(jī)會(huì)感興趣,那你應(yīng)該看看 這個(gè)數(shù)據(jù)集,該數(shù)據(jù)集包含了從2010年9月2日到現(xiàn)在的所有大麻價(jià)格數(shù)據(jù)。
8. 哪些人用了哪些藥物?多長(zhǎng)時(shí)間用一次?
9. 有關(guān)象棋比賽的記錄最早可追溯到10世紀(jì),產(chǎn)生于巴格達(dá)的歷史學(xué)家和一位學(xué)者之間博弈。從那以后,記錄象棋比賽中的每一步成為一種傳統(tǒng)——尤其是對(duì)于那些有重大意義的比賽,比如兩個(gè)強(qiáng)勁的對(duì)手之間的勝負(fù)之戰(zhàn)。因此,今天的象棋學(xué)生們可以借助包含這些比賽記錄的豐富數(shù)據(jù)集進(jìn)行象棋學(xué)習(xí)。“Million Base”或許是世界上最大的象棋比賽數(shù)據(jù)集,聲稱有220萬(wàn)條比賽記錄,你可以通過(guò) 此鏈接下載該數(shù)據(jù)集。
10. 說(shuō)起比賽這個(gè)主題,少不了足球,我已經(jīng)找到了 關(guān)于足球比賽、足球運(yùn)動(dòng)員、球隊(duì)、得分等信息的數(shù)據(jù)集。如果這些還不夠,你還可以利用S occermetrics API的python包獲取更多的數(shù)據(jù)。我想只要教練們想要戰(zhàn)勝對(duì)手,這些數(shù)據(jù)遲早會(huì)發(fā)揮作用。通常我們說(shuō):極客和賭徒區(qū)別,就在于極客們通過(guò)構(gòu)建分析模型獲得勝利。
11. Google已經(jīng)開放了所有的Google Book字串?dāng)?shù)據(jù)(n-gram)。每個(gè)字串實(shí)際上是由n個(gè)單詞組成的短語(yǔ),開放的數(shù)據(jù)集中包括了1-gram到5-gram等不同長(zhǎng)度的字串?dāng)?shù)據(jù)。該數(shù)據(jù)集的建立是“基于1500年到2008年之間出版的520萬(wàn)冊(cè)書籍”。我們可以通過(guò)這一數(shù)據(jù)集來(lái)判斷哪些短語(yǔ)被過(guò)度使用,哪些短語(yǔ)已經(jīng)過(guò)時(shí),哪些短語(yǔ)面臨被淘汰的危險(xiǎn)(友情提醒:有些人甚至已經(jīng)搶先注冊(cè)了clichealert.com域名)。
12. 亞馬遜有大量 開放的數(shù)據(jù)集(雖說(shuō)是免費(fèi)的,但免費(fèi)只是針對(duì)AWS的用戶),該數(shù)據(jù)集包括了從超過(guò)280萬(wàn)個(gè)網(wǎng)頁(yè)上抓取的數(shù)據(jù)。分析抓取的數(shù)據(jù),買下有升值空間的網(wǎng)址后,你可以再賣給那些需要做SEO的人,或者你也可以自己用來(lái)創(chuàng)建下一個(gè)Google。
13. 少數(shù)民族的計(jì)算機(jī)科學(xué)跳級(jí)考試成績(jī)?nèi)绾?#xff1f; 你可以自己查一下然后告訴我。
14. 有一個(gè)百萬(wàn)歌曲(Million Song)數(shù)據(jù)集,包含了一百多首不同的歌曲,包括“舞曲”。如果配備一個(gè)晚會(huì)專用的媒體播放機(jī)可能會(huì)更好,這些數(shù)據(jù)還適用于聚類算法(比如,自動(dòng)類型檢測(cè)),但我不太確定能起到多大的作用。許多人試過(guò)基于這些數(shù)據(jù)構(gòu)建推薦算法,包括 Kagglers和 Cornell的一個(gè)團(tuán)隊(duì)。一種做法是:按照時(shí)間,比如按年分析音樂(lè)——70年代、80年代或者90年代(或者找出“模仿-領(lǐng)導(dǎo)“效應(yīng),比如一首歌因?yàn)轱L(fēng)格獨(dú)特而流行,還會(huì)有很多模仿者)。
15. 說(shuō)道音樂(lè)的數(shù)據(jù)集,last.fm有大量可用的音樂(lè)數(shù)據(jù)。last.fm從它的36萬(wàn)用戶那里收集數(shù)據(jù),這些數(shù)據(jù)可能是以“用戶,藝術(shù)家,以及歌曲的播放信息”這樣的形式呈現(xiàn),這時(shí)候用聚類算法自動(dòng)給音樂(lè)分類或者構(gòu)建推薦系統(tǒng)會(huì)更好。
16. 我一想起極客,總會(huì)聯(lián)想到數(shù)學(xué)和計(jì)算機(jī)黑客,但是極客遠(yuǎn)不止這么簡(jiǎn)單。CescRosselló、Ricardo Alberich和Joe Miro描繪出了一個(gè)神奇宇宙的“社交網(wǎng)絡(luò)圖”,使用 Facebook的社交網(wǎng)絡(luò)圖,還可以做一個(gè)新的“什么是超級(jí)英雄?”測(cè)驗(yàn)。
15. Yelp有免費(fèi)的數(shù)據(jù)子集,包括餐館排名和評(píng)論數(shù)據(jù)。通過(guò)挖掘Twitter來(lái)獲取你需要的數(shù)據(jù),可以讓你擁有可以匹敵Yelp的競(jìng)爭(zhēng)力。
18.如果你對(duì)數(shù)據(jù)(元數(shù)據(jù))中的數(shù)據(jù)感興趣,你或許也會(huì)對(duì)Jürgen Schw?rzler感興趣,Jürgen Schw?rzler是Google公共數(shù)據(jù)團(tuán)隊(duì)中的一名統(tǒng)計(jì)學(xué)家,他整理出一個(gè)排名,記錄下 常被搜索的數(shù)據(jù)。前5位分別是學(xué)校對(duì)比、失業(yè)、人口、營(yíng)業(yè)稅和工資。
19. 我的讀者中無(wú)疑有一些邪惡的天才,當(dāng)然也存在一些想要拯救世界的英雄。這兩類人可能都會(huì)對(duì)超級(jí)智能機(jī)器人感興趣,但是要建造這樣的一個(gè)機(jī)器人,你必須教會(huì)它事實(shí),然而,手動(dòng)輸入1千萬(wàn)條事實(shí)是一件痛苦的事情。還好, Freebase為我們減少了工作量,它為我們免費(fèi)開放的數(shù)據(jù)集包含了19億條事實(shí)。
20. 你或許沒有打算建造一個(gè)超級(jí)機(jī)器人,只要比一般的數(shù)學(xué)家聰明一點(diǎn)就行。如果是這種情況的話,那你就需要教你的機(jī)器人許多數(shù)學(xué)知識(shí)(定義和定理),因此,你可能需要了解一下 Mizar項(xiàng)目,該項(xiàng)目為我們提供了9400條定義和49000條定理。
21. 那我們假設(shè)你建造出了這樣的機(jī)器“數(shù)學(xué)家”,它能在證明上為你提供幫助,但那又能怎樣?你還需要一個(gè)能和你在更深層次交流的人,一個(gè)能對(duì)某些抽象的主題進(jìn)行概括的人。這樣,你就需要給你的機(jī)器人“喂”維基百科的數(shù)據(jù)了,所有 維基百科的數(shù)據(jù)都是免費(fèi)開放的。
22. 當(dāng)你對(duì)數(shù)學(xué)和維基百科都厭倦時(shí)(事實(shí)上,這些是掙不到錢的),你會(huì)決定成為一名軟件工程師。這時(shí),你面臨讓一個(gè)對(duì)編程沒有基本概念的機(jī)器來(lái)教你編程的尷尬,在哪能找到相關(guān)的數(shù)據(jù)呢?你可以下載 730萬(wàn)個(gè)StackOverflow問(wèn)題(這些都是免費(fèi)的),所以你可以從StackOverflow和StackExchange兩處得到信息來(lái)“喂”你的機(jī)器(另外還有來(lái)自Cross Validated的數(shù)據(jù),等等)。
23. 你想過(guò)研究一下正真的友誼嗎?(試一下吧,實(shí)現(xiàn)你成為社會(huì)科學(xué)家的愿望)。你了解正真的、柏拉圖式的愛情(像海豚之間的那種感情)嗎?即使暫時(shí)還不了解,你也完全可以做到,這要感謝謙虛的作者本人,當(dāng)然還得感謝Mark Newman,他構(gòu)建了一個(gè)由6 2只海豚組成的親密的社區(qū)——New Zealand,遠(yuǎn)離偽裝和不信任。
24. 是不是左傾的博客通常會(huì)鏈接到其他左傾的博客,而不是右傾的博客?好吧,其實(shí)我也不知道,但是這聽起來(lái)還是很合理的。要特別感謝LadaAdamic的許可,你可以下 載2005年記錄下的美國(guó)政治超鏈接網(wǎng)絡(luò)。
25. 誰(shuí)更友好一些:是爵士樂(lè)音樂(lè)家還是海豚?你會(huì)發(fā)現(xiàn)我們應(yīng)該將之前提到的海豚數(shù)據(jù)集和Pablo M. Gleiser、Leon Danon的 爵士樂(lè)音樂(lè)家網(wǎng)絡(luò)數(shù)據(jù)集結(jié)合起來(lái)分析。
26. 那20世紀(jì)30年代的南方婦女和囚犯呢?誰(shuí)更友好?兄弟會(huì)成員和HAM無(wú)線電話務(wù)員,誰(shuí)又更友好呢?這些問(wèn)題都可以用 網(wǎng)絡(luò)數(shù)據(jù)集來(lái)解決。
27. 將 海豚與Slashdotters比較,結(jié)果又會(huì)怎么樣呢?
28.Web2.0網(wǎng)站(比如Reddit)有時(shí)候會(huì)被用“投票環(huán)”這種方式作弊,很多人故意互相投票,而不在乎內(nèi)容質(zhì)量。我們經(jīng)常會(huì)想在學(xué)術(shù)界會(huì)不會(huì)也出現(xiàn)這樣的情況。Stanford大學(xué)有一個(gè)在線 Arxiv’s High Energy Physics文獻(xiàn)引用網(wǎng),你會(huì)從中發(fā)現(xiàn)類似的現(xiàn)象。
29. 我假設(shè)讀者們都非常聰明,但也許你們還想變得更加富有,這樣你就能創(chuàng)建下一個(gè)Bill and Melinda Gates基金會(huì),然后拯救世界。那也許你應(yīng)該開發(fā)一些新奇的交易算法。但是,在這種情況下,依據(jù)市場(chǎng)歷史數(shù)據(jù)檢驗(yàn)一樣你的策略會(huì)更好,你可以通過(guò)此鏈接獲取市場(chǎng)數(shù)據(jù)。
30. 公開產(chǎn)品數(shù)據(jù)( Open Product Data)網(wǎng)站旨在為每個(gè)品牌提供免費(fèi)的條形碼數(shù)據(jù)。經(jīng)營(yíng)理念是:建立一個(gè)特別的紋身店,只紋條形碼,但允許客戶選擇他們想要的產(chǎn)品,想想看:“你的條形碼表達(dá)的意義是什么?”“這樣的條形碼就像是一種信仰。”
31. 做中期天氣預(yù)測(cè)的European Center對(duì)收集天氣數(shù)據(jù)情有獨(dú)鐘。如果你要問(wèn)這和天氣有關(guān)嗎?其實(shí)我主要想談一些我認(rèn)識(shí)到的 關(guān)于天氣數(shù)據(jù)的有趣應(yīng)用:金融行業(yè)。我很尊敬金融,主要是因?yàn)橛行┤俗隽艘恍┋偪竦氖虑椤N衣犝f(shuō)過(guò)中微子的應(yīng)用實(shí)際上是 “因?yàn)榻鹑凇薄D愕乃惴梢越鉀Q購(gòu)買印尼芝麻種子期貨問(wèn)題嗎?有了天氣數(shù)據(jù),也許就可以。
32. 如果你想了解 食物的營(yíng)養(yǎng)數(shù)據(jù),美國(guó)農(nóng)業(yè)部可以為你提供數(shù)據(jù)。你可以開發(fā)一個(gè)判斷用戶是否類食物過(guò)敏的手機(jī)APP。然后說(shuō)服學(xué)校給每個(gè)學(xué)生購(gòu)買這個(gè)APP。
33. 想精通語(yǔ)言,字典必不可少,但談到 單詞數(shù)據(jù),沒有什么字典比WordNet更優(yōu)秀。WordNet側(cè)重于語(yǔ)言的結(jié)構(gòu),這點(diǎn)其它字典無(wú)法比擬。
34. NASA公布了 太陽(yáng)系以外的行星數(shù)據(jù)集。買一個(gè)飛船,你可以飛到那里建一個(gè)秘密基地。
35. 聯(lián)邦鐵路管理局有“ 關(guān)于鐵路事故和意外的安全信息,庫(kù)存和穿過(guò)的高速公路數(shù)據(jù)”。一些組織(如紐約時(shí)報(bào))可以通過(guò)這些數(shù)據(jù)判斷貧窮地區(qū)的人們是否更容易發(fā)生火車事故等。
36. 如果你需要關(guān)于 圖書的數(shù)據(jù),你可以到Open Library下載免費(fèi)的數(shù)據(jù)集。
37. 美國(guó)的無(wú)人機(jī)殺害了誰(shuí)?如果你 對(duì)巴基斯坦地區(qū)感興趣,你可以查看這個(gè)數(shù)據(jù)集。
38. 如果你想通過(guò)自動(dòng)導(dǎo)入引用數(shù)據(jù)構(gòu)建Papers2的競(jìng)爭(zhēng)對(duì)手,你可以使 用CrossRef的元數(shù)據(jù)查詢。
39. Mnemosyne是一個(gè)虛擬卡片應(yīng)用,通過(guò)間隔重復(fù)輔助記憶。幾年來(lái),這個(gè)項(xiàng)目一直在搜索用戶數(shù)據(jù),現(xiàn)在 gwern公司同意將這些數(shù)據(jù)免費(fèi)公開若干月。研究者們可以在這些數(shù)據(jù)上運(yùn)行機(jī)器學(xué)習(xí)算法,了解更多關(guān)于人類記憶的信息。
40. 婚禮上邀請(qǐng)賈斯丁?比伯要花多少錢? Priceconomics網(wǎng)站列舉了雇傭各種明星的價(jià)格。你可以借助這些數(shù)據(jù)計(jì)算流行度和價(jià)格的比率。
41. 有些數(shù)據(jù)集可以更好的預(yù)測(cè)股市。2011年, 研究員發(fā)現(xiàn)他們可以通過(guò)分析推特?cái)?shù)據(jù)預(yù)測(cè)股市:他們分析與上市 公司相關(guān)的推文,然后計(jì)算一個(gè)“情緒得分”,通過(guò)這個(gè)得分預(yù)測(cè)股市。
42. 2014年,Clifford Winston和Fred Mannering指出,美國(guó)在車輛交通上每年花費(fèi)千億。我們可以通過(guò)數(shù)據(jù)集提高交通效率。例如,我們可以通過(guò)對(duì)歷史交通數(shù)據(jù)進(jìn)行算法分析,預(yù)測(cè)交通擁擠時(shí)段、路段。 data.gov網(wǎng)站提供了相關(guān)數(shù)據(jù)。
43. 如果你想開發(fā)一個(gè)跟蹤實(shí)時(shí)路況的app,你需要 不同的數(shù)據(jù)源。
44. 如果你想開發(fā)反垃圾軟件服務(wù),或者只是分析通常垃圾郵件的內(nèi)容,你需要數(shù)據(jù)。 UCIrvine提供這些數(shù)據(jù)。
45. 如果你想做反垃圾短信服務(wù),你依舊可以找到 相關(guān)數(shù)據(jù)。
46. 有大量的數(shù)據(jù)可被R操作,你所需的只是安裝一個(gè)包。 Ecdat是其中的一個(gè)包,包括大量的計(jì)算數(shù)據(jù)。我還見到過(guò)對(duì)數(shù)學(xué)水平和抽煙量關(guān)系的分析。
?
47. 有沒有想過(guò)一個(gè)人會(huì)參加多個(gè)公司的董事會(huì),比如:Condoleezza Rice(美國(guó)前國(guó)務(wù)卿賴斯)加上和她密切相關(guān)的政府監(jiān)控,或許這對(duì)于Dropbox來(lái)說(shuō)不能算是最好的選擇。好吧,有了 這個(gè)數(shù)據(jù)集,你也可以做到,但這只針對(duì)挪威——因?yàn)樵摂?shù)據(jù)集是由挪威的上市公司組成的網(wǎng)絡(luò)數(shù)據(jù)。
48. 有沒有看過(guò):地方政府會(huì)根據(jù)一個(gè)人的社會(huì)關(guān)系來(lái)判斷某人是不是恐怖分子?實(shí)際上, 你也可以得到這些數(shù)據(jù),分析出恐怖分子的社交網(wǎng)絡(luò)。
49. 圍繞維基百科的官僚機(jī)構(gòu)一直存在很大的爭(zhēng)論。如何才能成為一個(gè)真正的維基百科大人物?誰(shuí)才是維基百科最理想的管理者?當(dāng)然,可以通過(guò)投票, 數(shù)據(jù)可以免費(fèi)下載。
50. 哈佛大學(xué)開放了哈佛大學(xué)圖書館持有的“ 超過(guò)1200萬(wàn)的材料數(shù)據(jù)記錄”數(shù)據(jù)集,包括了書籍、期刊、電子資源、手稿、檔案材料、音頻、視頻等各種形式的資料。
51. 如果你需要為學(xué)生提供一個(gè)小型數(shù)據(jù)集,可以看一下 DASL。比如解決這樣一個(gè)問(wèn)題: 由不孕雄性野馬主導(dǎo)野馬群體會(huì)不會(huì)降低野馬群體的規(guī)模?
52. GET-Evidence已經(jīng)提供了可下載的 公共基因組。我懷疑Steven Pinker的個(gè)人數(shù)據(jù)也在其中,或許你也可以克隆一個(gè)自己。
53. 說(shuō)到基因組,已經(jīng)有1000個(gè)基因組項(xiàng)目提供了大約260TB可供下載的數(shù)據(jù)。
54. 在列出的這些數(shù)據(jù)集中要說(shuō)什么是最小數(shù)據(jù)集, 或許就是泰坦尼克號(hào)上男性和女性的幸存率,女乘客幸存率是男乘客的四倍。
55. 你想過(guò)對(duì)食物進(jìn)行具體細(xì)分嗎?如果是,那就恭喜你了,你可以在此處下載 相關(guān)數(shù)據(jù)集(感謝加拿大)。
57. 有一個(gè)與前者類似的數(shù)據(jù)庫(kù),不過(guò)記錄是 人體內(nèi)代謝物的相關(guān)數(shù)據(jù)。我不確定你可以用這些數(shù)據(jù)做什么,但也許有人可以用這個(gè)來(lái)進(jìn)行病毒式營(yíng)銷——xxx營(yíng)養(yǎng)之道。?
58. 參考能量解集數(shù)據(jù)集包括大概 500G關(guān)于家庭能量使用的數(shù)據(jù)。我們可以利用這些數(shù)據(jù)提高家庭能量效率,或者對(duì)家庭能量費(fèi)用消耗進(jìn)行可視化展示。
59. 開發(fā)了一個(gè)新的圖像壓縮算法,需要數(shù)據(jù)進(jìn)行測(cè)試?試試 CSAIL的小圖像數(shù)據(jù)集。
60. 如果覺得這些圖像太小了,試試 ImageNet數(shù)據(jù)集。如果你想訓(xùn)練一個(gè)算法識(shí)別獨(dú)角鯨,可以先用這些數(shù)據(jù)訓(xùn)練。
61. 還不夠?試試 維基百科所有的圖片。
62. 假設(shè)你在 構(gòu)建下一代圖書閱讀器,你希望段落可以自動(dòng)與相應(yīng)的維基百科文章相關(guān)聯(lián)。怎么做?斯坦福大學(xué)和谷歌研究中心已經(jīng)搭建了 英文段落映射維基文章的數(shù)據(jù)庫(kù),你可以下載他們的 論文。
63. 俄羅斯搜索引擎Yandex提供了一系列 搜索數(shù)據(jù)。也就是,如果一個(gè)人搜索了關(guān)鍵詞,他們會(huì)點(diǎn)擊哪些內(nèi)容?不過(guò),提供的都是俄羅斯人的搜索結(jié)果。
64. 人們通常在維基百科上做哪些編輯修訂? 也有數(shù)據(jù)庫(kù)是關(guān)于這一內(nèi)容的。
65. 谷歌有一個(gè) 面向數(shù)據(jù)集的搜索引擎,你造么?
66. Pew研究機(jī)構(gòu)有很多免費(fèi)的數(shù)據(jù)集,其中包括他們的 “全球態(tài)度項(xiàng)目”數(shù)據(jù)集。通過(guò)這個(gè)數(shù)據(jù)集我們可以了解:世界是否變得越來(lái)越進(jìn)步?隨著時(shí)間的推移,人們對(duì)宗教的態(tài)度是如何變化的?
67. 談到公眾態(tài)度隨時(shí)間的變化,你可以下載從 1972年到2012年的綜合社會(huì)調(diào)查數(shù)據(jù)集,這個(gè)數(shù)據(jù)集也可以回答這兩個(gè)問(wèn)題。
68. 有一個(gè)有趣的數(shù)學(xué)問(wèn)題叫名人問(wèn)題,你需要找出一個(gè)每個(gè)人都認(rèn)識(shí),但是不認(rèn)識(shí)任何人的人。但生活中真的有名人問(wèn)題么?試試 雅虎的明星臉集。
69. 需要2009年以來(lái)的十億個(gè)網(wǎng)頁(yè)?需要訓(xùn)練一個(gè)從不停止的語(yǔ)言學(xué)習(xí)者NELL? 是的,你可以做到。
70. 你知不知道你可以 下載Arxiv上所有的PDF?一旦我們可以教會(huì)機(jī)器自然語(yǔ)言,我們就可以讓計(jì)算機(jī)閱讀所有文檔為我們提取重點(diǎn)。
71. 如果你需要任何 產(chǎn)業(yè)的經(jīng)濟(jì)狀況數(shù)據(jù),試試census.gov的行業(yè)統(tǒng)計(jì)信息。如果經(jīng)濟(jì)狀況不好,你會(huì)在數(shù)據(jù)中找到證據(jù)。
72. 你可以下載大量 Usenet帖子的數(shù)據(jù)。這些數(shù)據(jù)對(duì)某些文本分析項(xiàng)目或機(jī)器學(xué)習(xí)算法(如拼寫檢查)很有用。
73. Nick Bostrom有一篇很有意思的文章 “預(yù)防人類滅絕是頭等大事”。該文章提出,考慮到人類滅絕的危害,再小的滅絕危險(xiǎn)都是需要警惕的。通過(guò)分析從 公元前2500年到2012年流星撞擊地球記錄,我們可以更好的應(yīng)對(duì)這個(gè)問(wèn)題。
74. 性別和精神疾病對(duì)犯罪影響有多大? 有數(shù)據(jù)集是針對(duì)這個(gè)問(wèn)題的。
75. 談到精神疾病,如果你想了解精神疾病是如何影響少數(shù)民族的, 試試這個(gè)數(shù)據(jù)庫(kù)。
76. 現(xiàn)在有很多孤男寡女,其中不乏一些具備卓越分析的人。 試試這個(gè)數(shù)據(jù)集“對(duì)比傳統(tǒng)夫婦和不傳統(tǒng)夫婦,美國(guó)人是如何遇到他們另一半的”,尋找遇到另一半的最好辦法。?
77. 你可以通過(guò)此鏈接下載大量所謂的 “青少年健康”的數(shù)據(jù),而且還包括了大量關(guān)系數(shù)據(jù)和生物指標(biāo)數(shù)據(jù)。
78. 我有一個(gè)問(wèn)題:現(xiàn)代工作與過(guò)去工作相比,哪個(gè)更糟糕? 有五組調(diào)查調(diào)查了關(guān)于不同職業(yè)群體對(duì)該問(wèn)題的回答,我已經(jīng)看到了這樣一篇文章——“我們可以告訴你:昨天是不是比今天更好?”
79. 斯坦福大學(xué)有 3500萬(wàn)條亞馬遜商品評(píng)價(jià)可供下載。你可以用這個(gè)做很多事情:使用它來(lái)改善推薦系統(tǒng)的算法,找出評(píng)論中是否存在“模仿-領(lǐng)袖”效應(yīng)(比如:早期的積極評(píng)價(jià)能否帶來(lái)更多的積極評(píng)價(jià)?)
80. 基于我過(guò)去的一些研究,搜索關(guān)鍵字 “關(guān)于連環(huán)殺手的數(shù)據(jù)集”時(shí)發(fā)現(xiàn)兩個(gè)特點(diǎn):1)很具體;2)很流行,但我希望這和人的品味沒有太大關(guān)系。當(dāng)然,我找到了相關(guān)的數(shù)據(jù)集,在此特別感謝連環(huán)殺手信息中心。
81. 這確實(shí)是一個(gè)讓人有些毛骨悚然的名字,Maryland大學(xué)還有個(gè)“全球恐怖主義數(shù)據(jù)庫(kù)”,這是一組由 11.3萬(wàn)個(gè)恐怖事件組成的數(shù)據(jù)集。你可以在填完表后下載它。可視化這些數(shù)據(jù),對(duì)一些易受影響的地區(qū)進(jìn)行預(yù)測(cè),可以防止恐怖襲擊,建立提前預(yù)警系統(tǒng)。
82. MNIST數(shù)據(jù)庫(kù)是機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)經(jīng)典。它是由一組帶標(biāo)簽的手寫字符組成,這對(duì)OCR算法來(lái)說(shuō)是必不可少的。如今,一些算法的判斷能力甚至比人類法官還要準(zhǔn)確!在將來(lái),我們會(huì)要求讓機(jī)器來(lái)做判決。
83. UCI為我們提供了 撲克牌數(shù)據(jù)集。我不擅長(zhǎng)玩撲克,但我敢肯定關(guān)于撲克一定會(huì)有一些有趣的分析可做。我聽說(shuō)在撲克界人類仍然比機(jī)器更有優(yōu)勢(shì),但我覺得這種說(shuō)法不太可靠。
84. UCI的另一個(gè)數(shù)據(jù)集:其中,圖像被簡(jiǎn)單的分為廣告和非廣告兩種。基于該數(shù)據(jù)集可以自動(dòng)攔截廣告或進(jìn)行垃圾郵件的檢測(cè),也許還能應(yīng)用到Google Glass中,過(guò)濾掉現(xiàn)實(shí)生活中的廣告,那一定是一件很酷的事情。我們看到的將不再是一個(gè)廣告牌,而是自然景觀的虛擬擴(kuò)展。
85. 還記得Star Wars Kid崩潰事件嗎?Attack of the Show將它評(píng)為了史上第一病毒視屏。Andy Baio策劃了這一事件,還杜撰了“Star Wars Kid”這一詞,并將他的 服務(wù)器日志公開發(fā)表。
86. 怎樣知道在Wordpress上誰(shuí)鏈接到了誰(shuí)(或者是某物)?可視化網(wǎng)絡(luò)是件很了不起的事情,但如果它能揭示一些關(guān)于“超節(jié)點(diǎn)”的信息,或許會(huì)更好,“超節(jié)點(diǎn)”是指被許多節(jié)點(diǎn)連接或者連接到許多節(jié)點(diǎn)的節(jié)點(diǎn)(也許兩者都有)。如果你有興趣, 也可以利用這些數(shù)據(jù)將不同的人歸類。
87. Obama是更喜歡石油大亨?還是極端環(huán)保主義者?或是玉米游說(shuō)團(tuán)體?是誰(shuí)在背后支持Herman Cain?我們已經(jīng)可以下載到 2012總統(tǒng)競(jìng)選的財(cái)務(wù)數(shù)據(jù),用來(lái)分析哪些行業(yè)偏向于哪位候選人想必是也極好的。
88. 哪所私立大學(xué)最有價(jià)值?
89. 哪所公立大學(xué)最有價(jià)值?
90. 按州統(tǒng)計(jì)的香煙數(shù)據(jù)。肯塔基州抽的最多,西弗吉尼亞州第二。 鑒于煙草的巨大社會(huì)危害,一個(gè)不錯(cuò)的分析也許可以挽救很多人的生命。
91. 在2008年12月5日,從Pirate Bay可以下載到什么?
92. 想要構(gòu)建一個(gè)Reddit推薦引擎嗎?(或換個(gè)說(shuō)法會(huì)更好——你覺得把那些愚蠢卻流行的意見過(guò)濾掉怎么樣?)不錯(cuò),用Redditor完全可以做到這一點(diǎn),Redditor會(huì)是個(gè)不錯(cuò)的推薦引擎。
93. 全球健康數(shù)據(jù)。用這些數(shù)據(jù)來(lái)確定改善世界健康的方法會(huì)很有效,像血吸蟲病控制倡議一樣,這一項(xiàng)目被GiveWell列為評(píng)價(jià)最高的慈善機(jī)構(gòu)之一。
94. 美國(guó)從1960年到2012年的犯罪事件。談?wù)摲缸镫m然在道德上令人反感,但在電視上節(jié)目開個(gè)玩笑還是無(wú)傷大雅的。
95. 發(fā)起一項(xiàng)為浴室中的Yelp運(yùn)動(dòng)怎么樣?
96. 你知道在加拿大,雜貨店的暢銷品是卡夫晚餐(aka通心粉和奶酪)嗎?我想知道它在比利時(shí)或者臺(tái)灣銷售的怎么樣,這里為我們提供了 部分超市的數(shù)據(jù)。
97. 火狐瀏覽器使用情況的數(shù)據(jù)。記錄比如選項(xiàng)卡的使用數(shù)量,活躍狀態(tài)的時(shí)間,隱私標(biāo)簽打開的數(shù)目。雖然隱私標(biāo)簽這一詞或許會(huì)讓一些人浮想聯(lián)翩,但用來(lái)比較互聯(lián)網(wǎng)與實(shí)際數(shù)據(jù)之間準(zhǔn)確度還是很不錯(cuò)的。
98. 非常強(qiáng)大的一個(gè)數(shù)據(jù):Mozilla將Mozilla和Eclipse中發(fā)現(xiàn)的 超過(guò)20萬(wàn)個(gè)bug放到一個(gè)數(shù)據(jù)集中。我很想看看哪些bug導(dǎo)致的奔潰最常見,以及如何預(yù)防這些奔潰,當(dāng)然也只有參考這些數(shù)據(jù),才能設(shè)計(jì)出更好的編程語(yǔ)言。
99. 如果你對(duì)設(shè)計(jì)調(diào)度算法感興趣的話,你會(huì)對(duì)這一消息感興趣: Google開放了他們?cè)诩荷献鳂I(yè)排序的數(shù)據(jù)集。開發(fā)針對(duì)數(shù)據(jù)集的算法可能會(huì)幫助未來(lái)驗(yàn)證你的發(fā)現(xiàn)。畢竟,明天的桌面系統(tǒng)很可能會(huì)像今天數(shù)據(jù)中心一樣強(qiáng)大。
100. Techcrunch開放了一個(gè)具有超過(guò)400 000家公司、投資者和企業(yè)家的檔案的數(shù)據(jù)集,此外還有45,000輪投資記錄,這或許是一個(gè)逆向發(fā)現(xiàn)市場(chǎng)需求和投資者的投資傾向的好方法。
101. 125萬(wàn)個(gè)delicious.com書簽。
102. 美國(guó)主要的軍事設(shè)施分布在哪?
103. 誰(shuí)是H1-B信用卡的接受者?你可能想知道一些國(guó)家是否接受信用卡,或者哪些公司接受大部分的信用卡消費(fèi)。
104. Twitter用戶很有可能被Hacker News的讀者跟蹤。
105. 這里有 1000年到1903年之間的所有地震數(shù)據(jù)。將這些數(shù)據(jù)“喂”給一個(gè)神經(jīng)網(wǎng)絡(luò),也許能看到一些關(guān)于地震的預(yù)測(cè)。
https://www.globalquakemodel.org/what/seismic-hazard/historical-catalogue/
106. 我常常想會(huì)不會(huì)有人做在線人格測(cè)試發(fā)現(xiàn)比大多數(shù)人更神經(jīng)質(zhì)?從很多在線性格測(cè)試項(xiàng)目中可以得到 大量可用的數(shù)據(jù),將性格測(cè)試的答案與大眾的答案進(jìn)行比較,就可以找出那些比較神經(jīng)質(zhì)的人。
107. 臟話表
原文連接:http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1
英文原文連接:100+ Interesting Data Sets for Statistics - rs.io
http://rs.io/100-interesting-data-sets-for-statistics/
---------------------------------------
相關(guān)文章:
人工智能深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在雙色球彩票中的應(yīng)用研究(一) - 流風(fēng),飄然的風(fēng) - 博客園
http://www.cnblogs.com/zdz8207/p/DeepLearning-NeuralNetworks.html
人工智能深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在雙色球彩票中的應(yīng)用研究(二) - 流風(fēng),飄然的風(fēng) - 博客園
http://www.cnblogs.com/zdz8207/p/LSTM-dl4j-caffeonspark-tensorflow.html
【參考】
http://www.ssqhm.com
總結(jié)
以上是生活随笔為你收集整理的各种数据集汇总——转载而来的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: c语言蛮力法实现背包问题
- 下一篇: 第十二题:设int x=1,float