机器学习,深度学习,免费数据集汇总
【第一波】
目前系統整理了一些網上開放的免費科研數據集,以下是分類列表以及下載地址,供高校和科研機構免費下載和使用。
金融
- 美國勞工部統計局官方發布數據
- 上證A股日線數據,1999.12.09 至 2016.06.08,前復權,1095支股票
- 深證A股日線數據,1999.12.09 至 2016.06.08,前復權,1766支股票
- 深證創業板日線數據,1999.12.09 至 2016.06.08,前復權,510支股票
- MT4平臺外匯交易歷史數據
- Forex平臺外匯交易歷史數據
- 幾組外匯交易逐筆(Ticks)數據
- 美國股票新聞數據【Kaggle數據】
- 美國醫療保險市場數據【Kaggle數據】
- 美國金融客戶投訴數據【Kaggle數據】
- Lending Club 網貸違約數據【Kaggle數據】
- 信用卡欺詐數據【Kaggle 數據】
- 某個金融產品實時交易數據【Kaggle數據】
- 美國股票數據XBRL【Kaggle數據】
- 紐約股票交易所數據【Kaggle數據】
交通
- 2013年紐約出租車行駛數據
- Udacity自動駕駛數據
- 紐約 Uber 接客數據 【Kaggle數據】
- 英國車禍數據(2005-2015)【Kaagle數據】
- 芝加哥汽車超速數據【Kaggle數據】
商業
- Amazon 食品評論數據【Kaggle數據】
- Amazon 無鎖手機評論數據【Kaggle數據】
- 美國視頻游戲銷售和評價數據【Kaggle數據】
- Kaggle 各項競賽情況數據【Kaggle數據】
推薦系統
- Netflix 電影評價數據
- MovieLens 20m 電影推薦數據集
- WikiLens
- Jester
- HetRec2011
- Book Crossing
- Large Movie Review
醫療健康
- 人識別物體時大腦核磁共振影像數據
- 人理解單詞時大腦核磁共振影像數據
- 心臟病心房圖像及標注數據
- 細胞病理識別
- FIRE 視網膜眼底病變圖像數據
- 食物營養成分數據 【Kaggle數據】
- EGG 大腦電波形狀數據【Kaggle數據】
圖像數據
綜合圖像
- Visual Genome 圖像數據
- Visual7w 圖像數據
- COCO 圖像數據
- SUFR 圖像數據
- ILSVRC 2014 訓練數據(ImageNet的一部分)
- PASCAL Visual Object Classes 2012 圖像數據
- PASCAL Visual Object Classes 2011 圖像數據
- PASCAL Visual Object Classes 2010 圖像數據
- 80 Million Tiny Image 圖像數據【數據太大僅有介紹】
- ImageNet【數據太大僅有介紹】
場景圖像
- Street Scences 圖像數據
- Places2 場景圖像數據
- UCF Google Street View 圖像數據
- SUN 場景圖像數據
- The Celebrity in Places 圖像數據
Web標簽圖像
- HARRISON 社交標簽圖像
- NUS-WIDE 標簽圖像
- Visual Synset 標簽圖像
- Animals With Attributes 標簽圖像
人形輪廓圖像
- MPII Human Shape人體輪廓數據
- Biwi Kinect Head Pose 頭部姿勢數據
- 上半身人像數據
- INRIA Person 數據集
視覺文字識別圖像
- Street View House Number 門牌號圖像數據
- MNIST 手寫數字識別圖像數據
- 3D MNIST 數字識別圖像數據【Kaggle數據】
- MediaTeam Document 文檔影印和內容數據
特定一類事物圖像
- 著名的貓圖像標注數據
- Caltech-UCSD Birds200 鳥類圖像數據
- Stanford Car 汽車圖像數據
- Cars 汽車圖像數據
- MIT Cars 汽車圖像數據
- Stanford Cars 汽車圖像數據
- Food-101 美食圖像數據
- 17_Category_Flower 圖像數據
- 102_Category_Flower 圖像數據
- UCI Folio Leaf 圖像數據
- Labeled Fishes in the Wild 魚類圖像
- 美國 Yelp 點評網站酒店照片
- CMU-Oxford Sculpture 塑像雕像圖像
- Oxford-IIIT Pet 寵物圖像數據
材質紋理圖像
- CURET 紋理材質圖像數據
- ETHZ Synthesizability 紋理圖像數據
- KTH-TIPS 紋理材質圖像數據
- Describable Textures 紋理圖像數據
物體分類圖像
- COIL-20 圖像數據
- COIL-100 圖像數據
- Caltech-101 圖像數據
- Caltech-256 圖像數據
- CIFAR-10 圖像數據
- CIFAR-100 圖像數據
- STL-10 圖像數據
- LabelMe_12_50k圖像數據
- NORB v1.0 圖像數據
- NEC Toy Animal 圖像數據
- iCubWorld 圖像分類數據
- Multi-class 圖像分類數據
- GRAZ 圖像分類數據
人臉圖像
- IMDB-WIKI 500k+ 人臉圖像、年齡性別數據
- Labeled Faces in the Wild 人臉數據
- Extended Yale Face Database B 人臉數據
- Bao Face 人臉數據
- DC-IGN 論文人臉數據
- 300 Face in Wild 圖像數據
- BioID Face 人臉數據
- CMU Frontal Face Images
- FDDB_Face Detection Data Set and Benchmark
- NIST Mugshot Identification Database
- Faces in the Wild 人臉數據
- CelebA 名人人臉圖像數據
- VGG Face 人臉圖像數據
姿勢動作圖像
- HMDB_a large human motion database
- Human Actions and Scenes Dataset
指紋識別
- NIST FIGS 指紋識別數據
其它圖像數據
- Visual Question Answering 圖像數據
視頻數據
綜合視頻
- DAVIS_Densely Annotated Video Segmentation 數據
- YouTube-8M 視頻數據集【數據太大僅有介紹】
- YouTube 網站視頻備份【數據太大僅有介紹】
人類動作視頻
- Microsoft Research Action 人類動作視頻數據
- UCF50 Action Recognition 動作識別數據
- UCF101 Action Recognition 動作識別數據
- UT-Interaction 人類動作視頻數據
- UCF iPhone 運動中傳感器數據
- UCF YouTube 人類動作視頻數據
- UCF Sport 人類動作視頻數據
- UCF-ARG 人類動作視頻數據
- HMDB 人類動作視頻
- HOLLYWOOD2 人類行為動作視頻數據
- Recognition of human actions 動作視頻數據
- Motion Capture 動作捕捉視頻數據
- SBU Kinect Interaction 肢體動作視頻數據
行人檢測視頻
- UCSD Pedestrian 行人視頻數據
- Caltech Pedestrian 行人視頻數據
- ETH 行人視頻數據
- INRIA 行人視頻數據
- TudBrussels 行人視頻數據
- Daimler 行人視頻數據
密集人群視頻
- Crowd Counting 高密度人群圖像
- Crowd Segmentation 高密度人群視頻數據
- Tracking in High Density Crowds 高密度人群視頻
其它視頻
- Fire Detection 視頻數據
?
音頻數據
綜合音頻
Google Audioset 音頻數據【數據太大僅有介紹】
語音識別
- Sinhala TTS 英語語音識別
- TIMIT 美式英語語音識別數據
- LibriSpeech ASR corpus 語音數據
- Room Impulse Response and Noise 語音數據
- ALFFA 非洲語音數據
?
自然語言處理
- RCV1英語新聞數據
- 20news 英語新聞數據
- First Quora Release Question Pairs
- JRC Names各國語言專有實體名稱
- Multi-Domain Sentiment V2.0
- LETOR 信息檢索數據
- Yale Youtube Vedio Text
- 斯坦福問答數據【Kaggle數據】
- 美國假新聞數據【Kaggle數據】
- NIPS會議文章信息數據(1987-2016)【Kaggle數據】
- 2016年美國總統選舉辯論數據【Kaggle數據】
?
社會數據
- 希拉里郵件門泄露郵件
- 波士頓 Airbnb 公開數據【Kaggle數據】
- 世界各國經濟發展數據【Kaagle數據】?
- 世界大學排名芝加哥犯罪數據(2001-2017)【Kaagle數據】
- 世界范圍顯著地震數據(1965-2016)【Kaagle數據】
- 美國嬰兒姓名數據【Kaagle數據】
- 全世界鯊魚襲擊人類數據【Kaagle數據】
- 1908年以來空難數據【Kaagle數據】
- 2016年美國總統大選數據【Kaagle數據】
- 2013年美國社區統計數據【Kaagle數據】
- 歐洲足球運動員賽事表現數據【Kaagle數據】
- 美國環境污染數據【Kaagle數據】
- 美國H1-B簽證申請數據【Kaggle數據】
- IMDB五千部電影數據【Kaggle數據】
- 2015年航班延誤和取消數據【Kaggle數據】
- 兇殺案報告數據【Kaggle數據】
- 人力資源分析數據【Kaggle數據】
- 某人基因序列數據【Kaggle數據】
- 美國費城犯罪數據【Kaggle數據】
- 安然公司郵件數據【Kaggle數據】
- 歷史棒球數據【Kaggle數據】
- 美聯航 Twitter 用戶評論數據【Kaggle數據】
- 波士頓 Airbnb 公開數據【Kaggle數據】
?
處理后的科研和競賽數據
- NIPS 2003 屬性選擇競賽數據http://dataju.cn/Dataju/web/datasetInstanceDetail/370
- 臺灣大學林智仁教授處理為 LibSVM 格式的分類建模數據?http://dataju.cn/Dataju/web/datasetInstanceDetail/296
- Large-scale 分類建模數據http://dataju.cn/Dataju/web/datasetInstanceDetail/297
- 幾個UCI 中 large-scale 分類建模數據http://dataju.cn/Dataju/web/datasetInstanceDetail/298
- Social Computing http://dataju.cn/Dataju/web/datasetInstanceDetail/299
- Data Repository 社交網絡數據http://dataju.cn/Dataju/web/datasetInstanceDetail/300
- 貓和狗分類識別競賽數據【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/318
- DSTL 衛星圖像識別競賽數據【Kaggle競賽】http://dataju.cn/Dataju/web/datasetInstanceDetail/328
- 根據手機應用軟件使用行為預測用戶性別年齡競賽數據【Kaggle競賽】?http://dataju.cn/Dataju/web/datasetInstanceDetail/332
- 人臉關鍵點標定競賽數據【Kaggle競賽】?http://dataju.cn/Dataju/web/datasetInstanceDetail/331
- Kaggle競賽數據合輯(部分競賽數據)http://dataju.cn/Dataju/web/datasetInstanceDetail/368
【第二波】
ImageNet挑戰賽中超越人類的計算機視覺系統
 微軟亞洲研究院視覺計算組基于深度卷積神經網絡(CNN)的計算機視覺系統,在ImageNet 1000挑戰中首次超越了人類進行對象識別分類的能力。他們的系統在ImageNet 2012分類數據集中的錯誤率已降低至4.94%。
 這個數據集包含約120萬張訓練圖像、5萬張驗證圖像和10萬張測試圖像,分為1000個不同的類別。
 該研究團隊由微軟亞洲研究院研究員孫劍、何愷明以及來自西安交通大學和中國科學技術大學的實習生張祥雨和任少卿組成。
百度網盤里有Imagenet數據下載(有140G以上):鏈接:http://pan.baidu.com/s/1pJT8kLd?密碼:12kx
======================================
 公開的海量數據集 Public Research-Quality Datasets
海量數據(又稱大數據)已經成為各大互聯網企業面臨的最大問題,如何處理海量數據,提供更好的解決方案,是目前相當熱門的一個話題。類似MapReduce、 Hadoop等架構的普遍推廣,大家都在構建自己的大數據處理,大數據分析平臺。
相應之下,目前對于海量數據處理人才的需求也在不斷增多,此類人才可謂炙手可熱!越來越多的開發者把目光轉移到海量數據的處理上。但是不是所有人都能真正接觸到,或者有機會去處理海量數據的,所以就需要一些公開的海量數據集來研究。
在Quora上有人就問到,如何獲取海量數據集。此問題得到了很多人的關注。具體可以看看回答,數據集的種類多種多樣,有化學分析,基因遺傳等等,從中你肯定能得到自己想要個數據集。?
 Where can I get large datasets open to the public?
首先說說幾個收集數據集的網站:?
 1、Public Data Sets on Amazon Web Services (AWS)?
http://aws.amazon.com/datasets?
 Amazon從2008年開始就為開發者提供幾十TB的開發數據。
2、Yahoo! Webscope?
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets?
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection?
http://snap.stanford.edu/data/index.html
再就是說說幾個跟互聯網有關的數據集:?
 1、Dataset for "Statistics and Social Network of YouTube Videos"?
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs?
http://ita.ee.lbl.gov/html/contrib/WorldCup.html?
 這個是1998年世界杯期間的數據集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。
3、Page view statistics for Wikimedia projects?
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP?
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet?
http://blog.livedoor.jp/techblog/archives/65836960.html
海量圖像數據集:?
 1、ImageNet?
http://www.image-net.org/?
 包含1400萬的圖像。
2、Tiny Images Dataset?
http://horatio.cs.nyu.edu/mit/tiny/data/index.html?
 包含8000萬的32x32圖像。
3、 MirFlickr1M?
http://press.liacs.nl/mirflickr/?
 Flickr中的100萬的圖像集。
4、 CoPhIR?
http://cophir.isti.cnr.it/whatis.html?
 Flickr中的1億600萬的圖像
5、SBU captioned photo dataset?
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/?
 Flickr中的100萬的圖像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)?
http://cpl.cc.gatech.edu/projects/VisualSynset/?
 包含2億圖像
7、NUS-WIDE?
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm?
 Flickr中的27萬的圖像集。
8、SUN dataset?
http://people.csail.mit.edu/jxiao/SUN/?
 包含13萬的圖像
9、MSRA-MM?
http://research.microsoft.com/en-us/projects/msrammdata/?
 包含100萬的圖像,23000視頻
10、TRECVID?
http://trecvid.nist.gov/
Stack Overflow Dump Files?
 7.3G stackoverflow.com-Posts.7z?
 573.1K stackoverflow.com-Tags.7z?
 153.0M stackoverflow.com-Users.7z?
 2.2G stackoverflow.com-Comments.7z
截止目前好像還沒有國內的企業或者組織開放自己的數據集。希望也能有企業開發自己的數據集給研究人員使用,從而推動海量數據處理在國內的發展!
2014/07/07 雅虎發布超大Flickr數據集 1億的圖片+視頻?
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================
 數據挖掘數據集下載資源
1、氣候監測數據集?http://cdiac.ornl.gov/ftp/ndp026b
2、幾個實用的測試數據集下載的網站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
 http://www.phys.uni.torun.pl/~duch/software.html
 在下面的網址可以找到reuters數據集:http://www.research.att.com/~lewis/reuters21578.html
 該網址有各種數據集:http://kdd.ics.uci.edu/summary.data.type.html
 進行文本分類,還有一個數據集是可以用的,即rainbow的數據集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的機器學習數據集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
5、關于基金的數據挖掘的網站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、進行文本分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
 http://www.web-caching.com/traces-logs.html
 http://www-2.cs.cmu.edu/webkb
 http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
 http://www.cs.cornell.edu/projects/kddcup/index.html
7、時間序列數據的網址
http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori算法的測試數據
http://www.almaden.ibm.com/cs/quest/syndata.html
9、數據生成器的鏈接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
 10、關聯:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
 1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
 2。A jarfile containing 37 regression problems, obtained from various sources
 http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
 3。A jarfile containing 30 regression datasets collected by Luis Torgo
 http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌癥基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融數據:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一個很好的資源網址為:http://kdd.ics.uci.edu/,里面包含的數據資源按應用領域劃分的。
============================================================================================
1、Public Data Sets on Amazon Web Services (AWS)?
http://aws.amazon.com/datasets?
 Amazon從2008年開始就為開發者提供幾十TB的開發數據。
2、Yahoo! Webscope?
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets?
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection?
http://snap.stanford.edu/data/index.html
再就是說說幾個跟互聯網有關的數據集:?
 1、Dataset for "Statistics and Social Network of YouTube Videos"?
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs?
http://ita.ee.lbl.gov/html/contrib/WorldCup.html?
 這個是1998年世界杯期間的數據集。從1998/04/26 到 1998/07/26 的92天中,發生了 1,352,804,107次請求。
3、Page view statistics for Wikimedia projects?
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP?
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet?
http://blog.livedoor.jp/techblog/archives/65836960.html
海量圖像數據集:?
 1、ImageNet?
http://www.image-net.org/?
 包含1400萬的圖像。
2、Tiny Images Dataset?
http://horatio.cs.nyu.edu/mit/tiny/data/index.html?
 包含8000萬的32x32圖像。
3、 MirFlickr1M?
http://press.liacs.nl/mirflickr/?
 Flickr中的100萬的圖像集。
4、 CoPhIR?
http://cophir.isti.cnr.it/whatis.html?
 Flickr中的1億600萬的圖像
5、SBU captioned photo dataset?
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/?
 Flickr中的100萬的圖像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)?
http://cpl.cc.gatech.edu/projects/VisualSynset/?
 包含2億圖像
7、NUS-WIDE?
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm?
 Flickr中的27萬的圖像集。
8、SUN dataset?
http://people.csail.mit.edu/jxiao/SUN/?
 包含13萬的圖像
9、MSRA-MM?
http://research.microsoft.com/en-us/projects/msrammdata/?
 包含100萬的圖像,23000視頻
10、TRECVID?
http://trecvid.nist.gov/
Stack Overflow Dump Files?
 7.3G stackoverflow.com-Posts.7z?
 573.1K stackoverflow.com-Tags.7z?
 153.0M stackoverflow.com-Users.7z?
 2.2G stackoverflow.com-Comments.7z
截止目前好像還沒有國內的企業或者組織開放自己的數據集。希望也能有企業開發自己的數據集給研究人員使用,從而推動海量數據處理在國內的發展!
2014/07/07 雅虎發布超大Flickr數據集 1億的圖片+視頻?
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================
數據挖掘數據集下載資源
1、氣候監測數據集?http://cdiac.ornl.gov/ftp/ndp026b
2、幾個實用的測試數據集下載的網站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
 http://www.phys.uni.torun.pl/~duch/software.html
 在下面的網址可以找到reuters數據集:http://www.research.att.com/~lewis/reuters21578.html
 該網址有各種數據集:http://kdd.ics.uci.edu/summary.data.type.html
 進行文本分類,還有一個數據集是可以用的,即rainbow的數據集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的機器學習數據集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
5、關于基金的數據挖掘的網站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、進行文本分類&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
 http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
 http://www.web-caching.com/traces-logs.html
 http://www-2.cs.cmu.edu/webkb
 http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
 http://www.cs.cornell.edu/projects/kddcup/index.html
7、時間序列數據的網址
http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori算法的測試數據
http://www.almaden.ibm.com/cs/quest/syndata.html
9、數據生成器的鏈接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
 10、關聯:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
 1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
 2。A jarfile containing 37 regression problems, obtained from various sources
 http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
 3。A jarfile containing 30 regression datasets collected by Luis Torgo
 http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌癥基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融數據:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一個很好的資源網址為:http://kdd.ics.uci.edu/,里面包含的數據資源按應用領域劃分的。
【第三波】來一波另類數據集
100+詭異的數據集,20萬Eclipse Bug、死囚遺言等
Robert Seaton整理了100多個最有趣的數據集,其中包括Jeopardy真題,死囚的最后一句話,20萬個Eclipse Bug,足球比賽相關,柏拉圖式的愛情,太陽系以外的行星,11.3萬個恐怖事件等。
 在數據爆發式增長的逼迫下,當下數據分析能力已得到長足的發展,機器學習更成為數據處理中必不可缺少的一環。這里,為大家分享Robert Seaton在其個人博客上整理的100+最有趣的數據集,從柏拉圖式的愛情到政治競選再到死刑囚犯,可謂是應有盡有,旨在給大家的模型訓練的過程增加一些樂趣。
在尋找數據集?這里給你準備了100多個最有趣的,從柏拉圖式的愛情到政治競選再到死刑囚犯,應有盡有。
 個人對“信息時代”這個名詞非常不感冒,就好像隨便來了個人,往過一坐,然后說:“當下的信息已經非常多了,我們該如何形容?我覺得‘信息時代’這個詞不錯。”個人認為這是極度不負責的,沒有創意,命名者太懶了;其次,如此多的數據帶來更多的是處理上的無助和絕望,用“drinking from the firehose” 比喻起來或許更貼切一點。因此,與其叫“信息時代”,我們不妨稱之為“飽和時代”,或者是“泛濫時代”。然而,不管稱之為什么,毫無疑問的是,我們已經被數據淹沒了。這里為大家分享100+最有意思的數據集。無他,在提供數據分析材料的同時,給大家增加一點樂趣。
100+ Most Interesting Data Sets
 1. 如果你是智力競賽節目Jeopardy的參賽選手,你該如何準備?你可以下載這個數據集—— 215930個Jeopardy真題。把這個數據集放到記憶系統中,你就是下一個贏家。
2. 想知道被判死刑是什么樣的感受?看看這個數據集—— 德克薩斯州將1984年以來每個死刑犯的最后一句放到了網上。借助這些數據,我們可以進行臨刑者的情感分析。
3. 談到監獄,還有很多關于囚犯的信息,如“犯罪史,家庭背景和個人性格,藥物史、酗酒史、治療方案,槍支所有權和使用史、監獄活動,項目,服務”。
4. 想讀他人的郵件么?即使你想,你也沒有那個技術,更沒有哪個膽量去。來看看安然公司的文集數據庫吧。這個數據庫包括來自 150多個使用者的100萬封郵件,大部分郵件來自Enron公司的管理層,以文件夾的形式呈現。
5. 想了解互聯網用戶都關心什么?這個問題不好回答,我們可以先回答一個更簡單的問題:Reddit(新聞網站)用戶都關心什么。有人將 Reddit上250萬個帖子進行了分析,公布到了GitHub上。通過這些數據,我們可以了解用戶對貓的喜愛程度,一個數據是否支持r/circlejerk。
6. 談到貓,還有一個數據集上 10000張有注釋的貓圖片。當我們想訓練機器人消滅除了貓以外的所有生物時,這個數據集會非常有用。
 7. 如果你對構建金融算法有興趣,或者只是對預測美國最大經濟作物的套利機會感興趣,那你應該看看 這個數據集,該數據集包含了從2010年9月2日到現在的所有大麻價格數據。
8. 哪些人用了哪些藥物?多長時間用一次?
9. 有關象棋比賽的記錄最早可追溯到10世紀,產生于巴格達的歷史學家和一位學者之間博弈。從那以后,記錄象棋比賽中的每一步成為一種傳統——尤其是對于那些有重大意義的比賽,比如兩個強勁的對手之間的勝負之戰。因此,今天的象棋學生們可以借助包含這些比賽記錄的豐富數據集進行象棋學習。“Million Base”或許是世界上最大的象棋比賽數據集,聲稱有220萬條比賽記錄,你可以通過 此鏈接下載該數據集。
10. 說起比賽這個主題,少不了足球,我已經找到了 關于足球比賽、足球運動員、球隊、得分等信息的數據集。如果這些還不夠,你還可以利用S occermetrics API的python包獲取更多的數據。我想只要教練們想要戰勝對手,這些數據遲早會發揮作用。通常我們說:極客和賭徒區別,就在于極客們通過構建分析模型獲得勝利。
11. Google已經開放了所有的Google Book字串數據(n-gram)。每個字串實際上是由n個單詞組成的短語,開放的數據集中包括了1-gram到5-gram等不同長度的字串數據。該數據集的建立是“基于1500年到2008年之間出版的520萬冊書籍”。我們可以通過這一數據集來判斷哪些短語被過度使用,哪些短語已經過時,哪些短語面臨被淘汰的危險(友情提醒:有些人甚至已經搶先注冊了clichealert.com域名)。
12. 亞馬遜有大量 開放的數據集(雖說是免費的,但免費只是針對AWS的用戶),該數據集包括了從超過280萬個網頁上抓取的數據。分析抓取的數據,買下有升值空間的網址后,你可以再賣給那些需要做SEO的人,或者你也可以自己用來創建下一個Google。
13. 少數民族的計算機科學跳級考試成績如何? 你可以自己查一下然后告訴我。
14. 有一個百萬歌曲(Million Song)數據集,包含了一百多首不同的歌曲,包括“舞曲”。如果配備一個晚會專用的媒體播放機可能會更好,這些數據還適用于聚類算法(比如,自動類型檢測),但我不太確定能起到多大的作用。許多人試過基于這些數據構建推薦算法,包括 Kagglers和 Cornell的一個團隊。一種做法是:按照時間,比如按年分析音樂——70年代、80年代或者90年代(或者找出“模仿-領導“效應,比如一首歌因為風格獨特而流行,還會有很多模仿者)。
15. 說道音樂的數據集,last.fm有大量可用的音樂數據。last.fm從它的36萬用戶那里收集數據,這些數據可能是以“用戶,藝術家,以及歌曲的播放信息”這樣的形式呈現,這時候用聚類算法自動給音樂分類或者構建推薦系統會更好。
16. 我一想起極客,總會聯想到數學和計算機黑客,但是極客遠不止這么簡單。CescRosselló、Ricardo Alberich和Joe Miro描繪出了一個神奇宇宙的“社交網絡圖”,使用 Facebook的社交網絡圖,還可以做一個新的“什么是超級英雄?”測驗。
15. Yelp有免費的數據子集,包括餐館排名和評論數據。通過挖掘Twitter來獲取你需要的數據,可以讓你擁有可以匹敵Yelp的競爭力。
18.如果你對數據(元數據)中的數據感興趣,你或許也會對Jürgen Schw?rzler感興趣,Jürgen Schw?rzler是Google公共數據團隊中的一名統計學家,他整理出一個排名,記錄下 常被搜索的數據。前5位分別是學校對比、失業、人口、營業稅和工資。
19. 我的讀者中無疑有一些邪惡的天才,當然也存在一些想要拯救世界的英雄。這兩類人可能都會對超級智能機器人感興趣,但是要建造這樣的一個機器人,你必須教會它事實,然而,手動輸入1千萬條事實是一件痛苦的事情。還好, Freebase為我們減少了工作量,它為我們免費開放的數據集包含了19億條事實。
20. 你或許沒有打算建造一個超級機器人,只要比一般的數學家聰明一點就行。如果是這種情況的話,那你就需要教你的機器人許多數學知識(定義和定理),因此,你可能需要了解一下 Mizar項目,該項目為我們提供了9400條定義和49000條定理。
21. 那我們假設你建造出了這樣的機器“數學家”,它能在證明上為你提供幫助,但那又能怎樣?你還需要一個能和你在更深層次交流的人,一個能對某些抽象的主題進行概括的人。這樣,你就需要給你的機器人“喂”維基百科的數據了,所有 維基百科的數據都是免費開放的。
22. 當你對數學和維基百科都厭倦時(事實上,這些是掙不到錢的),你會決定成為一名軟件工程師。這時,你面臨讓一個對編程沒有基本概念的機器來教你編程的尷尬,在哪能找到相關的數據呢?你可以下載 730萬個StackOverflow問題(這些都是免費的),所以你可以從StackOverflow和StackExchange兩處得到信息來“喂”你的機器(另外還有來自Cross Validated的數據,等等)。
23. 你想過研究一下正真的友誼嗎?(試一下吧,實現你成為社會科學家的愿望)。你了解正真的、柏拉圖式的愛情(像海豚之間的那種感情)嗎?即使暫時還不了解,你也完全可以做到,這要感謝謙虛的作者本人,當然還得感謝Mark Newman,他構建了一個由6 2只海豚組成的親密的社區——New Zealand,遠離偽裝和不信任。
24. 是不是左傾的博客通常會鏈接到其他左傾的博客,而不是右傾的博客?好吧,其實我也不知道,但是這聽起來還是很合理的。要特別感謝LadaAdamic的許可,你可以下 載2005年記錄下的美國政治超鏈接網絡。
25. 誰更友好一些:是爵士樂音樂家還是海豚?你會發現我們應該將之前提到的海豚數據集和Pablo M. Gleiser、Leon Danon的 爵士樂音樂家網絡數據集結合起來分析。
26. 那20世紀30年代的南方婦女和囚犯呢?誰更友好?兄弟會成員和HAM無線電話務員,誰又更友好呢?這些問題都可以用 網絡數據集來解決。
27. 將 海豚與Slashdotters比較,結果又會怎么樣呢?
28.Web2.0網站(比如Reddit)有時候會被用“投票環”這種方式作弊,很多人故意互相投票,而不在乎內容質量。我們經常會想在學術界會不會也出現這樣的情況。Stanford大學有一個在線 Arxiv’s High Energy Physics文獻引用網,你會從中發現類似的現象。
29. 我假設讀者們都非常聰明,但也許你們還想變得更加富有,這樣你就能創建下一個Bill and Melinda Gates基金會,然后拯救世界。那也許你應該開發一些新奇的交易算法。但是,在這種情況下,依據市場歷史數據檢驗一樣你的策略會更好,你可以通過此鏈接獲取市場數據。
30. 公開產品數據( Open Product Data)網站旨在為每個品牌提供免費的條形碼數據。經營理念是:建立一個特別的紋身店,只紋條形碼,但允許客戶選擇他們想要的產品,想想看:“你的條形碼表達的意義是什么?”“這樣的條形碼就像是一種信仰。”
31. 做中期天氣預測的European Center對收集天氣數據情有獨鐘。如果你要問這和天氣有關嗎?其實我主要想談一些我認識到的 關于天氣數據的有趣應用:金融行業。我很尊敬金融,主要是因為有些人做了一些瘋狂的事情。我聽說過中微子的應用實際上是 “因為金融”。你的算法可以解決購買印尼芝麻種子期貨問題嗎?有了天氣數據,也許就可以。
32. 如果你想了解 食物的營養數據,美國農業部可以為你提供數據。你可以開發一個判斷用戶是否類食物過敏的手機APP。然后說服學校給每個學生購買這個APP。
33. 想精通語言,字典必不可少,但談到 單詞數據,沒有什么字典比WordNet更優秀。WordNet側重于語言的結構,這點其它字典無法比擬。
34. NASA公布了 太陽系以外的行星數據集。買一個飛船,你可以飛到那里建一個秘密基地。
35. 聯邦鐵路管理局有“ 關于鐵路事故和意外的安全信息,庫存和穿過的高速公路數據”。一些組織(如紐約時報)可以通過這些數據判斷貧窮地區的人們是否更容易發生火車事故等。
36. 如果你需要關于 圖書的數據,你可以到Open Library下載免費的數據集。
37. 美國的無人機殺害了誰?如果你 對巴基斯坦地區感興趣,你可以查看這個數據集。
38. 如果你想通過自動導入引用數據構建Papers2的競爭對手,你可以使 用CrossRef的元數據查詢。
39. Mnemosyne是一個虛擬卡片應用,通過間隔重復輔助記憶。幾年來,這個項目一直在搜索用戶數據,現在 gwern公司同意將這些數據免費公開若干月。研究者們可以在這些數據上運行機器學習算法,了解更多關于人類記憶的信息。
40. 婚禮上邀請賈斯丁?比伯要花多少錢? Priceconomics網站列舉了雇傭各種明星的價格。你可以借助這些數據計算流行度和價格的比率。
41. 有些數據集可以更好的預測股市。2011年, 研究員發現他們可以通過分析推特數據預測股市:他們分析與上市 公司相關的推文,然后計算一個“情緒得分”,通過這個得分預測股市。
42. 2014年,Clifford Winston和Fred Mannering指出,美國在車輛交通上每年花費千億。我們可以通過數據集提高交通效率。例如,我們可以通過對歷史交通數據進行算法分析,預測交通擁擠時段、路段。 data.gov網站提供了相關數據。
43. 如果你想開發一個跟蹤實時路況的app,你需要 不同的數據源。
44. 如果你想開發反垃圾軟件服務,或者只是分析通常垃圾郵件的內容,你需要數據。 UCIrvine提供這些數據。
45. 如果你想做反垃圾短信服務,你依舊可以找到 相關數據。
46. 有大量的數據可被R操作,你所需的只是安裝一個包。 Ecdat是其中的一個包,包括大量的計算數據。我還見到過對數學水平和抽煙量關系的分析。
?
47. 有沒有想過一個人會參加多個公司的董事會,比如:Condoleezza Rice(美國前國務卿賴斯)加上和她密切相關的政府監控,或許這對于Dropbox來說不能算是最好的選擇。好吧,有了 這個數據集,你也可以做到,但這只針對挪威——因為該數據集是由挪威的上市公司組成的網絡數據。
48. 有沒有看過:地方政府會根據一個人的社會關系來判斷某人是不是恐怖分子?實際上, 你也可以得到這些數據,分析出恐怖分子的社交網絡。
49. 圍繞維基百科的官僚機構一直存在很大的爭論。如何才能成為一個真正的維基百科大人物?誰才是維基百科最理想的管理者?當然,可以通過投票, 數據可以免費下載。
50. 哈佛大學開放了哈佛大學圖書館持有的“ 超過1200萬的材料數據記錄”數據集,包括了書籍、期刊、電子資源、手稿、檔案材料、音頻、視頻等各種形式的資料。
51. 如果你需要為學生提供一個小型數據集,可以看一下 DASL。比如解決這樣一個問題: 由不孕雄性野馬主導野馬群體會不會降低野馬群體的規模?
52. GET-Evidence已經提供了可下載的 公共基因組。我懷疑Steven Pinker的個人數據也在其中,或許你也可以克隆一個自己。
53. 說到基因組,已經有1000個基因組項目提供了大約260TB可供下載的數據。
54. 在列出的這些數據集中要說什么是最小數據集, 或許就是泰坦尼克號上男性和女性的幸存率,女乘客幸存率是男乘客的四倍。
55. 你想過對食物進行具體細分嗎?如果是,那就恭喜你了,你可以在此處下載 相關數據集(感謝加拿大)。
57. 有一個與前者類似的數據庫,不過記錄是 人體內代謝物的相關數據。我不確定你可以用這些數據做什么,但也許有人可以用這個來進行病毒式營銷——xxx營養之道。?
 58. 參考能量解集數據集包括大概 500G關于家庭能量使用的數據。我們可以利用這些數據提高家庭能量效率,或者對家庭能量費用消耗進行可視化展示。
59. 開發了一個新的圖像壓縮算法,需要數據進行測試?試試 CSAIL的小圖像數據集。
60. 如果覺得這些圖像太小了,試試 ImageNet數據集。如果你想訓練一個算法識別獨角鯨,可以先用這些數據訓練。
61. 還不夠?試試 維基百科所有的圖片。
62. 假設你在 構建下一代圖書閱讀器,你希望段落可以自動與相應的維基百科文章相關聯。怎么做?斯坦福大學和谷歌研究中心已經搭建了 英文段落映射維基文章的數據庫,你可以下載他們的 論文。
63. 俄羅斯搜索引擎Yandex提供了一系列 搜索數據。也就是,如果一個人搜索了關鍵詞,他們會點擊哪些內容?不過,提供的都是俄羅斯人的搜索結果。
64. 人們通常在維基百科上做哪些編輯修訂? 也有數據庫是關于這一內容的。
65. 谷歌有一個 面向數據集的搜索引擎,你造么?
66. Pew研究機構有很多免費的數據集,其中包括他們的 “全球態度項目”數據集。通過這個數據集我們可以了解:世界是否變得越來越進步?隨著時間的推移,人們對宗教的態度是如何變化的?
67. 談到公眾態度隨時間的變化,你可以下載從 1972年到2012年的綜合社會調查數據集,這個數據集也可以回答這兩個問題。
68. 有一個有趣的數學問題叫名人問題,你需要找出一個每個人都認識,但是不認識任何人的人。但生活中真的有名人問題么?試試 雅虎的明星臉集。
69. 需要2009年以來的十億個網頁?需要訓練一個從不停止的語言學習者NELL? 是的,你可以做到。
70. 你知不知道你可以 下載Arxiv上所有的PDF?一旦我們可以教會機器自然語言,我們就可以讓計算機閱讀所有文檔為我們提取重點。
71. 如果你需要任何 產業的經濟狀況數據,試試census.gov的行業統計信息。如果經濟狀況不好,你會在數據中找到證據。
72. 你可以下載大量 Usenet帖子的數據。這些數據對某些文本分析項目或機器學習算法(如拼寫檢查)很有用。
73. Nick Bostrom有一篇很有意思的文章 “預防人類滅絕是頭等大事”。該文章提出,考慮到人類滅絕的危害,再小的滅絕危險都是需要警惕的。通過分析從 公元前2500年到2012年流星撞擊地球記錄,我們可以更好的應對這個問題。
74. 性別和精神疾病對犯罪影響有多大? 有數據集是針對這個問題的。
75. 談到精神疾病,如果你想了解精神疾病是如何影響少數民族的, 試試這個數據庫。
76. 現在有很多孤男寡女,其中不乏一些具備卓越分析的人。 試試這個數據集“對比傳統夫婦和不傳統夫婦,美國人是如何遇到他們另一半的”,尋找遇到另一半的最好辦法。?
 77. 你可以通過此鏈接下載大量所謂的 “青少年健康”的數據,而且還包括了大量關系數據和生物指標數據。
78. 我有一個問題:現代工作與過去工作相比,哪個更糟糕? 有五組調查調查了關于不同職業群體對該問題的回答,我已經看到了這樣一篇文章——“我們可以告訴你:昨天是不是比今天更好?”
79. 斯坦福大學有 3500萬條亞馬遜商品評價可供下載。你可以用這個做很多事情:使用它來改善推薦系統的算法,找出評論中是否存在“模仿-領袖”效應(比如:早期的積極評價能否帶來更多的積極評價?)
80. 基于我過去的一些研究,搜索關鍵字 “關于連環殺手的數據集”時發現兩個特點:1)很具體;2)很流行,但我希望這和人的品味沒有太大關系。當然,我找到了相關的數據集,在此特別感謝連環殺手信息中心。
81. 這確實是一個讓人有些毛骨悚然的名字,Maryland大學還有個“全球恐怖主義數據庫”,這是一組由 11.3萬個恐怖事件組成的數據集。你可以在填完表后下載它。可視化這些數據,對一些易受影響的地區進行預測,可以防止恐怖襲擊,建立提前預警系統。
82. MNIST數據庫是機器學習領域的一個經典。它是由一組帶標簽的手寫字符組成,這對OCR算法來說是必不可少的。如今,一些算法的判斷能力甚至比人類法官還要準確!在將來,我們會要求讓機器來做判決。
83. UCI為我們提供了 撲克牌數據集。我不擅長玩撲克,但我敢肯定關于撲克一定會有一些有趣的分析可做。我聽說在撲克界人類仍然比機器更有優勢,但我覺得這種說法不太可靠。
84. UCI的另一個數據集:其中,圖像被簡單的分為廣告和非廣告兩種。基于該數據集可以自動攔截廣告或進行垃圾郵件的檢測,也許還能應用到Google Glass中,過濾掉現實生活中的廣告,那一定是一件很酷的事情。我們看到的將不再是一個廣告牌,而是自然景觀的虛擬擴展。
85. 還記得Star Wars Kid崩潰事件嗎?Attack of the Show將它評為了史上第一病毒視屏。Andy Baio策劃了這一事件,還杜撰了“Star Wars Kid”這一詞,并將他的 服務器日志公開發表。
86. 怎樣知道在Wordpress上誰鏈接到了誰(或者是某物)?可視化網絡是件很了不起的事情,但如果它能揭示一些關于“超節點”的信息,或許會更好,“超節點”是指被許多節點連接或者連接到許多節點的節點(也許兩者都有)。如果你有興趣, 也可以利用這些數據將不同的人歸類。
87. Obama是更喜歡石油大亨?還是極端環保主義者?或是玉米游說團體?是誰在背后支持Herman Cain?我們已經可以下載到 2012總統競選的財務數據,用來分析哪些行業偏向于哪位候選人想必是也極好的。
88. 哪所私立大學最有價值?
89. 哪所公立大學最有價值?
90. 按州統計的香煙數據。肯塔基州抽的最多,西弗吉尼亞州第二。 鑒于煙草的巨大社會危害,一個不錯的分析也許可以挽救很多人的生命。
 91. 在2008年12月5日,從Pirate Bay可以下載到什么?
92. 想要構建一個Reddit推薦引擎嗎?(或換個說法會更好——你覺得把那些愚蠢卻流行的意見過濾掉怎么樣?)不錯,用Redditor完全可以做到這一點,Redditor會是個不錯的推薦引擎。
93. 全球健康數據。用這些數據來確定改善世界健康的方法會很有效,像血吸蟲病控制倡議一樣,這一項目被GiveWell列為評價最高的慈善機構之一。
94. 美國從1960年到2012年的犯罪事件。談論犯罪雖然在道德上令人反感,但在電視上節目開個玩笑還是無傷大雅的。
95. 發起一項為浴室中的Yelp運動怎么樣?
96. 你知道在加拿大,雜貨店的暢銷品是卡夫晚餐(aka通心粉和奶酪)嗎?我想知道它在比利時或者臺灣銷售的怎么樣,這里為我們提供了 部分超市的數據。
97. 火狐瀏覽器使用情況的數據。記錄比如選項卡的使用數量,活躍狀態的時間,隱私標簽打開的數目。雖然隱私標簽這一詞或許會讓一些人浮想聯翩,但用來比較互聯網與實際數據之間準確度還是很不錯的。
98. 非常強大的一個數據:Mozilla將Mozilla和Eclipse中發現的 超過20萬個bug放到一個數據集中。我很想看看哪些bug導致的奔潰最常見,以及如何預防這些奔潰,當然也只有參考這些數據,才能設計出更好的編程語言。
99. 如果你對設計調度算法感興趣的話,你會對這一消息感興趣: Google開放了他們在集群上作業排序的數據集。開發針對數據集的算法可能會幫助未來驗證你的發現。畢竟,明天的桌面系統很可能會像今天數據中心一樣強大。
100. Techcrunch開放了一個具有超過400 000家公司、投資者和企業家的檔案的數據集,此外還有45,000輪投資記錄,這或許是一個逆向發現市場需求和投資者的投資傾向的好方法。
101. 125萬個delicious.com書簽。
102. 美國主要的軍事設施分布在哪?
103. 誰是H1-B信用卡的接受者?你可能想知道一些國家是否接受信用卡,或者哪些公司接受大部分的信用卡消費。
104. Twitter用戶很有可能被Hacker News的讀者跟蹤。
105. 這里有 1000年到1903年之間的所有地震數據。將這些數據“喂”給一個神經網絡,也許能看到一些關于地震的預測。
https://www.globalquakemodel.org/what/seismic-hazard/historical-catalogue/
106. 我常常想會不會有人做在線人格測試發現比大多數人更神經質?從很多在線性格測試項目中可以得到 大量可用的數據,將性格測試的答案與大眾的答案進行比較,就可以找出那些比較神經質的人。
107. 臟話表
原文連接:http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics/1
英文原文連接:100+ Interesting Data Sets for Statistics - rs.io
http://rs.io/100-interesting-data-sets-for-statistics/
---------------------------------------
相關文章:
人工智能深度學習神經網絡在雙色球彩票中的應用研究(一) - 流風,飄然的風 - 博客園
http://www.cnblogs.com/zdz8207/p/DeepLearning-NeuralNetworks.html
人工智能深度學習神經網絡在雙色球彩票中的應用研究(二) - 流風,飄然的風 - 博客園
http://www.cnblogs.com/zdz8207/p/LSTM-dl4j-caffeonspark-tensorflow.html
【參考】
http://www.ssqhm.com
總結
以上是生活随笔為你收集整理的机器学习,深度学习,免费数据集汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 第二十六期:100 个网络基础知识普及,
- 下一篇: 第五十五期:区块链将在2020年实现的重
