各领域数据集
上網找到了個數據集的整理,原文地址:?https://zhuanlan.zhihu.com/p/25138563
金融
美國勞工部統計局官方發布數據
房地產公司 Zillow 公開美國房地產歷史數據
滬深股票除權除息、配股增發全量數據,截止 2016.12.31
上證主板日線數據,截止 2017.05.05,原始價、前復權價、后復權價,1260支股票
深證主板日線數據,截止 2017.05.05,原始價、前復權價、后復權價,466支股票
深證中小板日線數據,截止 2017.05.05,原始價、前復權價、后復權價,852支股票
深證創業板日線數據,截止 2017.05.05,原始價、前復權價、后復權價,636支股票
上證A股日線數據,1999.12.09至 2016.06.08,前復權,1095支股票
深證A股日線數據,1999.12.09至 2016.06.08,前復權,1766支股票
深證創業板日線數據,1999.12.09 至2016.06.08,前復權,510支股票
MT4平臺外匯交易歷史數據
Forex平臺外匯交易歷史數據
幾組外匯交易逐筆(Ticks)數據
美國股票新聞數據【Kaggle數據】
美國醫療保險市場數據【Kaggle數據】
美國金融客戶投訴數據【Kaggle數據】
Lending Club 網貸違約數據【Kaggle數據】
信用卡欺詐數據【Kaggle數據】
美國股票數據XBRL【Kaggle數據】
紐約股票交易所數據【Kaggle數據】
貸款違約預測競賽數據【Kaggle競賽】
Zillow 網站房地產價值預測競賽數據【Kaggle競賽】
Sberbank 俄羅斯房地產價值預測競賽數據【Kaggle競賽】
Homesite 保險定價競賽數據【Kaggle競賽】
Winton 股票回報率預測競賽數據【Kaggle競賽】
房屋租賃信息查詢次數預測競賽【Kaggle競賽】
交通
2013年紐約出租車行駛數據
2013年芝加哥出租車行駛數據
Udacity自動駕駛數據
紐約Uber 接客數據 【Kaggle數據】
英國車禍數據(2005-2015)【Kaagle數據】
芝加哥汽車超速數據【Kaggle數據】
KITTI 自動駕駛任務數據【數據太大僅有部分】
Cityscapes 場景標注數據【數據太大僅有部分】
德國交通標志識別數據
交通信號識別數據
芝加哥Divvy共享自行車騎行數據(2013年至今)
美國查塔努加市共享單車騎行數據
Capital 共享單車騎行數據
Bay Area 共享單車騎行數據
Nice Ride 共享單車騎行數據
花旗銀行共享單車騎行數據
運用衛星數據跟蹤亞馬遜熱帶雨林中的人類軌跡競賽【Kaggle競賽】
紐約出租車管理委員會官方的乘車數據(2009年-2016年)
商業
Airbnb 開放的民宿信息和住客評論數據
Amazon 食品評論數據【Kaggle數據】
Amazon 無鎖手機評論數據【Kaggle數據】
美國視頻游戲銷售和評價數據【Kaggle數據】
Kaggle 各項競賽情況數據【Kaggle數據】
Bosch 生產流水線降低次品率競賽數據【Kaggle競賽】
預測公寓租金競賽數據
廣告點擊預測競賽數據
餐廳營業收入預測建模競賽
銀行產品推薦競賽數據
網站用戶推薦點擊預測競賽數據
在線廣告實時競價數據【Kaggle數據】
購物車商品關聯競賽數據【Kaggle競賽】
Airbnb 新用戶的民宿預定預測競賽數據【Kaggle競賽】
Yelp 點評網站公開數據
KKBOX 音樂用戶續訂預測競賽【Kaggle競賽】
Grupo Bimbo 面包店庫存和銷量預測競賽【Kaggle競賽】
推薦系統
Netflix 電影評價數據
MovieLens 20m 電影推薦數據集
WikiLens
Jester HetRec2011
Book Crossing Large MovieReview
Retailrocket 商品評論和推薦數據
1萬本暢銷書的6百萬讀者評分數據
醫療健康
人識別物體時大腦核磁共振影像數據
人理解單詞時大腦核磁共振影像數據
心臟病心房圖像及標注數據
細胞病理識別
FIRE 視網膜眼底病變圖像數據
食物營養成分數據 【Kaggle數據】
EGG 大腦電波形狀數據【Kaggle數據】
某人基因序列數據【Kaggle數據】
癌癥CT影像數據【Kaggle數據】
軟組織肉瘤CT圖像數據【Kaggle數據】
美國國家健康與服務部-國家癌癥研究所發起的癌癥數據倉庫介紹【僅有介紹】
Data ScienceBowl 2017 肺癌識別競賽數據【數據太大僅有介紹】
TCGA-LUAD 肺癌CT圖像數據
RIDER Lung CT 肺癌CT影像
TCGA-COAD癌癥CT影像數據
TCIA-TCGA-OV 癌癥CT影像數據
TCIA RIDER NEURO癌癥MRI影像數據
QIN Beast 乳腺癌MRI影像數據
SPIE-AAPM-NCIPROSTATEx競賽第1部分數據(MRI核磁共振影像識別前列腺癌程度數?
 據)
SPIE-AAPM-NCIPROSTATEx競賽第2部分數據(MRI核磁共振影像識別前列腺癌程度?
 數據)
RIDER Breast 乳腺癌 MRI 影像數據
Lung Phantom 癌癥 CT 影像數據集
TCIA-QIN-LUNG 肺癌 CT 影像數據集
醫療CT影像、年齡和對比標注數據【Kaggle競賽】
TCGA-ESCA癌癥 CT 影像數據集
TCGA-CESC癌癥 CT 影像數據集
TCGA-KICH癌癥 CT 影像數據集
從 CT 影像中對肺部影像進行分割并識別肺部容積【Kaggle競賽】
通過Egg腦電圖像預測患者癲癇病發作競賽【Kaggle競賽】
遺傳突變分類競賽【Kaggle競賽】
MIMIC-III 臨床監護數據
圖像數據
綜合圖像
Visual Genome 圖像數據
Visual7w 圖像數據
COCO 圖像數據
SUFR 圖像數據
ILSVRC 2014 訓練數據(ImageNet的一部分)
PASCAL Visual Object Classes 2012 圖像數據
PASCAL Visual Object Classes 2011 圖像數據
PASCAL Visual Object Classes 2010 圖像數據
80 Million Tiny Image 圖像數據【數據太大僅有介紹】
ImageNet【數據太大僅有介紹】
Google Open Images【數據太大僅有介紹】
Imagenet 小尺寸圖像數據集
Yahoo Flickr 照片和視頻數據集
場景圖像
Street Scences 圖像數據
Places2 場景圖像數據
UCF GoogleStreet View 圖像數據
SUN 場景圖像數據
The Celebrity inPlaces 圖像數據
Web標簽圖像
HARRISON 社交標簽圖像
NUS-WIDE 標簽圖像
Visual Synset 標簽圖像
Animals WithAttributes 標簽圖像
人形輪廓圖像
MPII Human Shape人體輪廓數據
Biwi Kinect Head Pose 頭部姿勢數據
上半身人像數據 INRIA Person 數據集
視覺文字識別圖像
Street View House Number 門牌號圖像數據
MNIST 手寫數字識別圖像數據
3D MNIST 數字識別圖像數據【Kaggle數據】
MediaTeam Document 文檔影印和內容數據
Text Recognition 文字圖像數據
NIST Handprinted Forms and Characters 手寫英文字符數據
NIST Structured Forms Reference Set of Binary Images (SFRS) 圖像數據
NIST Structured Forms Reference Set of Binary Images (SFRS) II 圖像數據
特定一類事物圖像
著名的貓圖像標注數據
Caltech-UCSDBirds200 鳥類圖像數據
Stanford Car 汽車圖像數據
Cars 汽車圖像數據
MIT Cars 汽車圖像數據
Stanford Cars 汽車圖像數據
Food-101 美食圖像數據
17_Category_Flower 圖像數據
102_Category_Flower 圖像數據
UCI Folio Leaf 圖像數據
Labeled Fishes in the Wild 魚類圖像
美國 Yelp 點評網站酒店照片
CMU-Oxford Sculpture 塑像雕像圖像
Oxford-IIIT Pet 寵物圖像數據
Nature Conservancy Fisheries Monitoring 過度捕撈監控圖像數據【Kaggle數據】
Stanford Dogs Dataset 數據集
辛普森一家卡通形象圖像【Kaggle競賽】
Fashion-MNIST 時尚服飾圖像數據
材質紋理圖像
CURET 紋理材質圖像數據
ETHZ Synthesizability 紋理圖像數據
KTH-TIPS 紋理材質圖像數據
Describable Textures 紋理圖像數據
物體分類圖像
COIL-20 圖像數據
COIL-100 圖像數據
Caltech-101 圖像數據
Caltech-256 圖像數據
CIFAR-10 圖像數據
CIFAR-100 圖像數據
STL-10 圖像數據
LabelMe_12_50k圖像數據
NORB v1.0 圖像數據
NEC Toy Animal 圖像數據
iCubWorld 圖像分類數據
Multi-class 圖像分類數據
GRAZ 圖像分類數據
人臉圖像
IMDB-WIKI 500k+ 人臉圖像、年齡性別數據
Labeled Faces in the Wild 人臉數據
Extended Yale Face Database B 人臉數據
Bao Face 人臉數據
DC-IGN 論文人臉數據
300 Face in Wild 圖像數據
BioID Face 人臉數據
CMU Frontal Face Images
FDDB_Face Detection Data Set and Benchmark
NIST Mugshot Identification Database Faces in the Wild 人臉數據
CelebA 名人人臉圖像數據
VGG Face 人臉圖像數據
Caltech 10k WebFaces 人臉圖像數據
姿勢動作圖像
HMDB_a large human motion database
Human Actionsand Scenes Dataset
Buffy Stickmen V3 人體輪廓識別圖像數據
Human Pose Evaluator 人體輪廓識別圖像數據
Buffy pose 人類姿勢圖像數據
VGG Human Pose Estimation 姿勢圖像標注數據
指紋識別
NIST FIGS 指紋識別數據
NIST Supplemental Fingerprint Card Data (SFCD) 指紋識別數據
NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指?
 紋識別數據
NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指紋識別數據
其它圖像數據
Visual Question Answering V1.0 圖像數據
Visual Question Answering V2.0 圖像數據
視頻數據
綜合視頻
DAVIS_Densely Annotated Video Segmentation 數據
YouTube-8M 視頻數據集【數據太大僅有介紹】
YouTube 網站視頻備份【數據太大僅有介紹】
人類動作視頻
Microsoft Research Action 人類動作視頻數據
UCF50 Action Recognition 動作識別數據
UCF101 Action Recognition 動作識別數據
UT-Interaction 人類動作視頻數據
UCF iPhone 運動中傳感器數據
UCF YouTube 人類動作視頻數據
UCF Sport 人類動作視頻數據
UCF-ARG 人類動作視頻數據
HMDB 人類動作視頻
HOLLYWOOD2 人類行為動作視頻數據
Recognition of human actions 動作視頻數據
Motion Capture 動作捕捉視頻數據
SBU Kinect Interaction 肢體動作視頻數據
目標檢測視頻
UCSD Pedestrian 行人視頻數據
Caltech Pedestrian 行人視頻數據
ETH 行人視頻數據
INRIA 行人視頻數據
TudBrussels 行人視頻數據
Daimler 行人視頻數據
ALOV++ 物體追蹤視頻數據
密集人群視頻
Crowd Counting 高密度人群圖像
Crowd Segmentation 高密度人群視頻數據
Tracking in High Density Crowds 高密度人群視頻
其它視頻
Fire Detection 視頻數據
音頻數據
綜合音頻
Google Audioset 音頻數據【數據太大僅有介紹】
語音識別
Sinhala TTS 英語語音識別
TIMIT 美式英語語音識別數據
LibriSpeech ASR corpus 語音數據
Room Impulse Response and Noise 語音數據
ALFFA 非洲語音數據
THUYG-20 維吾爾語語音數據
AMI Corpus 語音識別
自然語言處理
RCV1英語新聞數據
20news 英語新聞數據
First Quora Release Question Pairs 問答數據
JRC Names各國語言專有實體名稱
Multi-Domain Sentiment V2.0
LETOR 信息檢索數據
Yale Youtube Vedio Text斯坦福問答數據【Kaggle數據】
美國假新聞數據【Kaggle數據】
NIPS會議文章信息數據(1987-2016)【Kaggle數據】
2016年美國總統選舉辯論數據【Kaggle數據】
WikiLinks 跨文檔指代語料
European Parliament Proceedings Parallel Corpus 機器翻譯數據
WikiText 英語語義詞庫數據
WMT 2011 News Crawl 機器翻譯數據
Stanford Sentiment Treebank 詞匯數據
英語語言模型單詞預測競賽數據
WikiAnswers 問題復述數據集
中文經典典籍語料
幾個網上采集的自然語言語料中文姓名語料
81萬互聯網詞匯詞庫
Question-Answer 問答數據集
Wikilinks 跨文檔語料擴展版
幾個聊天機器人語料
TED 平行語料庫
社會數據
希拉里郵件門泄露郵件
波士頓Airbnb 公開數據【Kaggle數據】
世界各國經濟發展數據【Kaagle數據】
世界大學排名芝加哥犯罪數據(2001-2017)【Kaagle數據】
世界范圍顯著地震數據(1965-2016)【Kaagle數據】
美國嬰兒姓名數據【Kaagle數據】
全世界鯊魚襲擊人類數據【Kaagle數據】
1908年以來空難數據【Kaagle數據】
2016年美國總統大選數據【Kaagle數據】
2013年美國社區統計數據【Kaagle數據】
2014年美國社區統計數據【Kaagle數據】
2015年美國社區統計數據【Kaagle數據】
歐洲足球運動員賽事表現數據【Kaagle數據】
美國環境污染數據【Kaagle數據】
美國H1-B簽證申請數據【Kaggle數據】
IMDB五千部電影數據【Kaggle數據】
2015年航班延誤和取消數據【Kaggle數據】
兇殺案報告數據【Kaggle數據】
人力資源分析數據【Kaggle數據】
美國費城犯罪數據【Kaggle數據】
安然公司郵件數據【Kaggle數據】
歷史棒球數據【Kaggle數據】
美聯航 Twitter 用戶評論數據【Kaggle數據】
波士頓 Airbnb 公開數據【Kaggle數據】
芝加哥市2001年以來犯罪記錄數據
美國查塔努加市犯罪記錄數據(2003年至今)
芝加哥街邊咖啡廳季節中的人行道咖啡廳許可數據
芝加哥餐館衛生檢查結果數據
幾個人類運動位置路線GPS數據集(騎行、跑步等)
希拉里 vs 特朗普競選期間 Twitter 數據【Kaggle競賽】
美國連環兇案數據(1980-2014)【Kaggle競賽】
廣告實時競價數據【Kaggle競賽】
美國費城犯罪記錄數據【Kaggle競賽】
Reddit 用戶交互記錄【Kaggle競賽】
泰坦尼克災難數據【Kaggle競賽】
Wikipedia 頁面點擊流量數據【Kaggle競賽】
紐約市出租車乘車時間預測競賽數據【Kaggle競賽】
新聞和網頁內容推薦及點擊競賽【Kaggle競賽】
科比布萊恩特投籃命中率數據【Kaggle競賽】
幾個城市氣象交換站日間天氣數據
Reddit 2.5 百萬社交新聞數據
Google的機群訪問數據
MIT Saliency 眼睛瀏覽軌跡數據集
根據安檢人體掃描成像預測威脅競賽【Kaggle競賽】
處理后的科研和競賽數據
NIPS 2003 屬性選擇競賽數據
臺灣大學林智仁教授處理為 LibSVM 格式的分類建模數據
Large-scale 分類建模數據
幾個UCI 中 large-scale 分類建模數據
Social Computing Data Repository 社交網絡數據
貓和狗分類識別競賽數據【Kaggle競賽】
DSTL 衛星圖像識別競賽數據【Kaggle競賽】
根據手機應用軟件使用行為預測用戶性別年齡競賽數據【Kaggle競賽】
人臉關鍵點標定競賽數據【Kaggle競賽】
Kaggle競賽數據合輯(部分競賽數據)
UCI多分類組合出的二分類數據集
UCI經典二分類數據集
場景圖像分類競賽數據【ChallengerAI 競賽】
人體骨骼關鍵點檢測競賽數據【ChallengerAI 競賽】
圖像中文表述競賽數據【ChallengerAI 競賽】
英文同聲傳譯競賽數據【ChallengerAI 競賽】
中英文本翻譯競賽數據【ChallengerAI 競賽】
虛擬股票趨勢預測【ChallengerAI 競賽數據】
機器視覺推理實驗數據
BigMM 2015 競賽驗證數據集
KONECT 網絡圖結構和網絡科學數據合輯
?
無論是數據挖掘還是目前大熱的深度學習,都離不開“大數據”。大公司們一般會有自己的數據,但對于創業公司或是高校老師、學生來說,“Where can I get large datasets open to the public” 是一個不得不面對的問題。?本文將為您提供一個網站/資源列表,從中你可以使用數據來完成你自己的數據項目,甚至創造你自己的產品。
?
一.如何使用這些資源?
使用它們最簡單的方法是進行數據項目,并在網站上發布它們。這不僅能提高你的數據和可視化技能,還能改善你的結構化思維。
另一方面,如果你正在考慮/處理基于數據的產品,這些數據集可以通過提供額外的/新的輸入數據來增加您的產品的功能。
我們已經在不同的部分中劃分了這些數據源,以幫助你根據應用程序對數據源進行分類。首先從簡單、通用和易于處理數據集開始,然后轉向大型/行業相關數據集。然后,我們為特定的目的——文本挖掘、圖像分類、推薦引擎等提供數據集的鏈接。這將為您提供一個完整的數據資源列表。
?
二.由簡單和通用的數據集開始
1.data.gov
( https://www.data.gov/ )
?這是美國政府公開數據的所在地,該站點包含了超過19萬的數據點。這些數據集不同于氣候、教育、能源、金融和更多領域的數據。?
2.data.gov.in?
( https://data.gov.in/ )?
這是印度政府公開數據的所在地,通過各種行業、氣候、醫療保健等來尋找數據,你可以在這里找到一些靈感。根據你居住的國家的不同,你也可以從其他一些網站上瀏覽類似的網站。
?
3.World Bank
( http://data.worldbank.org/ )?
世界銀行的開放數據。該平臺提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。
?
4.RBI?
(https://rbi.org.in/Scripts/Statistics.aspx)?
印度儲備銀行提供的數據。這包括了貨幣市場操作、收支平衡、銀行使用和一些產品的幾個指標。
?
5.Five Thirty Eight Datasets
?(https://github.com/fivethirtyeight/data)?
Five Thirty Eight,亦稱作 538,專注與民意調查分析,政治,經濟與體育的博客。該數據集為 Five Thirty Eight Datasets 使用的數據集。每個數據集包括數據,解釋數據的字典和Five Thirty Eight 文章的鏈接。如果你想學習如何創建數據故事,沒有比這個更好。
?
三.大型數據集
1.Amazon Web Services(AWS)datasets?
(https://aws.amazon.com/cn/datasets/)
?Amazon提供了一些大數據集,可以在他們的平臺上使用,也可以在本地計算機上使用。您還可以通過EMR使用EC2和Hadoop來分析云中的數據。在亞馬遜上流行的數據集包括完整的安然電子郵件數據集,Google Books n-gram,NASA NEX 數據集,百萬歌曲數據集等。
2.Google datasets
?( https://cloud.google.com/bigquery/public-data/ )
?Google 提供了一些數據集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數據,Hacker News 的所有故事和評論。
?
3.Youtube labeled Video Dataset?
( https://research.google.com/youtube8m/ )
?幾個月前,谷歌研究小組發布了YouTube上的“數據集”,它由800萬個YouTube視頻id和4800個視覺實體的相關標簽組成。它來自數十億幀的預先計算的,最先進的視覺特征。
?
四.預測建模與機器學習數據集
1.UCI Machine Learning Repository
?( https://archive.ics.uci.edu/ml/datasets.html )?
UCI機器學習庫顯然是最著名的數據存儲庫。如果您正在尋找與機器學習存儲庫相關的數據集,通常是首選的地方。這些數據集包括了各種各樣的數據集,從像Iris和泰坦尼克這樣的流行數據集到最近的貢獻,比如空氣質量和GPS軌跡。存儲庫包含超過350個與域名類似的數據集(分類/回歸)。您可以使用這些過濾器來確定您需要的數據集。
?
2.Kaggle
?( https://www.kaggle.com/datasets )
?Kaggle提出了一個平臺,人們可以貢獻數據集,其他社區成員可以投票并運行內核/腳本。他們總共有超過350個數據集——有超過200個特征數據集。雖然一些最初的數據集通常出現在其他地方,但我在平臺上看到了一些有趣的數據集,而不是在其他地方出現。與新的數據集一起,界面的另一個好處是,您可以在相同的界面上看到來自社區成員的腳本和問題。
3.Analytics Vidhya
?(https://datahack.analyticsvidhya.com/contest/all/ )
?您可以從我們的實踐問題和黑客馬拉松問題中參與和下載數據集。問題數據集基于真實的行業問題,并且相對較小,因為它們意味著2 - 7天的黑客馬拉松。?
4.Quandl
?( https://www.quandl.com/ )
?Quandl 通過起網站、API 或一些工具的直接集成提供了不同來源的財務、經濟和替代數據。他們的數據集分為開放和付費。所有開放數據集為免費,但高級數據集需要付費。通過搜索仍然可以在平臺上找到優質數據集。例如,來自印度的證券交易所數據是免費的。
5.Past KDD Cups
?( http://www.kdd.org/kdd-cup )
?KDD Cup 是 ACM Special Interest Group 組織的年度數據挖掘和知識發現競賽。
?
6.Driven Data
?( https://www.drivendata.org/ )
?Driven Data 發現運用數據科學帶來積極社會影響的現實問題。然后,他們為數據科學家組織在線模擬競賽,從而開發出最好的模型來解決這些問題。
?
五.圖像分類數據集
1.The MNIST Database
?( http://yann.lecun.com/exdb/mnist/ )?
最流行的圖像識別數據集,使用手寫數字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進行圖像識別的數據集。
?
2.Chars74K
?(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
?這里是下一階段的進化,如果你已經通過了手寫的數字。該數據集包括自然圖像中的字符識別。數據集包含74,000個圖像,因此數據集的名稱。
?
3.Frontal Face Images?
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
?如果你已經完成了前兩個項目,并且能夠識別數字和字符,這是圖像識別中的下一個挑戰級別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個文件夾中。
?
4.ImageNet ( http://image-net.org/ ) 現在是時候構建一些通用的東西了。根據WordNet層次結構組織的圖像數據庫(目前僅為名詞)。層次結構的每個節點都由數百個圖像描述。目前,該集合平均每個節點有超過500個圖像(而且還在增加)。
?
六.文本分類數據集
1.Spam – Non Spam?
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)?
區分短信是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將短信進行分類。
?
2.Twitter Sentiment Analysis (http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/) 該數據集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。數據依次基于 Kaggle 比賽和 Nick Sanders 的分析。
?
3.Movie Review Data?
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
?這個網站提供了一系列的電影評論文件,這些文件標注了他們的總體情緒極性(正面或負面)或主觀評價(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標簽。
?
七.推薦引擎數據集
1.MovieLens?
( https://grouplens.org/ ) MovieLens
?是一個幫助人們查找電影的網站。它有成千上萬的注冊用戶。他們進行自動內容推薦,推薦界面,基于標簽的推薦頁面等在線實驗。這些數據集可供下載,可用于創建自己的推薦系統。
?
2.Jester
?(http://www.ieor.berkeley.edu/~goldberg/jester-data/)?
在線笑話推薦系統。
?
八.各種來源的數據集網站
1.KDNuggets?
(http://www.kdnuggets.com/datasets/index.html)
?KDNuggets 的數據集頁面一直是人們搜索數據集的參考。列表全面,但是某些來源不再提供數據集。因此,需要謹慎選擇數據集和來源。
?
2.Awesome Public Datasets?
(https://github.com/caesar0301/awesome-public-datasets)
?一個GitHub存儲庫,它包含一個由域分類的完整的數據集列表。數據集被整齊地分類在不同的領域,這是非常有用的。但是,對于存儲庫本身的數據集沒有描述,這可能使它非常有用。
?
3.Reddit Datasets Subreddit?
(https://www.reddit.com/r/datasets/)?
由于這是一個社區驅動的論壇,它可能會遇到一些麻煩(與之前的兩個來源相比)。但是,您可以通過流行/投票來對數據集進行排序,以查看最流行的數據集。另外,它還有一些有趣的數據集和討論。
?
?
總結
 
                            
                        - 上一篇: 单片机毕业设计 - 选题推荐
- 下一篇: smtp邮件服务器配置,配置电子邮件通知
