机器学习数据集
文章目錄
- 1.瑞典汽車保險(xiǎn)數(shù)據(jù)集
- 3.比馬印第安人糖尿病數(shù)據(jù)集
- 4.懷孕次數(shù)
- 5.聲納數(shù)據(jù)集
- 6.鈔票數(shù)據(jù)集
- 7.鳶尾花卉數(shù)據(jù)集
- 9. 電離層數(shù)據(jù)集
- 10.小麥種子數(shù)據(jù)集
- 11.波士頓房?jī)r(jià)數(shù)據(jù)集
- 12
- 12.1單變量時(shí)間序列數(shù)據(jù)集
- 洗發(fā)水銷售數(shù)據(jù)集(Shampoo Sales Dataset)
- 日較低溫度數(shù)據(jù)集(Minimum Daily Temperatures Dataset)
- 每月太陽(yáng)黑子數(shù)數(shù)據(jù)集(Monthly Sunspot Dataset)
- 每日女嬰出生人數(shù)數(shù)據(jù)集
 
- 12.2 多變量時(shí)間序列數(shù)據(jù)集
- EEG 人眼狀態(tài)數(shù)據(jù)集
- 使用檢測(cè)數(shù)據(jù)集(Occupancy Detection Dataset)
- 臭氧水平檢測(cè)數(shù)據(jù)集
 
 
- 13 UCI數(shù)據(jù)集
- 14 狗熊會(huì)
 
 
學(xué)好 機(jī)器學(xué)習(xí)的關(guān)鍵是用許多不同的數(shù)據(jù)集來(lái)練習(xí)。因?yàn)閷?duì)不同的問(wèn)題,需要有不同的數(shù)據(jù)準(zhǔn)備和建模方法。本文介紹了10個(gè)更受歡迎的標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)數(shù)據(jù)集,可以用作練習(xí)的資源。
1.瑞典汽車保險(xiǎn)數(shù)據(jù)集
瑞典汽車保險(xiǎn)數(shù)據(jù)集( Swedish Auto Insurance Dataset)包含了對(duì)所有索賠要求的總賠付預(yù)測(cè),以千瑞典克朗計(jì),給定的條件是索賠要求總數(shù)。這是一個(gè)回歸問(wèn)題。它由 63 個(gè)觀察值組成,包括1個(gè)輸入變量和1個(gè)輸出變量。
變量名:索賠要求數(shù)量。
對(duì)所有索賠的總賠付,以千瑞典克朗計(jì)。預(yù)測(cè)平均值的基準(zhǔn)性能的均方根誤差(RMSE)約為 72.251 千克朗。
前5行的示例如下:
下面是整個(gè)數(shù)據(jù)集的散點(diǎn)圖:
下載地址:http://t.cn/RfHWAbI
###2.葡萄酒質(zhì)量數(shù)據(jù)集
? 葡萄酒質(zhì)量數(shù)據(jù)集(Wine Quality Dataset )涉及根據(jù)每種葡萄酒的化學(xué)度量值來(lái)預(yù)測(cè)白葡萄酒的質(zhì)量。
它是一個(gè)多類分類問(wèn)題,但也可以定義為回歸問(wèn)題。每個(gè)類的觀察值數(shù)量不均等。一共有 4898個(gè)觀察值,11個(gè)輸入變量和一個(gè)輸出變量。
? 變量名:非揮發(fā)性酸度、揮發(fā)性酸度、檸檬酸、殘留糖、氯化物、游離二氧化硫、總二氧化硫、濃度、pH值、硫酸鹽、酒精度、質(zhì)量(得分在 0 和 10 之間)。
預(yù)測(cè)平均值的基準(zhǔn)性能的均方根誤差(RMSE)為 0.148 的質(zhì)量分?jǐn)?shù)。
數(shù)據(jù)集前5行的示例如下:
3.比馬印第安人糖尿病數(shù)據(jù)集
? 比馬印第安人糖尿病數(shù)據(jù)集(Pima Indians Diabetes Dataset)涉及根據(jù)醫(yī)療記錄預(yù)測(cè)比馬印第安人5年內(nèi)糖尿病的發(fā)病情況。它是一個(gè)二元分類問(wèn)題。每個(gè)類的觀察值數(shù)量不均等。一共有 768 個(gè)觀察值,8個(gè)輸入變量和1個(gè)輸出變量。缺失值通常用零值編碼。
4.懷孕次數(shù)
? 口服葡萄糖耐受試驗(yàn)中,2小時(shí)的血漿葡萄糖濃度。
? 變量名:舒張壓(mm Hg)、三頭肌皮膚褶層厚度(mm)、2小時(shí)血清胰島素含量(μU/ ml)
體重指數(shù)(體重,kg /(身高,m)^ 2)、糖尿病家族史、年齡(歲)、類變量(0 或 1)。
? 預(yù)測(cè)最普遍類的基準(zhǔn)性能是約 65% 的分類準(zhǔn)確率,較佳結(jié)果達(dá)到約 77% 的分類準(zhǔn)確率。
數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/RfaFfq8
5.聲納數(shù)據(jù)集
? 聲納數(shù)據(jù)集(Sonar Dataset )涉及預(yù)測(cè)根據(jù)給定聲納從不同角度返回的強(qiáng)度預(yù)測(cè)目標(biāo)物體是巖石還是礦井。它是一個(gè)二元分類問(wèn)題。每個(gè)類的觀察值數(shù)量不均等。一共有208個(gè)觀察值,60個(gè)輸入變量和1個(gè)輸出變量。
? 變量名:從不同角度返回的聲納… …類(M為礦井,R為巖石)
? 預(yù)測(cè)最普遍類的基準(zhǔn)性能是約 53% 的分類準(zhǔn)確率,較佳結(jié)果達(dá)到約 88% 的分類準(zhǔn)確率。
? 該數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/Rf8GrP7
6.鈔票數(shù)據(jù)集
? 鈔票數(shù)據(jù)集(Banknote Dataset)涉及根據(jù)給定鈔票的數(shù)個(gè)度量的照片預(yù)測(cè)是真鈔還是假鈔。
它是一個(gè)二元分類問(wèn)題。每個(gè)類的觀測(cè)值數(shù)量不均等。一共有 1372 個(gè)觀察值,4個(gè)輸入變量和1個(gè)輸出變量。 變量名:小波變換圖像(連續(xù))、小波偏斜變換圖像(連續(xù))、小波峰度變換圖像(連續(xù))、圖像熵(連續(xù))。
? 類(0 為真鈔,1 為假鈔)
? 預(yù)測(cè)最普遍類的基準(zhǔn)性能是約 50% 的分類準(zhǔn)確率。
? 該數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/Rf8GdQo
7.鳶尾花卉數(shù)據(jù)集
? 鳶尾花卉數(shù)據(jù)集(Iris Flowers Dataset )涉及根據(jù)鳶尾花的測(cè)量數(shù)據(jù)預(yù)測(cè)花卉品種。它是一個(gè)多類分類問(wèn)題。每個(gè)類的觀察值數(shù)量是均等的。一共有 150 個(gè)觀察值,4個(gè)輸入變量和1個(gè)輸出變量。
? 變量名:萼片長(zhǎng)度(cm)、萼片寬度(cm)、花瓣長(zhǎng)度(cm)、花瓣寬度(cm)、類(Iris Setosa,Iris Versicolour,Iris Virginica)
? 預(yù)測(cè)最普遍類的基準(zhǔn)性能是約 26% 的分類準(zhǔn)確率。
? 該數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/Rf8GeUq
###8. 鮑魚數(shù)據(jù)集
? 鮑魚數(shù)據(jù)集(Abalone Dataset)涉及根據(jù)鮑魚個(gè)體的測(cè)量數(shù)據(jù)來(lái)預(yù)測(cè)鮑魚的年齡(環(huán)的數(shù)量)。
它是一個(gè)多類分類(multi-class classification)問(wèn)題,但也可以作為回歸問(wèn)題。每個(gè)類的觀察值數(shù)量不均等。該數(shù)據(jù)集有 4177 個(gè)觀察值,8個(gè)輸入變量和1個(gè)輸出變量。
? 變量名:性別(M,F,I)、長(zhǎng)度、直徑、高度、總重量、剝殼重量、內(nèi)臟重量、殼重、環(huán)的數(shù)量
? 預(yù)測(cè)最普遍類的基準(zhǔn)性能是約 16% 的分類準(zhǔn)確率,預(yù)測(cè)平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 3.2 個(gè)環(huán)。
? 該數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/Rf8GDdu
9. 電離層數(shù)據(jù)集
? 電離層數(shù)據(jù)集(Ionosphere Dataset)需要根據(jù)給定的電離層中的自由電子的雷達(dá)回波預(yù)測(cè)大氣結(jié)構(gòu)。
它是一個(gè)二元分類問(wèn)題。每個(gè)類的觀察值數(shù)量不均等,一共有 351 個(gè)觀察值,34 個(gè)輸入變量和1個(gè)輸出變量。 變量名: 17對(duì)雷達(dá)回波數(shù)據(jù), … …
類(g 表示好,b 表示壞)。
預(yù)測(cè)最普遍類的基準(zhǔn)性能是約 64% 的分類準(zhǔn)確率,較佳結(jié)果達(dá)到約 94% 的分類準(zhǔn)確率。
該數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/Rf8GFY4
10.小麥種子數(shù)據(jù)集
? 小麥種子數(shù)據(jù)集(Wheat Seeds Dataset)涉及對(duì)不同品種的小麥種子進(jìn)行預(yù)測(cè),給定的是種子的計(jì)量數(shù)據(jù)。它是一個(gè)二元分類問(wèn)題。每個(gè)類的觀察值是均等的,一共 210 個(gè)觀察值,7個(gè)輸入變量和1個(gè)輸出變量。 變量名:區(qū)域、周長(zhǎng)、壓實(shí)度、籽粒長(zhǎng)度、籽粒寬度、不對(duì)稱系數(shù)、籽粒腹溝長(zhǎng)度
類(1,2,3)
預(yù)測(cè)最普遍類的基準(zhǔn)性能是約 28% 的分類準(zhǔn)確率。
數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/RfHHbzw
11.波士頓房?jī)r(jià)數(shù)據(jù)集
? 波士頓房?jī)r(jià)數(shù)據(jù)集(Boston House Price Dataset)包含對(duì)房?jī)r(jià)的預(yù)測(cè),以千美元計(jì),給定的條件是房屋及其相鄰房屋的詳細(xì)信息。該數(shù)據(jù)集是一個(gè)回歸問(wèn)題。每個(gè)類的觀察值數(shù)量是均等的,共有 506 個(gè)觀察,13 個(gè)輸入變量和1個(gè)輸出變量。
變量名:CRIM:城鎮(zhèn)人均犯罪率、ZN:住宅用地超過(guò) 25000 sq.ft. 的比例、INDUS:城鎮(zhèn)非零售商用土地的比例、CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)、NOX:一氧化氮濃度、RM:住宅平均房間數(shù)、AGE:1940 年之前建成的自用房屋比例、DIS:到波士頓五個(gè)中心區(qū)域的加權(quán)距離、RAD:輻射性公路的接近指數(shù)、TAX:每 10000 美元的全值財(cái)產(chǎn)稅率、PTRATIO:城鎮(zhèn)師生比例、B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮(zhèn)中黑人的比例、LSTAT:人口中地位低下者的比例、MEDV:自住房的平均房?jī)r(jià),以千美元計(jì)。
預(yù)測(cè)平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 9.21 千美元。
數(shù)據(jù)集前5行的示例如下:
下載地址:http://t.cn/RfHTAgY
###12. 時(shí)間序列數(shù)據(jù)集
? 機(jī)器學(xué)習(xí)可以在時(shí)間序列數(shù)據(jù)集上應(yīng)用。這些屬于需要預(yù)測(cè)數(shù)值或分類的問(wèn)題,但數(shù)據(jù)是按時(shí)間排序的。下面介紹7個(gè)標(biāo)準(zhǔn)時(shí)間序列數(shù)據(jù)集,可用于使用機(jī)器學(xué)習(xí)進(jìn)行時(shí)間序列預(yù)測(cè)的實(shí)踐。
12
12.1單變量時(shí)間序列數(shù)據(jù)集
只有一個(gè)變量的時(shí)間序列數(shù)據(jù)集稱為單變量數(shù)據(jù)集(univariate datasets),
其優(yōu)點(diǎn)是:
- 簡(jiǎn)單且容易理解;支持Excel或其他繪圖工具;
- 易于預(yù)測(cè)結(jié)果和期望結(jié)果的比較;
- 易于嘗試你并評(píng)估新的方法。
以下是4個(gè)單變量時(shí)間序列數(shù)據(jù)集,均可從datamarket上下載。
洗發(fā)水銷售數(shù)據(jù)集(Shampoo Sales Dataset)
該數(shù)據(jù)集描述了3年期間的洗發(fā)水月銷售量,單位是銷售量,有36個(gè)觀察值。下面是該數(shù)據(jù)集前5行的示例,包括標(biāo)題行:
日較低溫度數(shù)據(jù)集(Minimum Daily Temperatures Dataset)
該數(shù)據(jù)集描述了澳大利亞墨爾本市10年間(1981-1990)的日較低溫度。單位是攝氏度,有3650個(gè)觀察值,數(shù)據(jù)來(lái)源為澳大利亞氣象局。
下面是該數(shù)據(jù)集前5行數(shù)據(jù)的示例:
每月太陽(yáng)黑子數(shù)數(shù)據(jù)集(Monthly Sunspot Dataset)
該數(shù)據(jù)集描述了230年間(1749-1983)觀測(cè)到的每月太陽(yáng)黑子數(shù)量。單位是太陽(yáng)黑子數(shù)量,有2820個(gè)觀察值。數(shù)據(jù)集的來(lái)源為 Andrews&Herzberg(1985)。
下面是前5行數(shù)據(jù)的示例:
每日女嬰出生人數(shù)數(shù)據(jù)集
該數(shù)據(jù)集描述了1959年加利福尼亞州每日出生的女嬰人數(shù)。單位是人數(shù),有365個(gè)觀察值。數(shù)據(jù)集來(lái)源自 Newton(1988)。
下面是前5行的示例:
12.2 多變量時(shí)間序列數(shù)據(jù)集
多變量數(shù)據(jù)集(Multivariate datasets)通常更具挑戰(zhàn)性,多變量時(shí)間序列數(shù)據(jù)的主要來(lái)源是 UCI 機(jī)器學(xué)習(xí)庫(kù)(http://archive.ics.uci.edu/ml/),下文推薦的3個(gè)數(shù)據(jù)集均可下載。
EEG 人眼狀態(tài)數(shù)據(jù)集
該數(shù)據(jù)集描述個(gè)體的 EEG 數(shù)據(jù),以及他們的眼睛是睜著還是閉著。這個(gè)問(wèn)題是為了根據(jù)跟定的 EEG 數(shù)據(jù)預(yù)測(cè)眼睛的狀態(tài)。
這是一個(gè)分類預(yù)測(cè)模型問(wèn)題,共有14980個(gè)觀察值和15個(gè)輸入變量。 分類值“1”表示眼睛閉著,“0”表示眼睛睜開著。 數(shù)據(jù)按時(shí)間排序,記錄觀察結(jié)果的時(shí)間是117秒。
下面是數(shù)據(jù)集前5行的示例:
使用檢測(cè)數(shù)據(jù)集(Occupancy Detection Dataset)
這個(gè)數(shù)據(jù)集描述有關(guān)房間特征的數(shù)據(jù),目的是預(yù)測(cè)房間是否在使用中。數(shù)據(jù)集包含幾個(gè)星期期間,共10560個(gè)一分鐘的觀察,屬于分類預(yù)測(cè)問(wèn)題。數(shù)據(jù)集包括7個(gè)特征值,例如房間的光線、氣溫、濕度等。
下面是前5行數(shù)據(jù)的示例,包括標(biāo)題行:
臭氧水平檢測(cè)數(shù)據(jù)集
這個(gè)數(shù)據(jù)集描述了6年期間的地面臭氧濃度數(shù)據(jù),目的是預(yù)測(cè)是否“臭氧日”。數(shù)據(jù)集包含2,536個(gè)觀察值,73個(gè)特征。 這是分類預(yù)測(cè)問(wèn)題,類別值為“1”表示這天是臭氧日,為“0”表示正常日。
下面是前5行的示例:
總結(jié)
本文介紹了 10 個(gè)更受歡迎的標(biāo)準(zhǔn)數(shù)據(jù)集,你可以用它們來(lái)進(jìn)行機(jī)器學(xué)習(xí)的應(yīng)用練習(xí)。
可以采取以下步驟:
選擇一個(gè)數(shù)據(jù)集。
選擇你最喜歡的工具(例如 Weka,scikit-learn 或 R)
看看你的結(jié)果比基準(zhǔn)分?jǐn)?shù)高多少。
13 UCI數(shù)據(jù)集
http://archive.ics.uci.edu/ml/datasets.php
14 狗熊會(huì)
微信公眾號(hào)狗熊會(huì)可以下載很多數(shù)據(jù)集,之前搞活動(dòng)開了年度VIP,有需要的可以找我
轉(zhuǎn)自:https://blog.csdn.net/zhaoyuxia517/article/details/77994390
總結(jié)
 
                            
                        - 上一篇: swiftyjson_是时候放弃Swif
- 下一篇: PreferenceScreen1
