标准机器学习数据集
學(xué)好機器學(xué)習(xí)的關(guān)鍵是用許多不同的數(shù)據(jù)集來練習(xí)。因為對不同的問題,需要有不同的數(shù)據(jù)準(zhǔn)備和建模方法。本文介紹了10個更受歡迎的標(biāo)準(zhǔn)機器學(xué)習(xí)數(shù)據(jù)集,可以用作練習(xí)的資源。
每個數(shù)據(jù)集均按照一定的格式介紹,以使讀者相對容易比較,為他們的特定練習(xí)任務(wù)選擇數(shù)據(jù)集或建模方法。
格式:名稱:如何引用數(shù)據(jù)集 問題類型:是回歸問題還是分類問題 輸入和輸出:輸入和輸出特征的數(shù)量和名稱 性能:使用零規(guī)則算法(Zero Rule Algorithm)的基準(zhǔn)性能比較,以及已知的較佳性能 示例:原始數(shù)據(jù)前5行的快照 鏈接:下載數(shù)據(jù)集及了解更多的鏈接
標(biāo)準(zhǔn)數(shù)據(jù)集 下面是本文將介紹的 10 個數(shù)據(jù)集的列表。每個數(shù)據(jù)集都不大,能夠適應(yīng)內(nèi)存或使用電子表格查看。所有數(shù)據(jù)集都由表格數(shù)據(jù)組成,并且沒有(顯式的)缺失值。
瑞典汽車保險數(shù)據(jù)集 葡萄酒質(zhì)量數(shù)據(jù)集 比馬印第安人糖尿病數(shù)據(jù)集 聲納數(shù)據(jù)集 鈔票數(shù)據(jù)集 鳶尾花卉數(shù)據(jù)集 鮑魚數(shù)據(jù)集 電離層數(shù)據(jù)集 小麥種子數(shù)據(jù)集 波士頓房價數(shù)據(jù)集
1.
瑞典汽車保險數(shù)據(jù)集 瑞典汽車保險數(shù)據(jù)集( Swedish Auto Insurance Dataset)包含了對所有索賠要求的總賠付預(yù)測,以千瑞典克朗計,給定的條件是索賠要求總數(shù)。這是一個回歸問題。它由 63 個觀察值組成,包括1個輸入變量和1個輸出變量。變量名分別是:
索賠要求數(shù)量 對所有索賠的總賠付,以千瑞典克朗計
預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)約為 72.251 千克朗。
前5行的示例如下: 下面是整個數(shù)據(jù)集的散點圖:
下載地址:http://t.cn/RfHWAbI
2.
葡萄酒質(zhì)量數(shù)據(jù)集葡萄酒質(zhì)量數(shù)據(jù)集(Wine Quality Dataset )涉及根據(jù)每種葡萄酒的化學(xué)度量值來預(yù)測白葡萄酒的質(zhì)量。
它是一個多類分類問題,但也可以定義為回歸問題。每個類的觀察值數(shù)量不均等。一共有 4898個觀察值,11個輸入變量和一個輸出變量。變量名如下:
非揮發(fā)性酸度 揮發(fā)性酸度 檸檬酸 殘留糖 氯化物 游離二氧化硫 總二氧化硫 濃度 pH值 硫酸鹽 酒精度 質(zhì)量(得分在 0 和 10 之間)
預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)為 0.148 的質(zhì)量分?jǐn)?shù)。
數(shù)據(jù)集前5行的示例如下: 3. 比馬印第安人糖尿病數(shù)據(jù)集 比馬印第安人糖尿病數(shù)據(jù)集(Pima Indians Diabetes Dataset)涉及根據(jù)醫(yī)療記錄預(yù)測比馬印第安人5年內(nèi)糖尿病的發(fā)病情況。
它是一個二元分類問題。每個類的觀察值數(shù)量不均等。一共有 768 個觀察值,8個輸入變量和1個輸出變量。缺失值通常用零值編碼。變量名如下:
4. 懷孕次數(shù) 口服葡萄糖耐受試驗中,2小時的血漿葡萄糖濃度。 舒張壓(mm Hg) 三頭肌皮膚褶層厚度(mm) 2小時血清胰島素含量(μU/ ml) 體重指數(shù)(體重,kg /(身高,m)^ 2) 糖尿病家族史 年齡(歲) 類變量(0 或 1)
預(yù)測最普遍類的基準(zhǔn)性能是約 65% 的分類準(zhǔn)確率,較佳結(jié)果達到約 77% 的分類準(zhǔn)確率。 數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/RfaFfq8
5.
聲納數(shù)據(jù)集 聲納數(shù)據(jù)集(Sonar Dataset )涉及預(yù)測根據(jù)給定聲納從不同角度返回的強度預(yù)測目標(biāo)物體是巖石還是礦井。它是一個二元分類問題。每個類的觀察值數(shù)量不均等。一共有208個觀察值,60個輸入變量和1個輸出變量。變量名如下:
從不同角度返回的聲納 ... ... 類(M為礦井,R為巖石)
預(yù)測最普遍類的基準(zhǔn)性能是約 53% 的分類準(zhǔn)確率,較佳結(jié)果達到約 88% 的分類準(zhǔn)確率。
該數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/Rf8GrP7
6.
鈔票數(shù)據(jù)集 鈔票數(shù)據(jù)集(Banknote Dataset)涉及根據(jù)給定鈔票的數(shù)個度量的照片預(yù)測是真鈔還是假鈔。它是一個二元分類問題。每個類的觀測值數(shù)量不均等。一共有 1372 個觀察值,4個輸入變量和1個輸出變量。變量名如下:
小波變換圖像(連續(xù)) 小波偏斜變換圖像(連續(xù)) 小波峰度變換圖像(連續(xù)) 圖像熵(連續(xù))。 類(0 為真鈔,1 為假鈔)
預(yù)測最普遍類的基準(zhǔn)性能是約 50% 的分類準(zhǔn)確率。
該數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/Rf8GdQo
7.
鳶尾花卉數(shù)據(jù)集 鳶尾花卉數(shù)據(jù)集(Iris Flowers Dataset )涉及根據(jù)鳶尾花的測量數(shù)據(jù)預(yù)測花卉品種。它是一個多類分類問題。每個類的觀察值數(shù)量是均等的。一共有 150 個觀察值,4個輸入變量和1個輸出變量。變量名如下:
萼片長度(cm) 萼片寬度(cm) 花瓣長度(cm) 花瓣寬度(cm) 類(Iris Setosa,Iris Versicolour,Iris Virginica)
預(yù)測最普遍類的基準(zhǔn)性能是約 26% 的分類準(zhǔn)確率。
該數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/Rf8GeUq
8.
鮑魚數(shù)據(jù)集 鮑魚數(shù)據(jù)集(Abalone Dataset)涉及根據(jù)鮑魚個體的測量數(shù)據(jù)來預(yù)測鮑魚的年齡(環(huán)的數(shù)量)。它是一個多類分類(multi-class classification)問題,但也可以作為回歸問題。每個類的觀察值數(shù)量不均等。該數(shù)據(jù)集有 4177 個觀察值,8個輸入變量和1個輸出變量。 變量名如下:
性別(M,F,I) 長度 直徑 高度 總重量 剝殼重量 內(nèi)臟重量 殼重 環(huán)的數(shù)量
預(yù)測最普遍類的基準(zhǔn)性能是約 16% 的分類準(zhǔn)確率,預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 3.2 個環(huán)。
該數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/Rf8GDdu
9.
電離層數(shù)據(jù)集 電離層數(shù)據(jù)集(Ionosphere Dataset)需要根據(jù)給定的電離層中的自由電子的雷達回波預(yù)測大氣結(jié)構(gòu)。它是一個二元分類問題。每個類的觀察值數(shù)量不均等,一共有 351 個觀察值,34 個輸入變量和1個輸出變量。變量名如下:
1 17對雷達回波數(shù)據(jù)。 2 ... ... 3 類(g 表示好,b 表示壞)。
預(yù)測最普遍類的基準(zhǔn)性能是約 64% 的分類準(zhǔn)確率,較佳結(jié)果達到約 94% 的分類準(zhǔn)確率。
該數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/Rf8GFY4
10.
小麥種子數(shù)據(jù)集 小麥種子數(shù)據(jù)集(Wheat Seeds Dataset)涉及對不同品種的小麥種子進行預(yù)測,給定的是種子的計量數(shù)據(jù)。它是一個二元分類問題。每個類的觀察值是均等的,一共 210 個觀察值,7個輸入變量和1個輸出變量。變量名如下:
區(qū)域 周長 壓實度 籽粒長度 籽粒寬度 不對稱系數(shù) 籽粒腹溝長度 類(1,2,3)
預(yù)測最普遍類的基準(zhǔn)性能是約 28% 的分類準(zhǔn)確率。
數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/RfHHbzw
11.
波士頓房價數(shù)據(jù)集 波士頓房價數(shù)據(jù)集(Boston House Price Dataset)包含對房價的預(yù)測,以千美元計,給定的條件是房屋及其相鄰房屋的詳細(xì)信息。該數(shù)據(jù)集是一個回歸問題。每個類的觀察值數(shù)量是均等的,共有 506 個觀察,13 個輸入變量和1個輸出變量。變量名如下:
CRIM:城鎮(zhèn)人均犯罪率。 ZN:住宅用地超過 25000 sq.ft. 的比例。 INDUS:城鎮(zhèn)非零售商用土地的比例。 CHAS:查理斯河空變量(如果邊界是河流,則為1;否則為0)。 NOX:一氧化氮濃度。 RM:住宅平均房間數(shù)。 AGE:1940 年之前建成的自用房屋比例。 DIS:到波士頓五個中心區(qū)域的加權(quán)距離。 RAD:輻射性公路的接近指數(shù)。 TAX:每 10000 美元的全值財產(chǎn)稅率。 PTRATIO:城鎮(zhèn)師生比例。 B:1000(Bk-0.63)^ 2,其中 Bk 指代城鎮(zhèn)中黑人的比例。 LSTAT:人口中地位低下者的比例。 MEDV:自住房的平均房價,以千美元計。
預(yù)測平均值的基準(zhǔn)性能的均方根誤差(RMSE)是約 9.21 千美元。
數(shù)據(jù)集前5行的示例如下: 下載地址:http://t.cn/RfHTAgY
12.
時間序列數(shù)據(jù)集 機器學(xué)習(xí)可以在時間序列數(shù)據(jù)集上應(yīng)用。這些屬于需要預(yù)測數(shù)值或分類的問題,但數(shù)據(jù)是按時間排序的。下面介紹7個標(biāo)準(zhǔn)時間序列數(shù)據(jù)集,可用于使用機器學(xué)習(xí)進行時間序列預(yù)測的實踐。12.1單變量時間序列數(shù)據(jù)集 只有一個變量的時間序列數(shù)據(jù)集稱為單變量數(shù)據(jù)集(univariate datasets),其優(yōu)點是:
簡單且容易理解; 支持Excel或其他繪圖工具; 易于預(yù)測結(jié)果和期望結(jié)果的比較; 易于嘗試你并評估新的方法。
以下是4個單變量時間序列數(shù)據(jù)集,均可從datamarket上下載。
12.1.1 洗發(fā)水銷售數(shù)據(jù)集(Shampoo Sales Dataset) 該數(shù)據(jù)集描述了3年期間的洗發(fā)水月銷售量,單位是銷售量,有36個觀察值。下面是該數(shù)據(jù)集前5行的示例,包括標(biāo)題行: 12.1.2
日較低溫度數(shù)據(jù)集(Minimum Daily Temperatures Dataset)
該數(shù)據(jù)集描述了澳大利亞墨爾本市10年間(1981-1990)的日較低溫度。單位是攝氏度,有3650個觀察值,數(shù)據(jù)來源為澳大利亞氣象局。
下面是該數(shù)據(jù)集前5行數(shù)據(jù)的示例: 12.1.3 每月太陽黑子數(shù)數(shù)據(jù)集(Monthly Sunspot Dataset)
該數(shù)據(jù)集描述了230年間(1749-1983)觀測到的每月太陽黑子數(shù)量。單位是太陽黑子數(shù)量,有2820個觀察值。數(shù)據(jù)集的來源為 Andrews&Herzberg(1985)。
下面是前5行數(shù)據(jù)的示例:
12.1.4
每日女嬰出生人數(shù)數(shù)據(jù)集 該數(shù)據(jù)集描述了1959年加利福尼亞州每日出生的女嬰人數(shù)。單位是人數(shù),有365個觀察值。數(shù)據(jù)集來源自 Newton(1988)。下面是前5行的示例: 12.2 多變量時間序列數(shù)據(jù)集 多變量數(shù)據(jù)集(Multivariate datasets)通常更具挑戰(zhàn)性,多變量時間序列數(shù)據(jù)的主要來源是 UCI 機器學(xué)習(xí)庫(http://archive.ics.uci.edu/ml/),下文推薦的3個數(shù)據(jù)集均可下載。 12.2.1 EEG 人眼狀態(tài)數(shù)據(jù)集 該數(shù)據(jù)集描述個體的 EEG 數(shù)據(jù),以及他們的眼睛是睜著還是閉著。這個問題是為了根據(jù)跟定的 EEG 數(shù)據(jù)預(yù)測眼睛的狀態(tài)。
這是一個分類預(yù)測模型問題,共有14980個觀察值和15個輸入變量。 分類值“1”表示眼睛閉著,“0”表示眼睛睜開著。 數(shù)據(jù)按時間排序,記錄觀察結(jié)果的時間是117秒。
下面是數(shù)據(jù)集前5行的示例: 12.2.2 使用檢測數(shù)據(jù)集(Occupancy Detection Dataset) 這個數(shù)據(jù)集描述有關(guān)房間特征的數(shù)據(jù),目的是預(yù)測房間是否在使用中。數(shù)據(jù)集包含幾個星期期間,共10560個一分鐘的觀察,屬于分類預(yù)測問題。數(shù)據(jù)集包括7個特征值,例如房間的光線、氣溫、濕度等。
下面是前5行數(shù)據(jù)的示例,包括標(biāo)題行: 12.2.3 臭氧水平檢測數(shù)據(jù)集
這個數(shù)據(jù)集描述了6年期間的地面臭氧濃度數(shù)據(jù),目的是預(yù)測是否“臭氧日”。數(shù)據(jù)集包含2,536個觀察值,73個特征。 這是分類預(yù)測問題,類別值為“1”表示這天是臭氧日,為“0”表示正常日。
下面是前5行的示例: 總結(jié) 本文介紹了 10 個更受歡迎的標(biāo)準(zhǔn)數(shù)據(jù)集,你可以用它們來進行機器學(xué)習(xí)的應(yīng)用練習(xí)。 可以采取以下步驟:
選擇一個數(shù)據(jù)集。 選擇你最喜歡的工具(例如 Weka,scikit-learn 或 R) 看看你的結(jié)果比基準(zhǔn)分?jǐn)?shù)高多少。
總結(jié)
- 上一篇: Centos8下nginx源码编译安装
- 下一篇: java smtp服务器,用Java实现