當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习练习数据哪里找？两行代码搞定！

發布時間：2025/3/8 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习练习数据哪里找？两行代码搞定！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

初學者學習機器學習的時候，經常會找不到練習的數據，實際上scikit-learn內置了很多可以用于機器學習的數據，可以用兩行代碼就可以使用這些數據。

一、自帶數據集

自帶的小的數據集為：sklearn.datasets.load_<name>

load_boston	Boston房屋價格	回歸	506*13
fetch_california_housing	加州住房	回歸	20640*9
load_diabetes	糖尿病	回歸	442*10
load_digits	手寫字	分類	1797*64
load_breast_cancer	乳腺癌	分類、聚類	(357+212)*30
load_iris	鳶尾花	分類、聚類	(503)4
load_wine	葡萄酒	分類	(59+71+48)*13
load_linnerud	體能訓練	多分類	20

怎么用：

數據集的信息關鍵字：

DESCR：
數據集的描述信息
data：
內部數據（即：X）
feature_names：
數據字段名
target：
數據標簽（即：y）
target_names：
標簽字段名(回歸數據集無此項）?

使用方法（以load_iris為例）

數據介紹：

一般用于做分類測試
有150個數據集，共分為3類，每類50個樣本。每個樣本有4個特征。
每條記錄都有 4 項特征：包含4個特征（Sepal.Length（花萼長度）、Sepal.Width（花萼寬度）、Petal.Length（花瓣長度）、Petal.Width（花瓣寬度）），特征值都為正浮點數，單位為厘米。
可以通過這4個特征預測鳶尾花卉屬于（iris-setosa（山鳶尾）, iris-versicolour（雜色鳶尾）, iris-virginica（維吉尼亞鳶尾））中的哪一品種。

第一步：

導入數據

from?sklearn.datasets import?load_iris iris = load_iris()第二步：定義X和y X, y = iris.data, iris.target 此外，可以看下數據的維度：X.shape,y.shape 輸出為：((150, 4), (150,))查看特征名： iris.feature_names 輸出為：['sepal length (cm)','sepal width (cm)','petal length (cm)','petal width (cm)']查看標簽名： iris.target_names

輸出為：

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

劃分訓練集和測試集:

from?sklearn.model_selection import?train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

這樣就把訓練集和測試集按照3比1劃分了，接下來就可以用機器學習算法進行訓練和測試了。

小技巧：將數據轉換為Dataframe格式（兩種方法都可以）：

import?pandas as?pd df_X = pd.DataFrame(iris.data, columns=iris.feature_names) #這個是X df_y = pd.DataFrame(iris.target, columns=["target"]) #這個是y df=pd.concat([df_X,df2],axis=1)#橫向合并 df.head()

或者：

import?numpy as?np import?pandas as?pd col_names = iris['feature_names'] + ['target'] df = pd.DataFrame(data= np.c_[iris['data'], iris['target']], columns=col_names) df.head()

輸出結果一致：

二、可在線下載的數據集（需要下載）

下載的數據集為：sklearn.datasets.fetch_<name>

這類數據需要在線下載，有點慢

fetch_20newsgroups	用于文本分類、文本挖據和信息檢索研究的國際標準數據集之一。數據集收集了大約20,000左右的新聞組文檔，均勻分為20個不同主題的新聞組集合。返回一個可以被文本特征提取器
fetch_20newsgroups_vectorized	這是上面這個文本數據的向量化后的數據，返回一個已提取特征的文本序列，即不需要使用特征提取器
fetch_california_housing	加利福尼亞的房價數據，總計20640個樣本，每個樣本8個屬性表示，以及房價作為target，所有屬性值均為number，詳情可調用fetch_california_housing()['DESCR']了解每個屬性的具體含義；
fetch_covtype	森林植被類型，總計581012個樣本，每個樣本由54個維度表示（12個屬性，其中2個分別是onehot4維和onehot40維），以及target表示植被類型1-7，所有屬性值均為number，詳情可調用fetch_covtype()['DESCR']了解每個屬性的具體含義
fetch_kddcup99	KDD競賽在1999年舉行時采用的數據集，KDD99數據集仍然是網絡入侵檢測領域的事實Benckmark，為基于計算智能的網絡入侵檢測研究奠定基礎，包含41項特征
fetch_lfw_pairs	該任務稱為人臉驗證：給定一對兩張圖片，二分類器必須預測這兩個圖片是否來自同一個人。
fetch_lfw_people	打好標簽的人臉數據集
fetch_mldata	從 mldata.org 中下載數據集
fetch_olivetti_faces	Olivetti 臉部圖片數據集
fetch_rcv1	路透社新聞語聊數據集
fetch_species_distributions	物種分布數據集

使用方法與自帶數據集一致，只是多了下載過程（示例：fetch_20newsgroups）

from?sklearn.datasets import?fetch_20newsgroups news = fetch_20newsgroups(subset='all') #本次使用的數據需要到互聯網上下載 from?sklearn.model_selection import?train_test_split #對數據訓練集和測試件進行劃分 X_train, X_test, y_train, y_test = train_test_split(news.data, news.target, test_size=0.25, random_state=33)

三、生成數據集

可以用來分類任務，可以用來回歸任務，可以用來聚類任務，用于流形學習的，用于因子分解任務的，用于分類任務和聚類任務的：這些函數產生樣本特征向量矩陣以及對應的類別標簽集合

make_blobs：多類單標簽數據集，為每個類分配一個或多個正態分布的點集
make_classification：多類單標簽數據集，為每個類分配一個或多個正態分布的點集，提供了為數據添加噪聲的方式，包括維度相關性，無效特征以及冗余特征等
make_gaussian-quantiles：將一個單高斯分布的點集劃分為兩個數量均等的點集，作為兩類
make_hastie-10-2：產生一個相似的二元分類數據集，有10個維度
make_circle和make_moons：產生二維二元分類數據集來測試某些算法的性能，可以為數據集添加噪聲，可以為二元分類器產生一些球形判決界面的數據

舉例：

import?matplotlib.pyplot as?plt from?sklearn.datasets import?make_moons X, y = make_moons(n_samples=100, noise=0.15, random_state=42) plt.title('make_moons function example') plt.scatter(X[:,0],X[:,1],marker='o',c=y) plt.show()

四、其它數據集

kaggle：

https://www.kaggle.com

天池：

https://tianchi.aliyun.com/dataset

搜狗實驗室：

http://www.sogou.com/labs/resource/list_pingce.php

DC競賽：

https://www.pkbigdata.com/common/cmptIndex.html

DF競賽：

https://www.datafountain.cn/datasets

總結

本文為機器學習初學者提供了使用scikit-learn內置數據的方法，用兩行代碼就可以使用這些數據，可以進行大部分的機器學習實驗了。

參考

https://scikit-learn.org/stable/datasets/index.html

關于本站

“機器學習初學者”公眾號由是黃海廣博士創建，黃博個人知乎粉絲23000+，github排名全球前110名（32000+）。本公眾號致力于人工智能方向的科普性文章，為初學者提供學習路線和基礎資料。原創作品有：吳恩達機器學習個人筆記、吳恩達深度學習筆記等。

往期精彩回顧

那些年做的學術公益-你不是一個人在戰斗
適合初學者入門人工智能的路線及資料下載
吳恩達機器學習課程筆記及資源（github標星12000+，提供百度云鏡像）
吳恩達深度學習筆記及視頻等資源（github標星8500+，提供百度云鏡像）
《統計學習方法》的python代碼實現（github標星7200+）
精心整理和翻譯的機器學習的相關數學資料
首發：深度學習入門寶典-《python深度學習》原文代碼中文注釋版及電子書

備注：加入本站微信群或者qq群，請回復“加群”

加入知識星球（4300+用戶，ID：92416895），請回復“知識星球”

總結

以上是生活随笔為你收集整理的机器学习练习数据哪里找？两行代码搞定！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：手把手教你如何在阿里云ECS搭建Pyth
下一篇：如何看待瘦身成功版BERT——ALBER