當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习算法基础——机器学习概述

發布時間：2025/3/21 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习算法基础——机器学习概述小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

20.數據的劃分和介紹

數據集劃分

機器學習一般的數據集會劃分為兩個部分：

訓練數據：用于訓練，構建模型
測試數據：在模型檢驗時使用，用于評估模型是否有效

sklearn數據集劃分API

sklearn.model_selection.train_test_split

scikit-learn數據集API介紹

sklearn.datasets

加載獲取流行數據集
datasets.load_*()
獲取小規模數據集，數據包含在datasets里
datasets.fetch_*(data_home=None)
獲取大規模數據集，需要從網絡上下載，函數的第一個參數是data_home，表示數據集下載的目錄,默認是 ~/scikit_learn_data/

獲取數據集返回的類型

load*和fetch*返回的數據類型datasets.base.Bunch(字典格式)

data：特征數據數組，是 [n_samples * n_features] 的二維numpy.ndarray 數組
target：標簽數組，是 n_samples 的一維 numpy.ndarray 數組
DESCR：數據描述
feature_names：特征名,新聞數據，手寫數字、回歸數據集沒有 target_names：標簽名,回歸數據集沒有

sklearn分類數據集

sklearn.datasets.load_iris() ? ? ? ? ? 加載并返回鳶尾花數據集

sklearn.datasets.load_digits() ? ? ? ? ? 加載并返回數字數據集

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_splitli = load_iris()# 注意返回值，訓練集 train x_train, y_train # 測試集 test x_test, y_test. 特征值目標值 x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)print("訓練集特征值和目標值：", x_train, y_train) print("測試集特征值和目標值：", x_test, y_test)

用于分類的大數據集

sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
subset: 'train'或者'test','all'，可選，選擇要加載的數據集. 訓練集的“訓練”，測試集的“測試”，兩者的“全部”
datasets.clear_data_home(data_home=None)
清除目錄下的數據

sklearn回歸數據集

sklearn.datasets.load_boston() ? ? ? ? ? ? 加載并返回波士頓房價數據集

?sklearn.datasets.load_diabetes() ? ? ? ? ? ? 加載和返回糖尿病數據集

21.轉換器與估計器

想一下之前做的特征工程的步驟？

實例化 (實例化的是一個轉換器類(Transformer))

調用fit_transform(對于文檔建立分類詞頻矩陣，不能同時調用)

?sklearn機器學習算法的實現-估計器

?在sklearn中，估計器(estimator)是一個重要的角色，分類器和回歸器都屬于estimator，是一類實現了算法的API

1、用于分類的估計器：

sklearn.neighbors?? ?k-近鄰算法
sklearn.naive_bayes ? ? ?貝葉斯
sklearn.linear_model.LogisticRegression ? ? 邏輯回歸

2、用于回歸的估計器：

sklearn.linear_model.LinearRegression ? ? 線性回歸
sklearn.linear_model.Ridge ? ? ?嶺回歸?

總結

以上是生活随笔為你收集整理的机器学习算法基础——机器学习概述的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。