机器学习算法基础——机器学习概述
生活随笔
收集整理的這篇文章主要介紹了
机器学习算法基础——机器学习概述
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
20.數據的劃分和介紹
數據集劃分
機器學習一般的數據集會劃分為兩個部分:
- 訓練數據:用于訓練,構建模型
- 測試數據:在模型檢驗時使用,用于評估模型是否有效
sklearn數據集劃分API
sklearn.model_selection.train_test_split
scikit-learn數據集API介紹
sklearn.datasets
- 加載獲取流行數據集
- datasets.load_*()
- 獲取小規模數據集,數據包含在datasets里
- datasets.fetch_*(data_home=None)
- 獲取大規模數據集,需要從網絡上下載,函數的第一個參數是data_home,表示數據集下載的目錄,默認是 ~/scikit_learn_data/
獲取數據集返回的類型
load*和fetch*返回的數據類型datasets.base.Bunch(字典格式)
- data:特征數據數組,是 [n_samples * n_features] 的二維numpy.ndarray 數組
- target:標簽數組,是 n_samples 的一維 numpy.ndarray 數組
- DESCR:數據描述
- feature_names:特征名,新聞數據,手寫數字、回歸數據集沒有 target_names:標簽名,回歸數據集沒有
sklearn分類數據集
sklearn.datasets.load_iris() ? ? ? ? ? 加載并返回鳶尾花數據集
sklearn.datasets.load_digits() ? ? ? ? ? 加載并返回數字數據集
from sklearn.datasets import load_iris from sklearn.model_selection import train_test_splitli = load_iris()# 注意返回值,訓練集 train x_train, y_train # 測試集 test x_test, y_test. 特征值 目標值 x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, test_size=0.25)print("訓練集特征值和目標值:", x_train, y_train) print("測試集特征值和目標值:", x_test, y_test)用于分類的大數據集
- sklearn.datasets.fetch_20newsgroups(data_home=None,subset=‘train’)
- subset: 'train'或者'test','all',可選,選擇要加載的數據集. 訓練集的“訓練”,測試集的“測試”,兩者的“全部”
- datasets.clear_data_home(data_home=None)
- 清除目錄下的數據
sklearn回歸數據集
sklearn.datasets.load_boston() ? ? ? ? ? ? 加載并返回波士頓房價數據集
?sklearn.datasets.load_diabetes() ? ? ? ? ? ? 加載和返回糖尿病數據集
21.轉換器與估計器
想一下之前做的特征工程的步驟?
?sklearn機器學習算法的實現-估計器
?在sklearn中,估計器(estimator)是一個重要的角色,分類器和回歸器都屬于estimator,是一類實現了算法的API
1、用于分類的估計器:
- sklearn.neighbors?? ?k-近鄰算法
- sklearn.naive_bayes ? ? ?貝葉斯
- sklearn.linear_model.LogisticRegression ? ? 邏輯回歸
2、用于回歸的估計器:
- sklearn.linear_model.LinearRegression ? ? 線性回歸
- sklearn.linear_model.Ridge ? ? ?嶺回歸?
總結
以上是生活随笔為你收集整理的机器学习算法基础——机器学习概述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习算法基础——数据降维
- 下一篇: 机器学习算法基础——k近邻算法