python第三章上机实践_《机器学习Python实践》读书笔记-第三章
《機器學習Python實踐》,第三章,第一個機器學習項目
以往目錄:橘貓吃不胖:《機器學習Python實踐》讀書筆記-第一章?zhuanlan.zhihu.com
書中介紹了一個標準的步驟:導入數據
這里使用的是鳶尾花數據集,sklearn中有,我們可以直接導入,省去了很多步驟sklearn.datasets.load_iris(*,return_X_y=False,as_frame=False)
返回結果就是一個數據集,但是包裝過的,包含了很多內容
from sklearn.datasets import load_iris
data = load_iris()
data.feature_names
data.target_names
return_X_y:bool, default=False.
可以直接返回特征和目標變量
x,y = load_iris(return_X_y=True)
as_frame:bool, default=False
可以直接返回pandas的DataFrame
x,y = load_iris(return_X_y=True , as_frame=True)
概述數據
導入數據集之后,我們要了解下我們的數據都是什么
比如,我們有4個特征,都是數值型,共150條記錄
x.info()
x.describe()
y.groupby(y.values).count()
數據可視化
簡單了解數據之后,我們可以通過數據可視化的方式,更直觀的理解數據
我們可以先單獨觀察每一個特征,然后觀察特征與特征之間的關系
單特征,通??梢钥聪渚€圖和直方圖
x.plot.box(subplots=True , layout=(2,2) , figsize=(8,8))
x.hist(figsize=(8,8))
多特征之間的關系,可以使用散點圖矩陣
import pandas as pd
pd.plotting.scatter_matrix(x , figsize=(8,8))評估算法
實施預測
后面的這兩步,再后面繼續介紹,這里暫時先留空。
這一章,主要是,介紹了機器學習的常規步驟,從理解數據,到調試算法模型(后面總結)
第四章的話,關于python、pandas、matplotlib的,也跳過不記錄了。
總結
以上是生活随笔為你收集整理的python第三章上机实践_《机器学习Python实践》读书笔记-第三章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 沪市可转债交易规则,有以下四个规则
- 下一篇: 一个人能办几张银行卡储蓄卡 个人可以办多