机器学习实战 | SKLearn最全应用指南
Python微信訂餐小程序課程視頻
https://edu.csdn.net/course/detail/36074
Python實(shí)戰(zhàn)量化交易理財(cái)系統(tǒng)
https://edu.csdn.net/course/detail/35475
 
作者:韓信子@ShowMeAI
 教程地址:http://www.showmeai.tech/tutorials/41
 本文地址:http://www.showmeai.tech/article-detail/203
 聲明:版權(quán)所有,轉(zhuǎn)載請聯(lián)系平臺與作者并注明出處
 收藏ShowMeAI查看更多精彩內(nèi)容
引言
我們在上一篇SKLearn入門與簡單應(yīng)用案例里給大家講到了SKLearn工具的基本板塊與使用方法,在本篇內(nèi)容中,我們展開講解SKLearn的進(jìn)階與核心內(nèi)容。SKLearn中有六大任務(wù)模塊,如下圖所示:分別是分類、回歸、聚類、降維、模型選擇和預(yù)處理。
- SKLearn官網(wǎng):https://scikit-learn.org/stable/
 - SKLearn的快速使用方法也推薦大家查看ShowMeAI的文章和速查手冊 AI建模工具速查|Scikit-learn使用指南
 
在SKLearn中,因?yàn)樽隽松蠈拥姆庋b,分類模型、回歸模型、聚類與降維模型、預(yù)處理器等等都叫做估計(jì)器(estimator),就像在Python里「萬物皆對象」,在SKLearn里「萬物皆估計(jì)器」。
在本篇內(nèi)容中,我們將給大家進(jìn)一步深入講解scikit-learn工具庫的使用方法,力求完整覆蓋sklearn工具庫應(yīng)用的方方面面。本文的內(nèi)容板塊包括:
- ① 機(jī)器學(xué)習(xí)基礎(chǔ)知識:機(jī)器學(xué)習(xí)定義與四要素:數(shù)據(jù)、任務(wù)、性能度量和模型。機(jī)器學(xué)習(xí)概念,以便和SKLearn對應(yīng)匹配上。
 - ② SKLearn講解:API設(shè)計(jì)原理,sklearn幾大特點(diǎn):一致性、可檢驗(yàn)、標(biāo)準(zhǔn)類、可組合和默認(rèn)值,以及SKLearn自帶數(shù)據(jù)以及儲存格式。
 - ③ SKLearn三大核心API講解:包括估計(jì)器、預(yù)測器和轉(zhuǎn)換器。這個板塊很重要,大家實(shí)際應(yīng)用時主要是借助于核心API落地。
 - ④ SKLearn高級API講解:包括簡化代碼量的流水線(Pipeline估計(jì)器),集成模型(Ensemble估計(jì)器)、有多類別-多標(biāo)簽-多輸出分類模型(Multiclass 和 Multioutput 估計(jì)器)和模型選擇工具(Model Selection估計(jì)器)。
 
1.機(jī)器學(xué)習(xí)簡介
關(guān)于本節(jié)內(nèi)容,強(qiáng)烈推薦大家閱讀ShowMeAI文章 圖解機(jī)器學(xué)習(xí) | 機(jī)器學(xué)習(xí)基礎(chǔ)知識 和 圖解機(jī)器學(xué)習(xí) | 模型評估方法與準(zhǔn)則 ,ShowMeAI對相關(guān)知識內(nèi)容展開做了詳細(xì)講解。
1.1 定義和構(gòu)成元素
何為機(jī)器學(xué)習(xí)?大師湯姆米切爾(Tom Mitchell)對機(jī)器學(xué)習(xí)定義的原話是:
A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P if its performance at tasks in T, as measured by P, improves with experience E.
這段英文中有兩個詞computer program和learn,翻譯成中文就是機(jī)器(計(jì)算機(jī)程序)和學(xué)習(xí),整體翻譯下來就是說:如果計(jì)算機(jī)程序在T任務(wù)上的性能(由P衡量)隨著經(jīng)驗(yàn)E而提高,則稱計(jì)算機(jī)程序從經(jīng)驗(yàn)E中學(xué)習(xí)某類任務(wù)T。
由上述機(jī)器學(xué)習(xí)的定義可知機(jī)器學(xué)習(xí)包含四個元素:
- 數(shù)據(jù)(Data)
 - 任務(wù)(Task)
 - 性能度量(Quality Metric)
 - 算法(Algorithm)
 
1.2 數(shù)據(jù)
數(shù)據(jù)(data)是信息的載體。數(shù)據(jù)可以有以下劃分方式:
-  
從「數(shù)據(jù)具體類型」維度劃分:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
- 結(jié)構(gòu)化數(shù)據(jù)(structured data)是由二維表結(jié)構(gòu)來邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù)。
 - 非結(jié)構(gòu)化數(shù)據(jù)是沒有預(yù)定義的數(shù)據(jù),不便用數(shù)據(jù)庫二維表來表現(xiàn)的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)包括圖片,文字,語音和視頻等。
 
 -  
從「數(shù)據(jù)表達(dá)形式」維度劃分:原始數(shù)據(jù)和加工數(shù)據(jù)。
 -  
從「數(shù)據(jù)統(tǒng)計(jì)性質(zhì)」維度劃分:樣本內(nèi)數(shù)據(jù)和樣本外數(shù)據(jù)。
 
對于非結(jié)構(gòu)數(shù)據(jù),通常神經(jīng)網(wǎng)絡(luò)有更好的效果,可以參考ShowMeAI的文章Python機(jī)器學(xué)習(xí)算法實(shí)踐中的圖像建模例子。
機(jī)器學(xué)習(xí)模型很多時候使用的是結(jié)構(gòu)化數(shù)據(jù),即二維的數(shù)據(jù)表。我們這里以iris花瓣數(shù)據(jù)集舉例,如下圖。
下面術(shù)語大家在深入了解機(jī)器學(xué)習(xí)前一定要弄清楚:
- 每行的記錄(這是一朵鳶尾花的數(shù)據(jù)統(tǒng)計(jì)),稱為一個「樣本(sample)」。
 - 反映樣本在某方面的性質(zhì),例如萼片長度(Sepal Length)、花瓣長度(Petal Length),稱為「特征(feature)」。
 - 特征上的取值,例如「樣本1」對應(yīng)的5.1、3.5稱為「特征值(feature value)」。
 - 關(guān)于樣本結(jié)果的信息,例如Setosa、Versicolor,稱為「類別標(biāo)簽(class label)」。
 - 包含標(biāo)簽信息的示例,則稱為「樣例(instance)」,即樣例=(特征,標(biāo)簽)。
 - 從數(shù)據(jù)中學(xué)得模型的過程稱為「學(xué)習(xí)(learning)」或「訓(xùn)練(training)」。
 - 在訓(xùn)練數(shù)據(jù)中,每個樣例稱為「訓(xùn)練樣例(training instance)」,整個集合稱為「訓(xùn)練集(training set)」。
 
1.3 任務(wù)
根據(jù)學(xué)習(xí)的任務(wù)模式(訓(xùn)練數(shù)據(jù)是否有標(biāo)簽),機(jī)器學(xué)習(xí)可分為幾大類:
- 監(jiān)督學(xué)習(xí)(有標(biāo)簽)
 - 無監(jiān)督學(xué)習(xí)(無標(biāo)簽)
 - 半監(jiān)督學(xué)習(xí)(有部分標(biāo)簽)
 - 強(qiáng)化學(xué)習(xí)(有延遲的標(biāo)簽)
 
下圖畫出機(jī)器學(xué)習(xí)各類之間的關(guān)系。
1.4 性能度量
回歸和分類任務(wù)中最常見的誤差函數(shù)以及一些有用的性能度量如下,詳細(xì)內(nèi)容可以參考ShowMeAI文章 機(jī)器學(xué)習(xí)評估與度量準(zhǔn)則。
2. SKLearn數(shù)據(jù)
SKLearn作為通用機(jī)器學(xué)習(xí)建模的工具包,包含六個任務(wù)模塊和一個數(shù)據(jù)導(dǎo)入模塊:
- 監(jiān)督學(xué)習(xí):分類任務(wù)
 - 監(jiān)督學(xué)習(xí):回歸任務(wù)
 - 無監(jiān)督學(xué)習(xí):聚類任務(wù)
 - 無監(jiān)督學(xué)習(xí):降維任務(wù)
 - 模型選擇任務(wù)
 - 數(shù)據(jù)預(yù)處理任務(wù)
 - 數(shù)據(jù)導(dǎo)入模塊
 
首先看看SKLearn默認(rèn)數(shù)據(jù)格式和自帶數(shù)據(jù)集。
2.1 SKLearn默認(rèn)數(shù)據(jù)格式
Sklean里模型能直接使用的數(shù)據(jù)有兩種形式:
- Numpy二維數(shù)組(ndarray)的稠密數(shù)據(jù)(dense data),通常都是這種格式。
 - SciPy矩陣(scipy.sparse.matrix)的稀疏數(shù)據(jù)(sparse data),比如文本分析每個單詞(字典有100000個詞)做獨(dú)熱編碼得到矩陣有很多0,這時用ndarray就不合適了,太耗內(nèi)存。
 
2.2 自帶數(shù)據(jù)集
SKLearn里面有很多自帶數(shù)據(jù)集供用戶使用。
比如在之前文章Python機(jī)器學(xué)習(xí)算法實(shí)踐中用到的鳶尾花數(shù)據(jù)集,包含四個特征(萼片長/寬和花瓣長/寬)和三個類別。
我們可以直接從SKLearn里面的datasets模塊中引入,代碼如下(代碼可以在 線上Jupyter環(huán)境 中運(yùn)行):
| | # 導(dǎo)入工具庫 | | | from sklearn.datasets import load\_iris | | | iris = load\_iris() | | | | | | #數(shù)據(jù)是以「字典」格式存儲的,看看 iris 的鍵有哪些。 | | | iris.keys() |輸出如下:
| | dict\_keys(['data', 'target', 'target\_names', 'DESCR', 'feature\_names', 'filename']) |讀取數(shù)據(jù)集的信息:
| | #輸出iris 數(shù)據(jù)中特征的大小、名稱等信息和前五個樣本。 | | | n\_samples, n\_features = iris.data.shape | | | print((n\_samples, n\_features)) | | | print(iris.feature\_names) | | | print(iris.target.shape) | | | print(iris.target\_names) | | | iris.data[0:5] |輸出如下:
| | (150, 4) | | | ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] | | | (150,) | | | ['setosa' 'versicolor' 'virginica'] | | | array([[5.1, 3.5, 1.4, 0.2], | | | [4.9, 3. , 1.4, 0.2], | | | [4.7, 3.2, 1.3, 0.2], | | | [4.6, 3.1, 1.5, 0.2], | | | [5. , 3.6, 1.4, 0.2]]) |構(gòu)建Dataframe格式的數(shù)據(jù)集:
| | # 將X和y合并為Dataframe格式數(shù)據(jù) | | | import pandas as pd | | | import seaborn as sns | | | iris\_data = pd.DataFrame( iris.data, | | | columns=iris.feature\_names ) | | | iris\_data['species'] = iris.target\_names[iris.target] | | | iris\_data.head(3).append(iris\_data.tail(3)) |輸出如下:
| 0 | 5.1 | 3.5 | 1.4 | 0.2 | setosa | 
| 1 | 4.9 | 3.0 | 1.4 | 0.2 | setosa | 
| 2 | 4.7 | 3.2 | 1.3 | 0.2 | setosa | 
| 147 | 6.5 | 3.0 | 5.2 | 2.0 | virginica | 
| 148 | 6.2 | 3.4 | 5.4 | 2.3 | virginica | 
| 149 | 5.9 | 3.0 | 5.1 | 1.8 | virginica | 
我們使用seaborn來做一些數(shù)據(jù)分析,查看一下數(shù)據(jù)的分布特性。這里使用到的是成對維度的關(guān)聯(lián)分析,關(guān)于seaborn的使用方法可以參閱ShowMeAI的文章 seaborn工具與數(shù)據(jù)可視化教程。
| | # 使用Seaborn的pairplot查看兩兩特征之間的關(guān)系 | | | sns.pairplot( iris\_data, hue='species', palette='husl' ) |2.3 數(shù)據(jù)集引入方式
前面提到的是鳶尾花iris數(shù)據(jù)集,我們通過load_iris加載進(jìn)來,實(shí)際上SKLearn有三種引入數(shù)據(jù)形式。
- 打包好的數(shù)據(jù):對于小數(shù)據(jù)集,用sklearn.datasets.load_*
 - 分流下載數(shù)據(jù):對于大數(shù)據(jù)集,用sklearn.datasets.fetch_*
 - 隨機(jī)創(chuàng)建數(shù)據(jù):為了快速展示,用sklearn.datasets.make_*
 
上面這個星號*指代具體文件名,如果大家在Jupyter這種IDE環(huán)境中,可以通過tab制表符自動補(bǔ)全和選擇。
- datasets.load_
 - datasets.fetch_
 - datasets.make_
 
比如我們調(diào)用load_iris
| | from sklearn import datasets | | | datasets.load\_iris |輸出如下:
| | <function sklearn.datasets.base.load\_iris(return\_X\_y=False)> |我們調(diào)用load_digits加載手寫數(shù)字圖像數(shù)據(jù)集
| | digits = datasets.load\_digits() | | | digits.keys() |輸出:
| | dict\_keys(['data', 'target', 'target\_names', 'images', 'DESCR']) |我們再來看看通過fetch拉取數(shù)據(jù)的示例:
| | #加州房屋數(shù)據(jù)集 | | | california\_housing = datasets.fetch\_california\_housing() | | | california\_housing.keys() |輸出:
| | dict\_keys(['data', 'target', 'feature\_names', 'DESCR']) |3.SKLearn核心API
我們前面提到SKLearn里萬物皆估計(jì)器。估計(jì)器是個非常抽象的叫法,不嚴(yán)謹(jǐn)?shù)囊粋€理解,我們可以視其為一個模型(用來回歸、分類、聚類、降維),或一套流程(預(yù)處理、網(wǎng)格搜索交叉驗(yàn)證)。
本節(jié)三大API其實(shí)都是估計(jì)器:
- 估計(jì)器(estimator)通常是用于擬合功能的估計(jì)器。
 - 預(yù)測器(predictor)是具有預(yù)測功能的估計(jì)器。
 - 轉(zhuǎn)換器(transformer)是具有轉(zhuǎn)換功能的估計(jì)器。
 
3.1 估計(jì)器
任何可以基于數(shù)據(jù)集對一些參數(shù)進(jìn)行估計(jì)的對象都被稱為估計(jì)器,它有兩個核心點(diǎn):
- ① 需要輸入數(shù)據(jù)。
 - ② 可以估計(jì)參數(shù)。
 
估計(jì)器首先被創(chuàng)建,然后被擬合。
-  
創(chuàng)建估計(jì)器:需要設(shè)置一組超參數(shù),比如
- 線性回歸里超參數(shù)normalize=True
 - K均值里超參數(shù)n_clusters=5
 
 -  
擬合估計(jì)器:需要訓(xùn)練集
- 在監(jiān)督學(xué)習(xí)中的代碼范式為model.fit(X_train, y_train)
 - 在無監(jiān)督學(xué)習(xí)中的代碼范式為model.fit(X_train)
 
 
擬合之后可以訪問model里學(xué)到的參數(shù),比如線性回歸里的特征系數(shù)coef,或K均值里聚類標(biāo)簽labels,如下(具體的可以在SKLearn文檔的每個模型頁查到)。
- model.coef_
 - model.labels_
 
下面看看監(jiān)督學(xué)習(xí)的「線性回歸」和無監(jiān)督學(xué)習(xí)的「K均值聚類」的具體例子。
(1) 線性回歸
首先從SKLearn工具庫的linear_model中引入LinearRegression;創(chuàng)建模型對象命名為model,設(shè)置超參數(shù)normalize為True(在每個特征值上做標(biāo)準(zhǔn)化,這樣能保證擬合的穩(wěn)定性,加速模型擬合速度)。
| | from sklearn.linear\_model import LinearRegression | | | model = LinearRegression(normalize=True) | | | model |輸出:
| | LinearRegression(copy\_X=True, fit\_intercept=True, n\_jobs=None, normalize=True) |創(chuàng)建完后的估計(jì)器會顯示所有的超參數(shù)(比如剛才設(shè)置的normalize=True),未設(shè)置的超參數(shù)都使用默認(rèn)值。
自己創(chuàng)建一個簡單數(shù)據(jù)集(一條直線上的數(shù)據(jù)點(diǎn)),簡單講解一下估計(jì)器里面的特征。
| | import numpy as np | | | import matplotlib.pyplot as plt | | | x = np.arange(10) | | | y = 2 * x + 1 | | | plt.plot( x, y, 'o' ) |在我們生成的數(shù)據(jù)里,X是一維,我們做一點(diǎn)小小的調(diào)整,用np.newaxis加一個維度,把[1,2,3]轉(zhuǎn)成[[1],[2],[3]],這樣的數(shù)據(jù)形態(tài)可以符合sklearn的要求。接著把X和y送入fit()函數(shù)來擬合線性模型的參數(shù)。
| | X = x[:, np.newaxis] | | | model.fit( X, y ) |輸出為:
| | LinearRegression(copy\_X=True, fit\_intercept=True, n\_jobs=None, normalize=True) |擬合完后的估計(jì)器和創(chuàng)建完似乎沒有差別,但我們已經(jīng)可以用model.param_訪問到擬合完數(shù)據(jù)的參數(shù)了,如下代碼。
| | print( model.coef\_ ) | | | print( model.intercept\_ ) | | | # 輸出結(jié)果 | | | # [2.] | | | # 0.9999999999999982 |(2) K均值
我們來看看聚類的例子,先從SKLearn的cluster中導(dǎo)入KMeans,初始化模型對象命名為model,設(shè)置超參數(shù)n_cluster為3(為了展示方便而我們知道用的iris數(shù)據(jù)集有3類,實(shí)際上可以設(shè)置不同數(shù)量的n_cluster)。
雖然iris數(shù)據(jù)里包含標(biāo)簽y,但在無監(jiān)督的聚類中我們不會使用到這個信息。
| | from sklearn.cluster import KMeans | | | model = KMeans( n\_clusters=3 ) | | | model |輸出為:
| | KMeans(algorithm='auto', copy\_x=True, init='k-means++', max\_iter=300, | | | n\_clusters=3, n\_init=10, n\_jobs=None, precompute\_distances='auto', | | | random\_state=None, tol=0.0001, verbose=0) |iris數(shù)據(jù)集包含四維特征(萼片長、萼片寬、花瓣長、花瓣寬),在下面的例子中我們希望可視化,這里我們簡單選取兩個特征(萼片長、萼片寬)來做聚類并且可視化結(jié)果。
注意下面代碼X = iris.data[:,0:2]其實(shí)就是提取特征維度。
| | from sklearn.datasets import load\_iris | | | iris = load\_iris() | | | X = iris.data[:,0:2] | | | model.fit(X) |輸出為:
| | KMeans(algorithm='auto', copy\_x=True, init='k-means++', max\_iter=300, | | | n\_clusters=3, n\_init=10, n\_jobs=None, precompute\_distances='auto', | | | random\_state=None, tol=0.0001, verbose=0) |擬合完后的估計(jì)器和創(chuàng)建完似乎沒有差別,但我們已經(jīng)可以用model.param_訪問到擬合完數(shù)據(jù)的參數(shù)了,如下代碼。
| | print( model.cluster\_centers\_, '\n') | | | print( model.labels\_, '\n' ) | | | print( model.inertia\_, '\n') | | | print(iris.target) | | | [[5.77358491 2.69245283] | | | [6.81276596 3.07446809] | | | [5.006 3.428 ]] | | | | | | [2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 | | | 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 1 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 | | | 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 0 1 1 1 1 | | | 1 1 0 0 1 1 1 1 0 1 0 1 0 1 1 0 0 1 1 1 1 1 0 0 1 1 1 0 1 1 1 0 1 1 1 0 1 | | | 1 0] | | | | | | 37.05070212765958 | | | | | | [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 | | | 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 | | | 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 | | | 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 | | | 2 2] |這里解釋一下KMeans模型這幾個參數(shù):
- model.clustercenters:簇中心。三個簇意味著有三個坐標(biāo)。
 - model.labels_:聚類后的標(biāo)簽。
 - model.inertia_:所有點(diǎn)到對應(yīng)的簇中心的距離平方和(越小越好)
 
小結(jié)
雖然上面以有監(jiān)督學(xué)習(xí)的Linear Regression和無監(jiān)督學(xué)習(xí)的KMeans舉例,但實(shí)際上你可以將它們替換成其他別的模型,比如監(jiān)督學(xué)習(xí)的Logistic Regression和無監(jiān)督學(xué)習(xí)的DBSCAN。它們都是「估計(jì)器」,因此都有fit()方法。
使用它們的通用偽代碼如下:
| | # 有監(jiān)督學(xué)習(xí) | | | from sklearn.xxx import SomeModel | | | # xxx 可以是 linear\_model 或 ensemble 等 | | | model = SomeModel( hyperparameter ) | | | model.fit( X, y ) | | | | | | # 無監(jiān)督學(xué)習(xí) | | | from sklearn.xxx import SomeModel | | | # xxx 可以是 cluster 或 decomposition 等 | | | model = SomeModel( hyperparameter ) | | | model.fit( X ) |3.2 預(yù)測器
預(yù)測器是估計(jì)器做的一個延展,具備對數(shù)據(jù)進(jìn)行預(yù)測的功能。
預(yù)測器最常見的是predict()函數(shù):
- model.predict(X_test):評估模型在新數(shù)據(jù)上的表現(xiàn)。
 - model.predict(X_train):確認(rèn)模型在老數(shù)據(jù)上的表現(xiàn)。
 
為了進(jìn)行新數(shù)據(jù)評估,我們先將數(shù)據(jù)分成80:20的訓(xùn)練集(X_train, y_train)和測試集(X_test, y_test),再用從訓(xùn)練集上擬合fit()的模型在測試集上預(yù)測predict()。
| | from sklearn.datasets import load\_iris | | | iris = load\_iris() | | | from sklearn.model\_selection import train\_test\_split | | | X\_train, X\_test, y\_train, y\_test = train\_test\_split( iris['data'], | | | iris['target'], | | | test\_size=0.2 ) | | | print( 'The size of X\_train is ', X\_train.shape ) | | | print( 'The size of y\_train is ', y\_train.shape ) | | | print( 'The size of X\_test is ', X\_test.shape ) | | | print( 'The size of y\_test is ', y\_test.shape ) | | | The size of X\_train is (120, 4) | | | The size of y\_train is (120,) | | | The size of X\_test is (30, 4) | | | The size of y\_test is (30,) |predict & predict_proba
對于分類問題,我們不僅想知道預(yù)測的類別是什么,有時我們還希望獲取預(yù)測概率等信息。前者用 predict(),后者用predict_proba()。
| | y\_pred = model.predict( X\_test ) | | | p\_pred = model.predict\_proba( X\_test ) | | | print( y\_test, '\n' ) | | | print( y\_pred, '\n' ) | | | print( p\_pred ) |score & decision_function
預(yù)測器里還有額外的兩個函數(shù)可以使用。在分類問題中:
- score()返回的是分類準(zhǔn)確率。
 - decision_function()返回的是每個樣例在每個類下的分?jǐn)?shù)值。
 
小結(jié)
估計(jì)器都有fit()方法,預(yù)測器都有predict()和score()方法,言外之意不是每個預(yù)測器都有predict_proba()和decision_function()方法,這個在用的時候查查官方文檔就清楚了(比如RandomForestClassifier就沒有decision_function()方法)。
使用它們的通用偽代碼如下:
| | # 有監(jiān)督學(xué)習(xí) | | | from sklearn.xxx import SomeModel | | | # xxx 可以是 linear\_model 或 ensemble 等 | | | model = SomeModel( hyperparameter ) | | | model.fit( X, y ) | | | y\_pred = model.predict( X\_new ) | | | s = model.score( X\_new ) | | | | | | # 無監(jiān)督學(xué)習(xí) | | | from sklearn.xxx import SomeModel | | | # xxx 可以是 cluster 或 decomposition 等 | | | model = SomeModel( hyperparameter ) | | | model.fit( X ) | | | idx\_pred = model.predict( X\_new ) | | | s = model.score( X\_new ) |3.3 轉(zhuǎn)換器
轉(zhuǎn)換器是一種估計(jì)器,也有擬合功能,對比預(yù)測器做完擬合來預(yù)測,轉(zhuǎn)換器做完擬合來轉(zhuǎn)換。核心點(diǎn)如下:
- 估計(jì)器里fit + predict
 - 轉(zhuǎn)換器里fit + transform
 
本節(jié)介紹兩大類轉(zhuǎn)換器:
- 將類別型變量(categorical)編碼成數(shù)值型變量(numerical)
 - 規(guī)范化(normalize)或標(biāo)準(zhǔn)化(standardize)數(shù)值型變量
 
(1) 類別型變量編碼
① LabelEncoder&OrdinalEncoder
LabelEncoder和OrdinalEncoder都可以將字符轉(zhuǎn)成數(shù)字,但是:
- LabelEncoder的輸入是一維,比如1d ndarray
 - OrdinalEncoder的輸入是二維,比如 DataFrame
 
除了LabelEncoder,OrdinalEncoder也可以完成編碼。如下代碼所示:
| | from sklearn.preprocessing import OrdinalEncoder | | | OE = OrdinalEncoder() | | | enc\_DF = pd.DataFrame(enc) | | | dec\_DF = pd.DataFrame(dec) | | | print( OE.fit(enc\_DF) ) | | | print( OE.categories\_ ) | | | print( OE.transform(dec\_DF) ) | | | OrdinalEncoder(categories='auto', dtype=<class 'numpy.float64'>) | | | [array(['blue', 'yellow', 'red'], dtype=object)] | | | [[0.] | | | [1.] | | | [2.]] |上面這種編碼的問題是,在編碼過后會帶來不同類別的大小關(guān)系,比如這里3種顏色其實(shí)本質(zhì)上是平等的,沒有大小關(guān)系。
我們的另外一種類別型數(shù)據(jù)編碼方式,獨(dú)熱向量編碼(one-hot encoding)可以解決這個問題,大家繼續(xù)往下看。
② OneHotEncoder
獨(dú)熱向量編碼其實(shí)就是把一個整數(shù)用向量的形式表現(xiàn)。上圖右側(cè)就是對顏色做獨(dú)熱向量編碼。轉(zhuǎn)換器OneHotEncoder可以接受兩種類型的輸入:
- ① 用LabelEncoder編碼好的一維數(shù)組
 - ② DataFrame
 
一、用LabelEncoder編碼好的一維數(shù)組(元素為整數(shù)),重塑(用reshape(-1,1))成二維數(shù)組作為OneHotEncoder輸入。
| | from sklearn.preprocessing import OneHotEncoder | | | OHE = OneHotEncoder() | | | num = LE.fit\_transform( enc ) | | | print( num ) | | | OHE\_y = OHE.fit\_transform( num.reshape(-1,1) ) | | | OHE\_y | | | [2 0 1 2] |輸出為:
| | <4x3 sparse matrix of type 'numpy.float64'>' | | | with 4 stored elements in Compressed Sparse Row format> |上面結(jié)果解釋如下:
- 第3行打印出編碼結(jié)果[2 0 1 2]。
 - 第5行將其轉(zhuǎn)成獨(dú)熱形式,輸出是一個「稀疏矩陣」形式,因?yàn)閷?shí)操中通常類別很多,因此就一步到位用稀疏矩陣來節(jié)省內(nèi)存。
 
想看該矩陣?yán)锞唧w內(nèi)容,用toarray()函數(shù)。
| | OHE\_y.toarray() |輸出為:
| | array([[0., 0., 1.], | | | [1., 0., 0.], | | | [0., 1., 0.], | | | [0., 0., 1.]]) |二、用DataFrame作為OneHotEncoder輸入。
| | OHE = OneHotEncoder() | | | OHE.fit\_transform( enc\_DF ).toarray() |輸出為:
| | array([[0., 0., 1.], | | | [1., 0., 0.], | | | [0., 1., 0.], | | | [0., 0., 1.]]) |(2) 特征縮放
數(shù)據(jù)要做的最重要的轉(zhuǎn)換之一是特征縮放(feature scaling)。類似邏輯回歸,神經(jīng)網(wǎng)絡(luò)這種計(jì)算型模型,對于不同特征的幅度大小差異是敏感的。
具體來說,對于某個特征,我們有兩種變換方法:
- 標(biāo)準(zhǔn)化(standardization):每個維度的特征減去該特征均值,除以該維度的標(biāo)準(zhǔn)差。
 - 規(guī)范化(normalization):每個維度的特征減去該特征最小值,除以該特征的最大值與最小值之差。
 
① MinMaxScaler
如上圖所示,MinMaxScaler會根據(jù)特征的最大最小取值,對數(shù)據(jù)進(jìn)行幅度縮放。
| | from sklearn.preprocessing import MinMaxScaler | | | X = np.array( [0, 0.5, 1, 1.5, 2, 100] ) | | | X\_scale = MinMaxScaler().fit\_transform( X.reshape(-1,1) ) | | | X\_scale |輸出為:
| | array([[0. ], | | | [0.005], | | | [0.01 ], | | | [0.015], | | | [0.02 ], | | | [1. ]]) |② StandardScaler
StandardScaler做的事情是調(diào)整數(shù)據(jù)分布,盡量接近正態(tài)分布。
| | from sklearn.preprocessing import StandardScaler | | | X\_scale = StandardScaler().fit\_transform( X.reshape(-1,1) ) | | | X\_scale |輸出為:
| | array([[-0.47424487], | | | [-0.46069502], | | | [-0.44714517], | | | [-0.43359531], | | | [-0.42004546], | | | [ 2.23572584]]) |注意:fit()函數(shù)只能作用在訓(xùn)練集上,如果希望對測試集變換,只要用訓(xùn)練集上fit好的轉(zhuǎn)換器去transform即可。不能在測試集上fit再transform,否則訓(xùn)練集和測試集的變換規(guī)則不一致,模型學(xué)習(xí)到的信息就無效了。
4.高級API
我們在這節(jié)中給大家介紹SKLearn的「高級API」,即五大元估計(jì)器(集成功能的Ensemble,多分類和多標(biāo)簽的Multiclass,多輸出的Multioutput,選擇模型的Model Selection,流水線的Pipeline)。
- ensemble.BaggingClassifier
 - ensemble.VotingClassifier
 - multiclass.OneVsOneClassifier
 - multiclass.OneVsRestClassifier
 - multioutput.MultiOutputClassifier
 - model_selection.GridSearchCV
 - model_selection.RandomizedSearchCV
 - pipeline.Pipeline
 
4.1 Ensemble 估計(jì)器
如上圖:分類器統(tǒng)計(jì)每個子分類器的預(yù)測類別數(shù),再用「多數(shù)投票」原則得到最終預(yù)測。回歸器計(jì)算每個子回歸器的預(yù)測平均值。
最常用的Ensemble估計(jì)器排列如下:
- AdaBoostClassifier:逐步提升分類器
 - AdaBoostRegressor:逐步提升回歸器
 - BaggingClassifier:Bagging分類器
 - BaggingRegressor:Bagging回歸器
 - GradientBoostingClassifier:梯度提升分類器
 - GradientBoostingRegressor:梯度提升回歸器
 - RandomForestClassifier:隨機(jī)森林分類器
 - RandomForestRegressor:隨機(jī)森林回歸器
 - VotingClassifier:投票分類器
 - VotingRegressor:投票回歸器
 
我們用鳶尾花數(shù)據(jù)iris,拿以下estimator來舉例:
- 含同質(zhì)估計(jì)器RandomForestClassifier
 - 含異質(zhì)估計(jì)器VotingClassifier
 
首先將數(shù)據(jù)分成80:20的訓(xùn)練集和測試集,并引入metrics來計(jì)算各種性能指標(biāo)。
| | from sklearn.datasets import load\_iris | | | iris = load\_iris() | | | from sklearn.model\_selection import train\_test\_split | | | from sklearn import metrics | | | X\_train, X\_test, y\_train, y\_test = train\_test\_split(iris['data'], iris['target'], test\_size=0.2) |(1) RandomForestClassifier
隨機(jī)森林RandomForestClassifier通過控制n_estimators超參數(shù)來決定基估計(jì)器的個數(shù),在這里是4棵決策樹(森林由樹組成);此外每棵樹的最大樹深為5(max_depth=5)。
| | from sklearn.ensemble import RandomForestClassifier | | | RF = RandomForestClassifier( n\_estimators=4, max\_depth=5 ) | | | RF.fit( X\_train, y\_train ) |輸出為:
| | RandomForestClassifier(bootstrap=True, class\_weight=None, criterion='gini', | | | max\_depth=5, max\_features='auto', max\_leaf\_nodes=None, | | | min\_impurity\_decrease=0.0, min\_impurity\_split=None, | | | min\_samples\_leaf=1, min\_samples\_split=2, | | | min\_weight\_fraction\_leaf=0.0, n\_estimators=4, | | | n\_jobs=None, oob\_score=False, random\_state=None, | | | verbose=0, warm\_start=False) |元估計(jì)器和預(yù)估器一樣也有fit()。下面看看隨機(jī)森林里包含的估計(jì)器個數(shù)和其本身。
| | print( RF.n\_estimators ) | | | RF.estimators\_ |輸出為:
| | 4 | | | | | | [DecisionTreeClassifier(class\_weight=None, criterion='gini', max\_depth=5, | | | max\_features='auto', max\_leaf\_nodes=None, | | | min\_impurity\_decrease=0.0, min\_impurity\_split=None, | | | min\_samples\_leaf=1, min\_samples\_split=2, | | | min\_weight\_fraction\_leaf=0.0, presort=False, | | | random\_state=705712365, splitter='best'), | | | DecisionTreeClassifier(class\_weight=None, criterion='gini', max\_depth=5, | | | max\_features='auto', max\_leaf\_nodes=None, | | | min\_impurity\_decrease=0.0, min\_impurity\_split=None, | | | min\_samples\_leaf=1, min\_samples\_split=2, | | | min\_weight\_fraction\_leaf=0.0, presort=False, | | | random\_state=1026568399, splitter='best'), | | | DecisionTreeClassifier(class\_weight=None, criterion='gini', max\_depth=5, | | | max\_features='auto', max\_leaf\_nodes=None, | | | min\_impurity\_decrease=0.0, min\_impurity\_split=None, | | | min\_samples\_leaf=1, min\_samples\_split=2, | | | min\_weight\_fraction\_leaf=0.0, presort=False, | | | random\_state=1987322366, splitter='best'), | | | DecisionTreeClassifier(class\_weight=None, criterion='gini', max\_depth=5, | | | max\_features='auto', max\_leaf\_nodes=None, | | | min\_impurity\_decrease=0.0, min\_impurity\_split=None, | | | min\_samples\_leaf=1, min\_samples\_split=2, | | | min\_weight\_fraction\_leaf=0.0, presort=False, | | | random\_state=1210538094, splitter='best')] |擬合RF完再做預(yù)測,用metrics里面的accuracy_score來計(jì)算準(zhǔn)確率。訓(xùn)練準(zhǔn)確率98.33%,測試準(zhǔn)確率100%。
| | print ( "RF - Accuracy (Train): %.4g" % | | | metrics.accuracy\_score(y\_train, RF.predict(X\_train)) ) | | | print ( "RF - Accuracy (Test): %.4g" % | | | metrics.accuracy\_score(y\_test, RF.predict(X\_test)) ) | | | RF - Accuracy (Train): 1 | | | RF - Accuracy (Test): 0.9667 |(2) VotingClassifier
和隨機(jī)森林由同質(zhì)分類器「決策樹」不同,投票分類器由若干個異質(zhì)分類器組成。下面我們用VotingClassifier建立個含有邏輯回歸(Logistic regression)、隨機(jī)森林(RandomForest)和高斯樸素貝葉斯(GNB)三個分類器的集成模型。
RandomForestClassifier的基分類器只能是決策樹,因此只用通過控制n_estimators超參數(shù)來決定樹的個數(shù),而VotingClassifier的基分類器要輸入每個異質(zhì)分類器。
| | from sklearn.linear\_model import LogisticRegression | | | from sklearn.naive\_bayes import GaussianNB | | | from sklearn.ensemble import RandomForestClassifier | | | from sklearn.ensemble import VotingClassifier | | | | | | LR = LogisticRegression( solver='lbfgs', multi\_class='multinomial' ) | | | RF = RandomForestClassifier( n\_estimators=5 ) | | | GNB = GaussianNB() | | | | | | Ensemble = VotingClassifier( estimators=[('lr', LR), (‘rf', RF), ('gnb', GNB)], voting='hard' ) | | | | | | Ensemble. fit( X\_train, y\_train ) | | | |結(jié)果如下:
| | VotingClassifier(estimators=[('lr', LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True,intercept\_scaling=1, max\_iter=100, multi\_class='multinomial',n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs',tol=0.0001, verbose=6, warm\_start=False)), ('rf', ...e, verbose=0,warm\_start=False)), ('gnb', GaussianNB(priors=None, var\_smoothing=1e-09))],flatten\_transform=None, n\_jobs=None, voting='hard', weights=None) |看看Ensemble集成模型里包含的估計(jì)器個數(shù)和其本身。
| | print( len(Ensemble.estimators\_) ) | | | Ensemble.estimators\_ |結(jié)果如下:
| | 3 | | | | | | [LogisticRegression(C=1.0, class\_weight-None, dual-False, fit\_intercept=True,intercept\_scaling=1, max\_iter=100, multi\_class='multinomial',n\_jobs-None, penalty="12", random\_state-None, solver='1bfgs',t01=0.0001, verbose=0, warm\_start=False), | | | | | | RandomForestClassifier(bootstrap=True, class\_weight=None, criterion='gini',max\_depth=None, max\_features='auto', max\_leaf\_nodes=None,min\_impurity\_decrease-0.0, min\_impurity\_splitmin\_samples\_leaf=1, min\_samples\_split=2,min\_weight\_fraction\_leaf=0.0, n\_estimator:oob\_score=False, random\_state-None, verbose= | | | warm\_start=False), | | | | | | GaussianNB(priors-None, var\_smoothing=1e-9)] |對比元估計(jì)器和它三個組成元素的表現(xiàn),下過表現(xiàn)如下:
| | # 擬合 | | | LR.fit( X\_train, y\_train ) | | | RF.fit( X\_train, y\_train ) | | | GNB.fit( X\_train, y\_train ) | | | # 評估效果 | | | print ( "LR - Accuracy (Train): %.4g" % metrics.accuracy\_score(y\_train, LR.predict(X\_train)) ) | | | print ( "RF - Accuracy (Train): %.4g" % metrics.accuracy\_score(y\_train, RF.predict(X\_train)) ) | | | print ( "GNB - Accuracy (Train): %.4g" % metrics.accuracy\_score(y\_train, GNB.predict(X\_train)) ) | | | print ( "Ensemble - Accuracy (Train): %.4g" % metrics.accuracy\_score(y\_train, Ensemble.predict(X\_train)) ) | | | print ( "LR - Accuracy (Test): %.4g" % metrics.accuracy\_score(y\_test, LR.predict(X\_test)) ) | | | | | | print ( "RF - Accuracy (Test): %.4g" % metrics.accuracy\_score(y\_test, RF.predict(x\_test)) ) | | | print ( "GNB - Accuracy (Test): %.4g" % metrics.accuracy\_score(y\_test, RF.predict(X\_test)) ) | | | print ( "Ensemble - Accuracy (Test): %.4g" % metrics.accuracy\_score(y test, Ensemble.predict(X\_test)) ) | | | # 運(yùn)行結(jié)果 | | | LR - Accuracy (Train): 0.975 | | | RF - Accuracy (Train): 0.9833 | | | GNB - Accuracy (Train): 0.95 | | | Ensemble - Accuracy (Train): 0.9833 | | | LR - Accuracy (Test): 1 | | | RF - Accuracy (Test): 1 | | | GNB - Accuracy (Test): 1 | | | Ensemble - Accuracy (Test): 1 |4.2 Multiclass 估計(jì)器
sklearn.multiclass可以處理多類別(multi-class) 的多標(biāo)簽(multi-label) 的分類問題。下面我們會使用數(shù)字?jǐn)?shù)據(jù)集digits作為示例數(shù)據(jù)來講解。我們先將數(shù)據(jù)分成 80:20 的訓(xùn)練集和測試集。
| | # 導(dǎo)入數(shù)據(jù) | | | from sklearn.datasets import load\_digits | | | digits = load\_digits() | | | digits.keys() |輸出如下:
| | # 輸出結(jié)果 | | | dict\_keys(['data', 'target', 'target\_names','images', 'DESCR']) |下面我們切分?jǐn)?shù)據(jù)集:
| | # 數(shù)據(jù)集切分 | | | X\_train, X\_test, y\_train, y\_test = train\_test\_split( digits['data'], digits['target'], test\_size=0.2 ) | | | | | | print( 'The size of X\_train is ', X\_train.shape ) | | | print( 'The size of y\_train is ', y\_train.shape ) | | | print( 'The size of X\_test is ', X\_test.shape ) | | | print( 'The size of y\_test is ', y\_test.shape ) |輸出如下
| | The size of X\_train is (1437, 64) | | | The size of y\_train is (1437,) | | | The size of X\_test is (360, 64) | | | The size of y\_test is (360,) |訓(xùn)練集和測試集分別有1437和360張圖像。每張照片是包含8×8的像素,我們用flatten操作把2維的8×8展平為1維的64。
看看訓(xùn)練集中前100張圖片和對應(yīng)的標(biāo)簽(如下圖)。像素很低,但基本上還是能看清。
| | fig, axes = plt.subplots( 10, 16, figsize=(8, 8) ) | | | fig.subplots\_adjust( hspace=0.1, wspace=0.1 ) | | | for i, ax in enumerate( axes.flat ): | | | ax.imshow( X\_train[i,:].reshape(8,8), cmap='binary’, interpolation='nearest’) | | | ax.text( 0.05, 0.05, str(y\_train[i]), | | | transform=ax.transAxes, color='blue') | | | ax.set\_xticks([]) | | | ax.set\_yticks([]) |(1) 多類別分類
手寫數(shù)字有0-9十類,但手頭上只有二分類估計(jì)器(比如像支撐向量機(jī))怎么用呢?我們可以采取以下策略處理:
- 一對一(One vs One,OvO):一個分類器用來處理數(shù)字0和數(shù)字1,一個用來處理數(shù)字0和數(shù)字2,一個用來處理數(shù)字1和2,以此類推。N個類需要N(N-1)/2個分類器。
 - 一對其他(One vs All,OvA):訓(xùn)練10個二分類器,每一個對應(yīng)一個數(shù)字,第一個分類「1」和「非1」,第二個分類「2」和「非2」,以此類推。N個類需要N個分類器。
 
① OneVsOneClassifier
考慮一個具體天氣多分類問題,天氣可以是晴天、陰天和雨天,在OvO中,三個分類器為f1、f2和f3。
- f1負(fù)責(zé)區(qū)分橙色和綠色樣本
 - f2負(fù)責(zé)區(qū)分橙色和紫色樣本
 - f3負(fù)責(zé)區(qū)分綠色和紫色樣本
 
在下圖的例子中,f1和f2都預(yù)測為橙色,f3預(yù)測為紫色。根據(jù)多數(shù)原則得到的結(jié)合預(yù)測為橙色,如下圖所示。
回到數(shù)字分類問題上,代碼及結(jié)果如下:
| | from sklearn.multiclass import OneVsOneClassifier | | | from sklearn.linear\_model import LogisticRegression | | | ovo\_lr = OneVsOneClassifier( LogisticRegression(solver='lbfgs', max\_iter=200) ) | | | ovo\_lr.fit( X\_train, y\_train ) | | | OnevsOneClassifier(estimator=LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True,intercept\_scaling=1, max\_iter=200, multi\_class=‘warn’,n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs’,tol=0.0001, verbose=6, warm\_start=False),n\_jobs=None) | | | |10*9/2=45,10類總共45個OvO分類器。
| | print( len(ovo\_lr.estimators\_) ) | | | ovo\_lr.estimators\_ |結(jié)果如下:
| | 45 | | | | | | (LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True,intercept\_scaling=1, max\_iter=200, multi\_class='warn',n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs',tol=60.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=200, multi\_class='warn', n\_jobs=None, penalty='l2', random\_state=None, solver='lbfgs',tol=0.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=200, multi\_class='warn', n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs', tol=60.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=200, multi\_class='warn', n\_jobs=None, penalty="12", random\_state=None, solver='lbfgs', tol=0.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, | | | ... |訓(xùn)練集分類全對,測試集準(zhǔn)確率98%。
| | print ( “OvO LR - Accuracy (Train): %.4g" % metrics.accuracy\_score(y\_train, ovo\_Ir.predict(X\_train)) ) | | | print ( "OvO LR - Accuracy (Test): %.4g" % metrics.accuracy\_score(y\_test, ovo\_lr.predict(X\_test}) ) | | | | | | # 運(yùn)行結(jié)果 | | | OvO LR - Accuracy (Train): 1 | | | OvO LR - Accuracy (Test): 0.9806 |② OneVsRestClassifier
在OvA中,把數(shù)據(jù)分成“某個”和“其他”
- 圖一,某個=橙色,其他=綠色和紫色
 - 圖二,某個=綠色,其他=橙色和紫色
 - 圖三,某個=紫色,其他=橙色和綠色
 
三分類分解成三個二分類,對應(yīng)的分類器為f1、f2和f3。
- f1預(yù)測負(fù)類,即預(yù)測綠色和紫色
 - f2預(yù)測負(fù)類,即預(yù)測橙色和紫色
 - f3預(yù)測正類,即預(yù)測紫色
 
三個分類器都預(yù)測了紫色,根據(jù)多數(shù)原則得到的預(yù)測是紫色,即陰天。
回到數(shù)字分類問題上,代碼和結(jié)果如下:
| | from sklearn.multiclass import OneVsRestClassifier | | | ova\_lr = OneVsRestClassifier( LogisticRegression(solver='lbfgs', max\_iter=800) ) | | | ova\_lr.fit( X\_train, y\_train ) | | | OnevsRestClassifier(estimator=LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=800, multi\_class=‘warn’, n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs’, tol=0.0001, verbose=6, warm\_start=False), n\_jobs=None) | | | |10類總共10個OvA分類器。
| | print( len(ova\_lr.estimators\_) ) | | | ova\_lr.estimators\_ |結(jié)果如下:
| | 10 | | | | | | [LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=800, multi\_class='warn', n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs',tol=0.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=800, multi\_class='warn', n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs', tol=0.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, | | | intercept\_scaling=1, max\_iter=800, multi\_class=‘warn', | | | n\_jobs=None, penalty='12', random\_state=None, solver="lbfgs', | | | tol=0.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, | | | intercept\_scaling=1, max\_iter=800, multi\_class='warn', n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs', tol=0.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, | | | ... |訓(xùn)練集準(zhǔn)確率幾乎100%,測試集準(zhǔn)確率96%。代碼與結(jié)果如下:
| | print ( “OvA LR - Accuracy (Train): %.4g" % metrics.accuracy\_score(y\_train, ova\_Ir.predict(X\_train)) ) | | | print ( "OvA LR - Accuracy (Test): %.4g" % metrics.accuracy\_score(y\_test, ova\_lr.predict(X\_test}) ) | | | | | | OvA LR - Accuracy (Train): 6.9993 | | | OvA LR - Accuracy (Test}: 6.9639 |(2) 多標(biāo)簽分類
到目前為止,所有的樣例都總是被分配到僅一個類。有些情況下,你也許想讓分類器給一個樣例輸出多個類別。在無人駕駛的應(yīng)用中,在下圖識別出有車和指示牌,沒有交通燈和人。
物體識別是一個復(fù)雜的深度學(xué)習(xí)問題,我們在這里暫且不深入探討。我們先看一個簡單點(diǎn)的例子,在手寫數(shù)字的例子上,我們特意為每個數(shù)字設(shè)計(jì)了兩個標(biāo)簽:
- 標(biāo)簽1:奇數(shù)、偶數(shù)
 - 標(biāo)簽2:小于等于4,大于4
 
我們構(gòu)建多標(biāo)簽y_train_multilabel,代碼如下(OneVsRestClassifier也可以用來做多標(biāo)簽分類):
| | from sklearn.multiclass import OneVsRestClassifier | | | y\_train\_multilabel = np.c\_[y\_train%2==0, y\_train<=4 ] | | | print(y\_train\_multilabel) | | | [[ True True] [False False] [False False] | | | ... | | | [False False] [False False] [False False]] |看下圖訓(xùn)練集第1和2個圖片是數(shù)字4和5,對應(yīng)上面兩種標(biāo)簽結(jié)果為:
- [True True]:4是偶數(shù),小于等于4
 - [False False]:5不是偶數(shù),大于4
 
我們這次用y_train_multilabel來訓(xùn)練模型。代碼如下
| | ova\_ml = OneVsRestClassifier( LogisticRegression(solver='lbfgs', max\_iter=800) ) | | | ova\_ml.fit( X\_train, y\_train\_multilabel ) | | | # 運(yùn)行結(jié)果 | | | OnevsRestClassifier(estimator=LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=800, multi\_class=‘warn’, n\_jobs=None, penalty='12', random\_state=None, solver='lbfgs', tol=0.0001, verbose=6, warm\_start=False), n\_jobs=None) |有兩個估計(jì)器,每個對應(yīng)一個標(biāo)簽。
| | print( len(ova\_ml.estimators\_) ) | | | ova\_ml.estimators\_ |運(yùn)行結(jié)果如下:
| | 2 | | | | | | [LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=800, multi\_class=‘warn', n\_jobs=None, penalty='12°, random\_state=None, solver='lbfgs', tol=0.0001, verbose=0, warm\_start=False), | | | | | | LogisticRegression(C=1.0, class\_weight=None, dual=False, fit\_intercept=True, intercept\_scaling=1, max\_iter=800, multi\_class='warn', n\_jobs=None, penalty='l2', random\_state=None, solver='lbfgs', tol=0.0001, verbose=0, warm\_start=False) ] |展示一下測試集上100張圖片。
| | fig, axes = plt.subplots( 10, 10, figsize=(8, 8) ) | | | fig.subplots\_adjust( hspace=0.1, wspace=0.1 ) | | | | | | for i, ax in enumerate( axes.flat ): | | | ax.imshow( X\_test[i,:].reshape(8,8), cmap='binary', interpolation='nearest') | | | ax.text( 6.05, 0.05, str(y\_test[i]), transform=ax.transAxes, color='blue') | | | ax.set\_xticks([]) | | | ax.set\_yticks([]) |第一張圖片是數(shù)字2,它是偶數(shù)(標(biāo)簽1為true),小于等于4(標(biāo)簽2為true)。
| | print( y\_test[:1] ) | | | print( ova\_ml.predict(X\_test[:1,:]) ) | | | [2] | | | [[1 1]] |4.3 Multioutput 估計(jì)器
sklearn.multioutput可以處理多輸出(multi-output)的分類問題。
多輸出分類是多標(biāo)簽分類的泛化,在這里每一個標(biāo)簽可以是多類別(大于兩個類別)的。一個例子就是預(yù)測圖片每一個像素(標(biāo)簽)的像素值是多少(從0到255的256個類別)。
Multioutput估計(jì)器有兩個:
- MultiOutputRegressor:多輸出回歸
 - MultiOutputClassifier:多輸出分類
 
這里我們只關(guān)注多輸出分類。
(1) MultiOutputClassifier
首先引入MultiOutputClassifier和RandomForestClassifier。
| | from sklearn.multioutput import MultiOutputClassifier | | | from sklearn.ensemble import RandomForestClassifier |在手寫數(shù)字的例子上,我們也為特意每個數(shù)字設(shè)計(jì)了多標(biāo)簽而且每個標(biāo)簽的類別都大于二。
- 標(biāo)簽1:小于等于4,4和7之間,大于等于7(三類)
 - 標(biāo)簽2:數(shù)字本身(十類)
 
代碼如下:
| | y\_train\_1st = y\_train.copy() | | | y\_train\_1st[ y\_train<=4 ] = 0 | | | y\_train\_1st[ np.logical\_and{y\_train>4, y\_train<7) ] = 1 | | | y\_train\_ist[ y\_train>=7 ] = 2 | | | | | | y\_train\_multioutput = np.c\_[y\_train\_1st, y\_train] | | | y\_train\_multioutput | | | # 運(yùn)行結(jié)果 | | | array( [[0, 4], | | | [1, 5], | | | [2, 7], | | | [1, 5], | | | [2, 9], | | | [2, 9]]) |用含有100棵決策樹的隨機(jī)森林來解決這個多輸入分類問題。
| | MO = MultiOutputClassifier( RandomForestClassifier(n\_estimators=100) ) | | | MO.fit( X\_train, y\_train\_multioutput ) | | | # 結(jié)果 | | | MultiOutputClassifier(estimator=RandomForestClassifier(bootstrap=True, class\_weight=None, criterion='gini', max\_depth=None, max\_features='auto', max\_leaf\_nodes=None, min\_impurity\_decrease=0.0, min\_impurity\_split=None, min\_samples\_leaf=1, min\_samples\_split=2, min\_weight\_fraction\_leaf=0.0, n\_estimators=100, n\_jobs=None, oob\_score=False, random\_state=None, verbose=0, warm\_start=False), n\_jobs=None) |看看這個模型在測試集前五張照片上的預(yù)測。
| | MO.predict( X\_test[:5,:] ) | | | array([[0, 2],[0, 2],[0, 0],[2, 9],[1, 5]]) |這個ndarray第一列是標(biāo)簽1的類別,第二列是標(biāo)簽2的類別。預(yù)測結(jié)果是這五張照片分別顯示數(shù)字2、2、0、9、5(標(biāo)簽2),它們前三個數(shù)2、2、0都小于等于4(標(biāo)簽1第一類),第四個數(shù)9大于等于7(標(biāo)簽1第二類),而第五個數(shù)5在4和7之間(標(biāo)簽1第三類)。
再看看真實(shí)標(biāo)簽。
| | y\_test\_1st = y\_test.copy() | | | y\_test\_1st[ y\_test<=4 ] = 0 | | | y\_test\_1st[ np.logical\_and(y\_test>4, y\_test<7) ] = 1 | | | y\_test\_1st[ y\_test>=7 ] = 2 | | | y\_test\_multioutput = np.c\_[ y\_test\_1st, y\_test ] | | | y\_test\_multioutput[:5] | | | array([[0, 2],[0, 2],[0, 0],[2, 9],[1, 5]]) |對比參考結(jié)果標(biāo)簽,模型預(yù)測的結(jié)果還是很不錯的。
4.4 Model Selection 估計(jì)器
模型選擇(Model Selction)在機(jī)器學(xué)習(xí)非常重要,它主要用于評估模型表現(xiàn),常見的Model Selection估計(jì)器有以下幾個:
- cross_validate:評估交叉驗(yàn)證的結(jié)果。
 - learning_curve:構(gòu)建與繪制學(xué)習(xí)曲線。
 - GridSearchCV:用交叉驗(yàn)證從超參數(shù)候選網(wǎng)格中搜索出最佳超參數(shù)。
 - RandomizedSearchCV:用交叉驗(yàn)證從一組隨機(jī)超參數(shù)搜索出最佳超參數(shù)。
 
這里我們只關(guān)注調(diào)節(jié)超參數(shù)的兩個估計(jì)器,即GridSearchCV和RandomizedSearchCV。我們先回顧一下交叉驗(yàn)證(更詳細(xì)的講解請查看ShowMeAI文章 圖解機(jī)器學(xué)習(xí) | 模型評估方法與準(zhǔn)則)。
(1) 交叉驗(yàn)證
K-折交叉驗(yàn)證(K-fold cross validation set),指的是把整個數(shù)據(jù)集平均但隨機(jī)分成K份,每份大概包含m/K個數(shù)據(jù)(m 是總數(shù)據(jù)數(shù))。
在這K份,每次選K-1份作為訓(xùn)練集擬合參數(shù),在剩下1份驗(yàn)證集上進(jìn)行評估計(jì)算。由于遍歷了這K份數(shù)據(jù),因此該操作稱為交叉驗(yàn)證。操作如下圖所示
下圖展示了兩個調(diào)參的估計(jì)器:「網(wǎng)格搜索」和「隨機(jī)搜索」。
網(wǎng)格搜索調(diào)參:參數(shù)1在[1,10,100,1000]中取值,參數(shù)2在[0.01, 0.1, 1 10] 中取值,注意并不是等間距取值。模型在所有16組超參數(shù)上實(shí)驗(yàn),選取交叉驗(yàn)證誤差最小的參數(shù)。
隨機(jī)搜索調(diào)參:根據(jù)指定分布隨機(jī)搜索,可以選擇獨(dú)立于參數(shù)個數(shù),比如log(參數(shù)1)服從0到3的均勻分布,log(參數(shù)2)服從-2到1的均勻分布。
應(yīng)用方式與參考代碼如下:
| | from time import time | | | from scipy.stats import randint | | | from sklearn.model\_selection import GridSearchCv | | | from sklearn.model\_selection import RandomizedSearchcCv | | | from sklearn.ensemble import RandomForestClassifier | | | | | | X, y = digits.data, digits.target | | | RFC = RandomForestClassifier(n\_estimators=20) | | | | | | # 隨機(jī)搜索/Randomized Search | | | param\_dist = { "max\_depth": [3, 5], | | | "max\_features": randint(1, 11), | | | "min\_samples\_split": randint(2, 11), | | | "criterion": ["gini", "entropy"]} | | | n\_iter\_search = 20 | | | random\_search = RandomizedSearchCv( RFC, param\_distributions=param\_dist, n\_iter=n\_iter\_search, cv=5 )} | | | start = time() | | | random\_search.fit(X, y) | | | print("RandomizedSearchCv took %.2f seconds for %d candidates,parameter settings." % ((time() - start), n\_iter\_search)) | | | print( random\_search.best\_params\_ ) | | | print( random\_search.best\_score\_ ) | | | | | | # 網(wǎng)格搜索/Grid Search | | | param\_grid = { "max\_depth": [3, 5], | | | "max\_features": [1, 3, 10], | | | "min\_samples\_ split": [2, 3, 10], | | | "criterion": ["gini", "entropy"]} | | | grid\_search = GridSearchCV( RF, param\_grid=param\_grid, cv=5 ) | | | start = time() | | | grid\_search.fit(X, y) | | | | | | print("\nGridSearchcv took %.2f seconds for %d candidate parameter settings." % (time() - start, len(grid\_search.cv\_results\_['params']))) | | | print( grid\_search.best\_params\_ ) | | | print( grid\_search.best\_score\_ ) |輸出結(jié)果如下:
| | RandomizedSearchCv took 3.73 seconds for 20 candidates parameter settings. | | | {'criterion': 'entropy', '*max\_depth': 5, 'max\_features': 6, 'min\_samples\_split': 4} | | | 0.8898163606010017 | | | | | | GridSearchCV took 2.30 seconds for 36 candidate parameter settings. | | | {'criterion': 'entropy', 'max\_depth': 5, 'max\_features': 10, 'min\_samples\_ split': 10} | | | 0.841402337228714S5 |這里我們對代碼做一個解釋:
- 前5行引入相應(yīng)工具庫。
 - 第7-8行準(zhǔn)備好數(shù)據(jù)X和y,創(chuàng)建一個含20個決策樹的隨機(jī)森林模型。
 - 第10-14和23-27行為對隨機(jī)森林的超參數(shù)「最大樹深、最多特征數(shù)、最小可分裂樣本數(shù)、分裂標(biāo)準(zhǔn)」構(gòu)建候選參數(shù)分布與參數(shù)網(wǎng)格。
 - 第15-18行是運(yùn)行隨機(jī)搜索。
 - 第18-30行是運(yùn)行網(wǎng)格搜索。
 
運(yùn)行結(jié)果里:
- 第一行輸出每種追蹤法運(yùn)行的多少次和花的時間。
 - 第二行輸出最佳超參數(shù)的組合。
 - 第三行輸出最高得分。
 
在本例中,隨機(jī)搜索比網(wǎng)格搜索用更短時間內(nèi)找到一組超參數(shù),獲得了更高的得分。
4.5 Pipeline 估計(jì)器
Pipeline估計(jì)器又叫流水線,把各種估計(jì)器串聯(lián)(Pipeline)或并聯(lián)(FeatureUnion)的方式組成一條龍服務(wù)。用好了它真的能大大提高效率。
(1) Pipeline
Pipeline將若干個估計(jì)器按順序連在一起,比如:特征提取 → 降維 → 擬合 → 預(yù)測
Pipeline的屬性永遠(yuǎn)和最后一個估計(jì)器屬性一樣:
- 如果最后一個估計(jì)器是預(yù)測器,那么Pipeline是預(yù)測器。
 - 如果最后一個估計(jì)器是轉(zhuǎn)換器,那么Pipeline是轉(zhuǎn)換器。
 
下面是一個簡單示例,使用Pipeline來完成「填補(bǔ)缺失值-標(biāo)準(zhǔn)化」這兩步的。我們先構(gòu)建含缺失值NaN的數(shù)據(jù)X。
| | X = np.array([[56,40,30,5,7,10,9,np.NaN,12], | | | [1.68,1.83,1.77,np.NaN,1.9,1.65,1.88,np.NaN,1.75]]) | | | X = np.transpose(X) |我們用以下流程組件構(gòu)建Pipeline:
- 處理缺失值的轉(zhuǎn)換器SimpleImputer。
 - 做規(guī)劃化的轉(zhuǎn)換器MinMaxScaler。
 
第5-7行創(chuàng)建了流水線,使用方式非常簡單,在Pipeline()里輸入(名稱,估計(jì)器)這個元組構(gòu)建的流水線列表。在本例中SimpleImputer起名叫impute,MinMaxScaler起名叫normalize。
因?yàn)樽詈笠粋€估計(jì)器是轉(zhuǎn)換器,因此pipeline也是個轉(zhuǎn)換器。下面我們來運(yùn)行一下,我們發(fā)現(xiàn)值都被填滿了,而且兩列也被標(biāo)準(zhǔn)化了。
| | X\_proc = pipe.fit\_transform( X ) |來驗(yàn)證上面流水線的參數(shù),我們可以按順序來運(yùn)行這兩個轉(zhuǎn)換器,結(jié)果是一樣的。
| | X\_impute = SimpleImputer(missing values=np.nan, strategy='mean').fit\_transform( X ) | | | X\_impute | | | # 運(yùn)行結(jié)果 | | | array( [[50, 1.68], | | | [40, 1.83], | | | [30, 1.77], | | | [5, 1.78], | | | [7, 1.9 ], | | | [10, 1.65], | | | [9, 1.88], | | | [20.375, 1.78], | | | [12, 1.75 ]]) | | | X\_normalize = MinMaxScaler().fit\_transform( X\_impute ) | | | X\_normalize |運(yùn)行結(jié)果
| | array( [[1., 0.12 ], | | | [0.77777778, 0.72], | | | [0.55555556, 6.48], | | | [0.52, 1], | | | [0.04444444, 1.], | | | [0.11111111, 9.], | | | [0.08888889, 6.92], | | | [0.34166667, 6.52], | | | [0.15555556, 0.4 ]]) |(2) FeatureUnion
如果我們想在一個節(jié)點(diǎn)同時運(yùn)行幾個估計(jì)器,我們可用FeatureUnion。在下面的例子中,我們首先建立一個DataFrame數(shù)據(jù),它有如下特點(diǎn):
- 前兩列字段「智力IQ」和「脾氣temper」都是類別型變量。
 - 后兩列字段「收入income」和「身高h(yuǎn)eight」都是數(shù)值型變量。
 - 每列中都有缺失值。
 
結(jié)果如下:
我們現(xiàn)在按下列步驟來清洗數(shù)據(jù)。
- 對類別型變量:獲取數(shù)據(jù) → 中位數(shù)填充 → 獨(dú)熱編碼
 - 對數(shù)值型變量:獲取數(shù)據(jù) → 均值填充 → 標(biāo)準(zhǔn)化
 
上面兩步是并行進(jìn)行的。
首先我們自己定義一個從DataFrame里面獲取數(shù)據(jù)列的類,起名叫DataFrameSelector。
| | from sklearn.base import BaseEstimator, TransformerMixin | | | | | | class DataFrameSelector( BaseEstimator, TransformerMixin ): | | | def \_init\_( self, attribute\_names ): | | | self.attribute\_names = attribute\_names | | | def fit( self, X, y=None ): | | | return self | | | def transform( self, X ): | | | return X[self.attribute\_names].values |上述代碼在transform函數(shù)中,我們將輸入的DataFrame X根據(jù)屬性名稱來獲取其值。
接下來建立流水線full_pipe,它并聯(lián)著兩個流水線
-  
categorical_pipe處理分類型變量
- DataFrameSelector用來獲取
 - SimpleImputer用出現(xiàn)最多的值來填充None
 - OneHotEncoder來編碼返回非稀疏矩陣
 
 -  
numeric_pipe處理數(shù)值型變量
- DataFrameSelector用來獲取
 - SimpleImputer用均值來填充NaN
 - normalize來規(guī)范化數(shù)值
 
 
代碼如下:
| | from sklearn.pipeline import Pipeline | | | from sklearn.pipeline import FeatureUnion | | | from sklearn.impute import SimpleImputer | | | from sklearn.preprocessing import MinMaxScaler | | | from sklearn.preprocessing import OneHotEncoder | | | | | | categorical features = ['IQ', 'temper'] | | | numeric\_features = ['income', 'height'] | | | | | | categorical pipe = Pipeline([ | | | ('select', DataFrameSelector(categorical\_features)), | | | ('impute', SimpleImputer(missing values=None, strategy='most\_frequent')), | | | ('one\_hot\_encode', OneHotEncoder(sparse=False))]) | | | | | | numeric\_pipe = Pipeline([ | | | ('select', DataFrameSelector(numeric\_features)), | | | ('impute', SimpleImputer(missing values=np.nan, strategy='mean')), | | | ('normalize', MinMaxScaler())]) | | | | | | full\_pipe = FeatureUnion( transformer\_list=[ | | | ('numeric\_pipe', numeric\_pipe), | | | ('categorical\_pipe', categorical\_pipe)]) |我們打印結(jié)果如下:
| | X\_proc = full\_pipe.fit\_transform( X ) | | | print( X\_proc ) | | | [[1. 0.12 0. 1. 0. 0. 1. ] | | | [0.77777778 0.72 1. 0. 0. 1. 0. ] | | | [0.55555556 0.48 1. 0. 0. 0. 1. ] | | | [0. 0.52 0. 0. 1. 1. 0. ] | | | [0.04444444 1. 0. 1. 0. 1. 0. ] | | | [0.11111111 0. 1. 0. 0. 1. 0. ] | | | [0.08888889 0.92 0. 1. 0. 1. 0. ] | | | [0.34166667 0.52 0. 1. 0. 1. 0. ] | | | [0.15555556 0.4 0. 1. 0. 1. 0. ]] |5.總結(jié)
下面我們對上面講解到的sklearn工具庫應(yīng)用知識做一個總結(jié)。
5.1 SKLearn五大原則
SKLearn的設(shè)計(jì)下,它的主要API遵循五大原則
(1) 一致性
所有對象的接口一致且簡單,在「估計(jì)器」中
- 創(chuàng)建:model = Constructor(hyperparam)
 - 擬參: 
- 有監(jiān)督學(xué)習(xí):model.fit(X_train, y_train)
 - 無監(jiān)督學(xué)習(xí):model.fit(X_train)
 
 
在「預(yù)測器」中
- 有監(jiān)督學(xué)習(xí)里預(yù)測標(biāo)簽:y_pred = model.predict(X_test)
 - 無監(jiān)督學(xué)習(xí)里識別模式:idx_pred = model.predict( Xtest)
 
在「轉(zhuǎn)換器」中
- 創(chuàng)建:trm = Constructor(hyperparam)
 - 獲參:trm.fit(X_train)
 - 轉(zhuǎn)換:X_trm = trm.transform(X_train)
 
(2) 可檢驗(yàn)
所有估計(jì)器里設(shè)置的超參數(shù)和學(xué)到的參數(shù)都可以通過實(shí)例的變量直接訪問來檢驗(yàn)其值,區(qū)別是超參數(shù)的名稱最后沒有下劃線_,而參數(shù)的名稱最后有下劃線_。舉例如下:
- 通例:model.hyperparameter
 - 特例:SVC.kernel
 - 通例:model.parameter_
 - 特例:SVC.support_vectors_
 
(3) 標(biāo)準(zhǔn)類
SKLearn模型接受的數(shù)據(jù)集的格式只能是「Numpy數(shù)組」和「Scipy稀疏矩陣」。超參數(shù)的格式只能是「字符」和「數(shù)值」。
 不接受其他的類!
(4) 可組成
模塊都能重復(fù)「連在一起」或「并在一起」使用,比如兩種形式流水線(pipeline)
- 任意轉(zhuǎn)換器序列
 - 任意轉(zhuǎn)換器序列+估計(jì)器
 
(5) 有默認(rèn)
SKLearn給大多超參數(shù)提供了合理的默認(rèn)值,大大降低了建模的難度。
5.2 SKLearn框架流程
sklearn的建模應(yīng)用流程框架大概如下:
(1) 確定任務(wù)
是「有監(jiān)督」的分類或回歸?還是「無監(jiān)督」的聚類或降維?確定好后基本就能知道用Sklearn里哪些模型了。
(2) 數(shù)據(jù)預(yù)處理
這步最繁瑣,要處理缺失值、異常值;要編碼類別型變量;要正規(guī)化或標(biāo)準(zhǔn)化數(shù)值型變量,等等。但是有了Pipeline神器一切變得簡單高效。
(3) 訓(xùn)練和評估
這步最簡單,訓(xùn)練用估計(jì)器fit()先擬合,評估用預(yù)測器predict()來評估。
(4) 選擇模型
啟動ModelSelection估計(jì)器里的GridSearchCV和RandomizedSearchCV,選擇得分最高的那組超參數(shù)(即模型)。
參考資料
- 圖解機(jī)器學(xué)習(xí)算法 | 從入門到精通系列
 - SKLearn官網(wǎng):https://scikit-learn.org/stable/
 - AI建模工具速查|Scikit-learn使用指南
 
ShowMeAI系列教程推薦
- 圖解Python編程:從入門到精通系列教程
 - 圖解數(shù)據(jù)分析:從入門到精通系列教程
 - 圖解AI數(shù)學(xué)基礎(chǔ):從入門到精通系列教程
 - 圖解大數(shù)據(jù)技術(shù):從入門到精通系列教程
 - 圖解機(jī)器學(xué)習(xí)算法:從入門到精通系列教程
 - 機(jī)器學(xué)習(xí)實(shí)戰(zhàn):手把手教你玩轉(zhuǎn)機(jī)器學(xué)習(xí)系列
 
相關(guān)文章推薦
- Python機(jī)器學(xué)習(xí)算法應(yīng)用實(shí)踐
 - SKLearn入門與簡單應(yīng)用案例
 - SKLearn最全應(yīng)用指南
 - XGBoost建模應(yīng)用詳解
 - LightGBM建模應(yīng)用詳解
 - Python機(jī)器學(xué)習(xí)綜合項(xiàng)目-電商銷量預(yù)估
 - Python機(jī)器學(xué)習(xí)綜合項(xiàng)目-電商銷量預(yù)估<進(jìn)階方案>
 - 機(jī)器學(xué)習(xí)特征工程最全解讀
 - 自動化特征工程工具Featuretools應(yīng)用
 - AutoML自動化機(jī)器學(xué)習(xí)建模
 
總結(jié)
以上是生活随笔為你收集整理的机器学习实战 | SKLearn最全应用指南的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 微信抢号软件_强推|那些写微信公众号一定
 - 下一篇: MYSQL中ALTER命令