當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Lesson 6.5Lesson 6.6.1Lesson 6.6.2 机器学习调参基础理论与网格搜索多分类评估指标的macro与weighted过程GridSearchCV的进阶使用方法

發布時間：2025/4/5 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 Lesson 6.5Lesson 6.6.1Lesson 6.6.2 机器学习调参基础理论与网格搜索多分类评估指标的macro与weighted过程GridSearchCV的进阶使用方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Lesson 6.5 機器學習調參基礎理論與網格搜索

在上一小節執行完手動調參之后，接下來我們重點討論關于機器學習調參的理論基礎，并且介紹sklearn中調參的核心工具——GridSearchCV。

# 科學計算模塊 import numpy as np import pandas as pd# 繪圖模塊 import matplotlib as mpl import matplotlib.pyplot as plt# 自定義模塊 from ML_basic_function import *# Scikit-Learn相關模塊 # 評估器類 from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LogisticRegression from sklearn.pipeline import make_pipeline# 實用函數 from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score

一、機器學習調參理論基礎

在利用sklearn進行機器學習調參之前，我們先深入探討一些和調參相關的機器學習基礎理論。盡管我們都知道，調參其實就是去尋找一組最優參數，但最優參數中的“最優”如何定義？面對模型中的眾多參數又該如何“尋找”？要回答這些問題，我們就必須補充更加完整的關于機器學習中參數和調參的理論知識。

1.機器學習調參目標及基本方法

首先需要明確的一點，我們針對哪一類參數進行調參，以及圍繞什么目的進行調參？

參數與超參數

根據此前對參數的劃分，我們知道，影響機器學習建模結果的參數有兩類，其一是參數，其二是超參數。其中參數的數值計算由一整套數學過程決定，在選定方法后，其計算過程基本不需要人工參與。因此我們經常說的模型調參，實際上是調整模型超參數。超參數種類繁多，而且無法通過一個嚴謹的數學流程給出最優解，因此需要人工參與進行調節。

而在圍繞具體的機器學習評估器進行調參時，其實就是在調整評估器實例化過程中所涉及到的那些超參數，例如此前進行邏輯回歸參數解釋時的超參數，當然，這也是我們為什么需要對評估器進行如此詳細的超參數的解釋的原因之一。

超參數調整目標

那么緊接著的問題就是，超參數的調整目標是什么？是提升模型測試集的預測效果么？

無論是機器學習還是統計模型，只要是進行預測的模型，其實核心的建模目標都是為了更好的進行預測，也就是希望模型能夠有更好的預測未來的能力，換而言之，就是希望模型能夠有更強的泛化能力。而在Lesson 3中我們曾談到，機器學習類算法的可信度來源則是訓練集和測試集的劃分理論，也就是機器學習會認為，只要能夠在模擬真實情況的測試集上表現良好，模型就能夠具備良好的泛化能力。也就是說，超參數調整的核心目的是為了提升模型的泛化能力，而測試集上的預測效果只是模型泛化能力的一個具體表現，并且相比與一次測試集上的運行結果，其實借助交叉驗證，能夠提供更有效、更可靠的模型泛化能力的證明。

交叉驗證與評估指標

如果需要獲得更可靠的模型泛化能力的證明，則需要進行交叉驗證，通過多輪的驗證，來獲得模型的更為一般、同時也更為準確的運行結果。當然，我們還需要謹慎的選擇一個合適的評估指標對其進行結果評估。

如何提升模型泛化能力

如果擁有了一個更加可信的、用于驗證模型是否具有泛化能力的評估方式之后，那么接下來的問題就是，我們應該如何提升模型泛化能力呢？

當然，這其實是一個很大的問題，我們可以通過更好的選擇模型（甚至是模型創新）、更好的特征工程、更好的模型訓練等方法來提高模型泛化能力，而此處我們將要介紹的，是圍繞某個具體的模型、通過更好的選擇模型中的超參數，來提高模型的泛化能力。不過正如此前所說，超參數無法通過一個嚴謹的數學流程給出最優解，因此超參數的選擇其實是經驗+一定范圍內枚舉（也就是網格搜索）的方法來決定的。這個過程雖然看起來不是那么的cooooool，但確實目前機器學習超參數選擇的通用方式，并且當我們深入進行了解之后就會發現，盡管是經驗+枚舉，但經驗的積累和枚舉技術的掌握，其實也是算法工程師建模水平的重要證明。

2.基于網格搜索的超參數的調整方法

在了解機器學習中調參的基礎理論之后，接下來我們考慮一個更加具體的調參流程。實際上，盡管對于機器學習來說超參數眾多，但能夠對模型的建模結果產生決定性影響的超參數卻不多，對于大多數超參數，我們都主要采用“經驗結合實際”的方式來決定超參數的取值，如數據集劃分比例、交叉驗證的折數等等，而對于一些如正則化系數、特征衍生階數等，則需要采用一個流程來對其進行調節。而這個流程，一般來說就是進行搜索與枚舉，或者也被稱為網格搜索（gridsearch）。

所謂搜索與枚舉，指的是將備選的參數一一列出，多個不同參數的不同取值最終將組成一個參數空間（parameter space），在這個參數空間中選取不同的值帶入模型進行訓練，最終選取一組最優的值作為模型的最終超參數，當然，正如前面所討論的，此處“最優”的超參數，應該是那些盡可能讓模型泛化能力更好的參數。當然，在這個過程中，有兩個核心問題需要注意，其一是參數空間的構成，其二是選取能夠代表模型泛化能力的評估指標。接下來我們對其進行逐個討論。

2.1 參數空間

參數空間的定義

所謂參數空間，其實就是我們挑選出來的、接下來需要通過枚舉和搜索來進行數值確定的參數取值范圍所構成的空間。例如對于邏輯回歸模型來說，如果選擇penalty參數和C來進行搜索調參，則這兩個參數就是參數空間的不同維度，而這兩個參數的不同取值就是這個參數空間中的一系列點，例如(penalty=‘l1’, C=1)、(penalty=‘l1’, C=0.9)、(penalty=‘l2’, C=0.8)等等，就是這個參數空間內的一系列點，接下來我們就需要從中挑選組一個最優組合。

參數空間構造思路

那么我們需要帶入那些參數去構造這個參數空間呢？也就是我們需要選擇那些參數進行調參呢？切記，調參的目的是為了提升模型的泛化能力，而保證泛化能力的核心是同時控制模型的經驗風險和結構風險（既不讓模型過擬合也不讓模型前擬合），因此，對于邏輯回歸來說，我們需要同時帶入能夠讓模型擬合度增加、同時又能抑制模型過擬合傾向的參數來構造參數空間，即需要帶入特征衍生的相關參數、以及正則化的相關參數。

一個建模流程中的特征衍生的相關參數，也是可以帶入同一個參數空間進行搜索的。

2.2 交叉驗證與評估指標

實際的超參數的搜索過程和我們上面討論的模型結構風險一節中的參數選取過程略有不同，此前我們的過程是：先在訓練集中訓練模型，然后計算訓練誤差和泛化誤差，通過二者誤差的比較來觀察模型是過擬合還是欠擬合（即評估模型泛化能力），然后再決定這些超參數應該如何調整。而在一個更加嚴謹的過程中，我們需要將上述“通過對比訓練誤差和測試誤差的差異，來判斷過擬合還是欠擬合”的這個偏向主觀的過程變成一個更加客觀的過程，即我們需要找到一個能夠基于目前模型建模結果的、能代表模型泛化能力的評估指標，這即是模型建模流程更加嚴謹的需要，同時也是讓測試集回歸其本來定位的需要。

評估指標選取

而這個評估指標，對于分類模型來說，一般來說就是ROC-AUC或F1-Score，并且是基于交叉驗證之后的指標。我們通常會選取ROC-AUC或F1-Score，其實也是因為這兩個指標的敏感度要強于準確率（詳見Lesson 5中的討論），并且如果需要重點識別模型識別1類的能力，則可考慮F1-Score，其他時候更推薦使用ROC-AUC。

交叉驗證過程

而為何要進行交叉驗證，則主要原因是超參數的調整也需要同時兼顧模型的結構風險和經驗風險，而能夠表示模型結構風險的，就是不帶入模型訓練、但是能夠對模型建模結果進行評估并且指導模型進行調整的驗證集上的評估結果。

上述過程可以具體表示成如下步驟：

在訓練集中進行驗證集劃分（幾折待定）；
帶入訓練集進行建模、帶入驗證集進行驗證，并輸出驗證集上的模型評估指標；
計算多組驗證集上的評估指標的均值，作為該超參數下模型最終表現。

因此，在大多數情況下，網格搜索（gridsearch）都是和交叉驗證（CV）同時出現的，這也是為什么sklearn中執行網格搜索的類名稱為GridSearchCV的原因。

另外需要強調的一點是，由于交叉驗證的存在，此時測試集的作用就變成了驗證網格搜索是否有效，而非去驗證模型是否有效（此時模型是否有效由驗證集來驗證）。由于此時我們提交給測試集進行測試的，都是經過交叉驗證挑選出來的最好的一組參數、或者說至少是在驗證集上效果不錯的參數（往往也是評估指標比較高的參數），而此時如果模型在測試集上運行效果不好、或者說在測試集上評估指標表現不佳，則說明模型仍然還是過擬合，之前執行的網格搜索過程并沒有很好的控制住模型的結構風險，據此我們需要調整此前的調參策略，如調整參數空間、或者更改交叉驗證策略等。

當然，如果是對網格搜索的過程比較自信，也可以不劃分測試集，直接帶入全部數據進行模型訓練。

二、基于Scikit-Learn的網格搜索調參

在了解機器學習調參基礎理論之后，接下來我們來借助sklearn中的相關工具，來執行更加高效的調參工作。

1.sklearn中網格搜索的基本說明

由于網格搜索確定超參數的過程實際上幫助進行模型篩選，因此我們可以在sklearn的model_selection模塊查找相關內容。要學習sklearn中的網格搜索相關功能，最好還是從查閱官網的說明文檔開始，我們可以在sklearn的User Guide的3.2節中我們能看到關于網格搜索的相關內容。首先介紹官網給出的相關說明：

該說明文檔開宗明義的介紹了網格搜索根本目的是為了調整超參數（Hyper-parameters），也就是評估器（estimators）中的參數，每個評估器中的參數可以通過.get_params()的方法來查看，并且建議配合交叉驗證來執行。

同時，該說明文檔重點指出了網格搜索中的核心要素，分別是：評估器、參數空間、搜索策略、交叉驗證以及評估指標。其中參數空間、交叉驗證以及評估指標我們都在此前介紹過了，而根據下文的介紹，sklearn中實際上是集成了兩種不同的進行參數搜索的方法，分別是GridSearchCV和RandomizedSearchCV：
盡管都是進行網格搜索，但兩種方法還是各有不同，GridSearchCV會嘗試參數空間內的所有組合，而RandomizedSearchCV則會先進行采樣再來進行搜索，即對某個參數空間的某個隨機子集進行搜索。并且上文重點強調，這兩種方法都支持先兩兩比對、然后逐層篩選的方法來進行參數篩選，即HalvingGridSearchCV和HalvingRandomSearchCV方法。注意，這是sklearn最新版、也就是0.24版才支持的功能，該功能的出現也是0.24版最大的改動之一，而該功能的加入，也將進一步減少網格搜索所需計算資源、加快網格搜索的速度。

由于目前sklearn中最通用的版本還是0.23版，因此0.24版中的提供的網格篩選的新功能在正課內容暫時不做介紹，后續將以加餐形式補充進行講解。

當然，說明文檔中也再次強調，由于sklearn的評估器中集成了非常多的參數，而并非所有參數都對最終建模結果有顯著影響，因此為了不增加網格搜索過程計算量，推薦謹慎的構造參數空間，部分參數仍然以默認參數為主。

在介紹完基本說明文檔后，接下來我們嘗試調用sklearn中集成的相關方法來進行建模試驗。

2.sklearn中GridSearchCV的參數解釋

接下來我們詳細介紹GridSearchCV的相關參數，我們知道該方法的搜索策略是“全搜索”，即對參數空間內的所有參數進行搜索，該方法在model_selection模塊下，同樣也是以評估器形式存在，我們可以通過如下方式進行導入：

from sklearn.model_selection import GridSearchCV

不難發現該評估器的參數主體就是此前介紹的評估器、參數空間、交叉驗證以及評估指標，我們對該評估器的完整參數進行解釋：

GridSearchCV? #GridSearchCV( # estimator, # param_grid, # *, # scoring=None, # n_jobs=None, # iid='deprecated', # refit=True, 參數應用到所用數據 # cv=None, 默認是五折交叉驗證 # verbose=0, # pre_dispatch='2*n_jobs', # error_score=nan, # return_train_score=False, )

整體來看，上面的主要參數分為三類，分別是核心參數、評估參數和性能參數。

核心參數

所謂性能參數，也就是涉及評估器訓練（fit）的最核心參數，也就是estimator參數和param_grid參數，同時也是實例化評估器過程中最重要的參數。

評估參數

所謂評估參數，指的是涉及到不同參數訓練結果評估過程方式的參數，主要是scoring、refit和cv三個參數。當然這三個參數都不是必要參數，但這三個參數卻是直接決定模型結果評估過程、并且對最終模型參數選擇和模型泛化能力提升直觀重要的三個參數。這三個參數各自都有一個默認值，我們先解釋在默認值情況下這三個參數的運作方式，然后在進階應用階段討論如何對這三個參數進行修改。

首先是關于scoring參數的選取，scoring表示選取哪一項評估指標來對模型結果進行評估。而根據參數說明文檔我們知道，在默認情況下scoring的評估指標就是評估器的.score方法默認的評估指標，對于邏輯回歸來說也就是準確率。也就是說在默認情況下如果是圍繞邏輯回歸進行網格搜索，則默認評估指標是準確率。此外，scoring參數還支持直接輸入可調用對象（評估函數）、代表評估函數運行方式的字符串、字典或者list。而refit參數則表示選擇一個用于評估最佳模型的評估指標，然后在最佳參數的情況下整個訓練集上進行對應評估指標的計算。而cv則是關于交叉驗證的相關參數，默認情況下進行5折交叉驗證，并同時支持自定義折數的交叉驗證、輸入交叉驗證評估器的交叉驗證、以及根據指定方法進行交叉驗證等方法。當然此組參數有非常多的設計方法，我們將在進階應用階段進行進一步的詳解。

性能參數

第三組則是關于網格搜索執行性能相關的性能參數，主要包括n_jobs和pre_dispatch參數兩個，用于規定調用的核心數和一個任務按照何種方式進行并行運算。在網格搜索中，由于無需根據此前結果來確定后續計算方法，所以可以并行計算。在默認情況下并行任務的劃分數量和n_jobs相同。當然，這組參數的合理設置能夠一定程度提高模型網格搜索效率，但如果需要大幅提高執行速度，建議使用RandomizedSearchCV、或者使用Halving方法來進行加速。

3.sklearn中GridSearchCV的使用方法

在了解了GridSearchCV的基本方法之后，接下來我們以邏輯回歸在鳶尾花數據集上建模為例，來嘗試使用GridSearchCV方法進行網格調參，并同時介紹網格搜索的一般流程：

3.1 GridSearchCV評估器訓練過程

Step 1.創建評估器

首先我們還是需要實例化一個評估器，這里可以是一個模型、也可以是一個機器學習流，網格搜索都可以對其進行調參。此處我們先從簡單入手，嘗試實例化邏輯回歸模型并對其進行調參。

# 數據導入 from sklearn.datasets import load_iris X, y = load_iris(return_X_y=True) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=24)clf = LogisticRegression(max_iter=int(1e6), solver='saga')

此處將solver設置成saga，也是為了方便后續同時比較l1正則化和l2正則化時無需更換求解器。

clf.get_params() #{'C': 1.0, # 'class_weight': None, # 'dual': False, # 'fit_intercept': True, # 'intercept_scaling': 1, # 'l1_ratio': None, # 'max_iter': 1000000, # 'multi_class': 'auto', # 'n_jobs': None, # 'penalty': 'l2', # 'random_state': None, # 'solver': 'saga', # 'tol': 0.0001, # 'verbose': 0, # 'warm_start': False}

Step 2.創建參數空間

接下來，我們就需要挑選評估器中的超參數構造參數空間，需要注意的是，我們需要挑選能夠控制模型擬合度的超參數來進行參數空間的構造，例如挑選類似verbose、n_jobs等此類參數構造參數是毫無意義的。此處我們挑選penalty和C這兩個參數來進行參數空間的構造。參數空間首先可以是一個字典：

param_grid_simple = {'penalty': ['l1', 'l2'],'C': [1, 0.5, 0.1, 0.05, 0.01]} #C大對經驗風險懲罰力度大

其中，字典的Key用參數的字符串來代表不同的參數，對應的Value則用列表來表示對應參數不同的取值范圍。也就是字典的Key是參數空間的維度，而Value則是不同緯度上可選的取值。而后續的網格搜索則是在上述參數的不同組合中挑選出一組最優的參數取值。

當然，由于如此構造方法，此處自然會衍生出一個新的問題，那就是如果某個維度的參數取值對應一組新的參數，應該如何處理？例如，對于邏輯回歸來說，如果penalty參數中選擇彈性網參數，則會衍生出一個新的參數l1_ratio，如果我們還想考慮penalty參數選取elasticnet參數，并且同時評估l1_ratio取不同值時模型效果，則無法將上述參數封裝在一個參數空間內，因為當penalty取其他值時l1_ratio并不存在。為了解決這個問題，我們可以創造多個參數空間（字典），然后將其封裝在一個列表中，而該列表則表示多個參數空間的集成。例如上述問題可以進行如下表示：

param_grid_ra = [{'penalty': ['l1', 'l2'], 'C': [1, 0.5, 0.1, 0.05, 0.01]}, {'penalty': ['elasticnet'], 'C': [1, 0.5, 0.1, 0.05, 0.01], 'l1_ratio': [0.3, 0.6, 0.9]} ]

即可表示網格搜索在l1+1、l1+0.5…空間與elasticnet+1+0.3、elasticnet+1+0.6…空間同時進行搜索。

Step 3.實例化網格搜索評估器

和sklearn中其他所有評估器一樣，網格搜索的評估器的使用也是先實例化然后進行對其進行訓練。此處先實例化一個簡單的網格搜索評估器，需要輸入此前設置的評估器和參數空間。

search = GridSearchCV(estimator=clf,param_grid=param_grid_simple)

Step 4.訓練網格搜索評估器

同樣，我們通過fit方法即可完成評估器的訓練。

search.fit(X_train, y_train) #GridSearchCV(estimator=LogisticRegression(max_iter=1000000, solver='saga'), # param_grid={'C': [1, 0.5, 0.1, 0.05, 0.01], # 'penalty': ['l1', 'l2']})

需要知道的是，所謂的訓練網格搜索評估器，本質上是在挑選不同的參數組合進行邏輯回歸模型訓練，而訓練完成后相關結果都保存在search對象的屬性中。

3.2 GridSearchCV評估器結果查看

此處我們先介紹關于網格搜索類的所有屬性和方法，再來查看挑選其中重要屬性的結果進行解讀。

best_estimator_：訓練完成后的最佳評估器

實際上返回的就是帶有網格搜索挑選出來的最佳參數（超參數）的評估器。

search.best_estimator_ #LogisticRegression(C=1, max_iter=1000000, penalty='l1', solver='saga')

上述評估器就相當于一個包含最佳參數的邏輯回歸評估器，可以調用邏輯回歸評估器的所有屬性：

# 查看參數 search.best_estimator_.coef_ #array([[ 0. , 0. , -3.47349066, 0. ], # [ 0. , 0. , 0. , 0. ], # [-0.55506614, -0.34227663, 3.03238721, 4.12147362]])# 查看訓練誤差、測試誤差 search.best_estimator_.score(X_train,y_train), search.best_estimator_.score(X_test,y_test) #(0.9732142857142857, 0.9736842105263158)# 查看參數 search.best_estimator_.get_params() # {'C': 1, # 'class_weight': None, # 'dual': False, # 'fit_intercept': True, # 'intercept_scaling': 1, # 'l1_ratio': None, # 'max_iter': 1000000, # 'multi_class': 'auto', # 'n_jobs': None, # 'penalty': 'l1', # 'random_state': None, # 'solver': 'saga', # 'tol': 0.0001, # 'verbose': 0, # 'warm_start': False}

best_score_：最優參數時交叉驗證平均得分

search.best_score_ #0.9644268774703558

在默認情況下（未修改網格搜索評估器中評估指標參數時），此處的score就是準確率。此處有兩點需要注意：

其一：該指標和訓練集上整體準確率不同，該指標是交叉驗證時驗證集準確率的平均值，而不是所有數據的準確率；
其二：該指標是網格搜索在進行參數挑選時的參照依據。

其他屬性方法測試

search.cv_results_ #{'mean_fit_time': array([0.05980272, 0.02458634, 0.03755803, 0.02086544, 0.00778856, # 0.012042 , 0.00317636, 0.00887041, 0.00049868, 0.00350785]), # 'std_fit_time': array([5.92201677e-03, 1.05405387e-03, 1.34667070e-03, 5.44148798e-04, # 3.86861563e-04, 2.92282252e-04, 1.52451976e-04, 1.55462472e-04, # 3.12557937e-05, 6.50887088e-05]), # 'mean_score_time': array([0.00021739, 0.00026002, 0.00019102, 0.00014124, 0.00024142, # 0.00024619, 0.00019336, 0.0002326 , 0.00011868, 0.00018349]), # 'std_score_time': array([5.97641527e-05, 1.38007910e-05, 7.29972748e-05, 5.19692566e-05, # 2.59789181e-05, 1.48881665e-05, 3.58951028e-05, 1.17117652e-05, # 1.74159836e-06, 4.23601048e-05]), # 'param_C': masked_array(data=[1, 1, 0.5, 0.5, 0.1, 0.1, 0.05, 0.05, 0.01, 0.01], # mask=[False, False, False, False, False, False, False, False, # False, False], # fill_value='?', # dtype=object), # 'param_penalty': masked_array(data=['l1', 'l2', 'l1', 'l2', 'l1', 'l2', 'l1', 'l2', 'l1', # 'l2'], # mask=[False, False, False, False, False, False, False, False, # False, False], # fill_value='?', # dtype=object), # 'params': [{'C': 1, 'penalty': 'l1'}, # {'C': 1, 'penalty': 'l2'}, # {'C': 0.5, 'penalty': 'l1'}, # {'C': 0.5, 'penalty': 'l2'}, # {'C': 0.1, 'penalty': 'l1'}, # {'C': 0.1, 'penalty': 'l2'}, # {'C': 0.05, 'penalty': 'l1'}, # {'C': 0.05, 'penalty': 'l2'}, # {'C': 0.01, 'penalty': 'l1'}, # {'C': 0.01, 'penalty': 'l2'}], # 'split0_test_score': array([1. , 1. , 1. , 1. , 1. , # 1. , 0.82608696, 1. , 0.30434783, 0.91304348]), # 'split1_test_score': array([0.91304348, 0.91304348, 0.82608696, 0.86956522, 0.82608696, # 0.73913043, 0.69565217, 0.73913043, 0.39130435, 0.69565217]), # 'split2_test_score': array([1. , 1. , 1. , 1. , 0.95454545, # 0.95454545, 0.86363636, 0.90909091, 0.36363636, 0.86363636]), # 'split3_test_score': array([0.95454545, 0.95454545, 0.95454545, 0.90909091, 0.95454545, # 0.95454545, 0.86363636, 0.90909091, 0.36363636, 0.90909091]), # 'split4_test_score': array([0.95454545, 0.95454545, 0.95454545, 0.95454545, 0.95454545, # 0.90909091, 0.86363636, 0.95454545, 0.36363636, 0.90909091]), # 'mean_test_score': array([0.96442688, 0.96442688, 0.94703557, 0.94664032, 0.93794466, # 0.91146245, 0.82252964, 0.90237154, 0.35731225, 0.85810277]), # 'std_test_score': array([0.03276105, 0.03276105, 0.06379941, 0.05120065, 0.05863407, # 0.09083516, 0.06508431, 0.08830786, 0.02856808, 0.08323326]), # 'rank_test_score': array([ 1, 1, 3, 4, 5, 6, 9, 7, 10, 8], dtype=int32)} search.best_params_ #{'C': 1, 'penalty': 'l1'} search.best_index_ #0 # 等價于search.best_estimator_.score search.score(X_train,y_train), search.score(X_test,y_test) #(0.9732142857142857, 0.9736842105263158) search.n_splits_ #5 search.refit_time_ #0.07661604881286621

至此，我們就執行了一個完整的網格搜索的調參過程。但該過程大多只使用了默認參數在小范圍內進行的運算，如果我們希望更換模型評估指標、并且在一個更加完整的參數范圍內進行搜索，則需要對上述過程進行修改，并更近一步掌握關于評估器中scoring參數和refit參數的相關使用方法，相關內容我們將在哦下一小節進行詳細討論。

Lesson 6.6.1 多分類評估指標的macro與weighted過程

在正式討論關于網格搜索的進階使用方法之前，我們需要先補充一些關于多分類問題的評估指標計算過程。在此前的課程中，我們曾經介紹過分類模型在解決多分類問題時的不同策略，同時也介紹過二分類問題的更高級評估指標，如f1-score和roc-auc等，接下來我們將詳細討論關于多分類預測結果在f1-socre和roc-auc中的評估過程，以及在sklearn中如何調用函數進行計算。

# 科學計算模塊 import numpy as np import pandas as pd# 繪圖模塊 import matplotlib as mpl import matplotlib.pyplot as plt# 自定義模塊 from ML_basic_function import *# Scikit-Learn相關模塊 # 評估器類 from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LogisticRegression from sklearn.pipeline import make_pipeline from sklearn.model_selection import GridSearchCV# 實用函數 from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score# 數據準備 from sklearn.datasets import load_iris

多分類F1-Score評估指標

首先導入和F1-Score相關的評估指標計算函數

from sklearn.metrics import precision_score,recall_score,f1_score

然后簡單查看相關說明文檔，發現這幾組和混淆矩陣相關的評估指標基本是共用了一套參數命名，并且大多數參數其實都是作用于多分類問題，對于二分類問題，我們可以簡單調用相關函數直接計算：

y_true = np.array([1, 0, 0, 1, 0, 1]) y_pred = np.array([1, 1, 0, 1, 0, 1])precision_score(y_true, y_pred), recall_score(y_true, y_pred), f1_score(y_true, y_pred) #(0.75, 1.0, 0.8571428571428571) precision_score? #Signature: #precision_score( # y_true, # y_pred, # *, # labels=None, # pos_label=1, # average='binary', # sample_weight=None, # zero_division='warn', #)

具體參數含義解釋如下：

其中，需要重點介紹多分類問題時average參數不同取值時的計算方法。此處以recall為例進行計算，重點介紹當average取值為’macro’、'micro’和’weighted’的情況，其他指標也類似，例如有簡單多分類問題如下：

我們令1類標簽為0、2類標簽為1、3類標簽為2，則上述數據集真實標簽為：

y_true = np.array([0, 1, 2, 2, 0, 1, 1, 2, 0, 2])

并且最終分類預測結果為：

y_pred = np.array([0, 1, 0, 2, 2, 1, 2, 2, 0, 2])

據此我們可以構造多分類混淆矩陣如下：

據此我們可以計算三個類別的TP和FN：

tp1 = 2 tp2 = 2 tp3 = 3 fn1 = 1 fn2 = 1 fn3 = 1

接下來有兩種計算recall的方法，其一是先計算每個類別的recall，然后求均值：

re1 = 2/3 re2 = 2/3 re3 = 3/4 np.mean([re1, re2, re3]) #0.6944444444444443

這也就是average參數取值為macro時的計算結果：

recall_score(y_true, y_pred, average='macro') #0.6944444444444443

當然，如果上述手動實現過程不求均值，而是根據每個類別的數量進行加權求和，則就是參數average參數取值為weighted時的結果：

re1 * 3/10 + re2 * 3/10 + re3 * 4/10 #0.7 recall_score(y_true, y_pred, average='weighted') #0.7

當然，還有另外一種計算方法，那就是先計算整體的TP和FN，然后根據整體TP和FN計算recall：

tp = tp1 + tp2 + tp3 fn = fn1 + fn2 + fn3 tp / (tp+fn) #0.7

該過程也就是average參數取值micro時的計算結果：

recall_score(y_true, y_pred, average='micro') #0.7

對于上述三個不同參數的選取，首先如果是樣本不平衡問題（如果是要側重訓練模型判別小類樣本的能力的情況下）、則應排除weighted參數，以避免賦予大類樣本更高的權重。除此以外，在大多數情況下這三個不同的參數其實并不會對最后評估器的選取結果造成太大影響，只是在很多要求嚴謹的場合下需要說明多分類的評估結果的計算過程，此時需要簡單標注下是按照何種方法進行的計算。

不過，如果是混淆矩陣中相關指標和roc-auc指標放在一起討論，由于新版sklearn中roc-auc本身不支持在多分類時按照micro計算、只支持macro計算，因此建議混淆矩陣的多分類計算過程也選擇macro過程，以保持一致。后續在沒有進行其他特殊說明的情況下，課上統一采用macro指標進行多分類問題評估指標的計算。

不過值得注意的是，還有一種觀點，盡管micro和macro方法在混淆矩陣相關指標的計算過程中差別不大，在roc-auc中，macro指標并不利于非平衡樣本的計算（混淆矩陣中可以通過positive的類別選擇來解決這一問題），需要配合ovr分類方法才能夠有所改善。

多分類ROC-AUC評估指標

接下來繼續討論關于多分類的ROC-AUC評估指標的相關問題：

from sklearn.metrics import roc_auc_score

能夠發現，roc_auc_score評估指標函數中大多數參數都和此前介紹的混淆矩陣中評估指標類似。接下來我們簡單嘗試使用roc-auc函數進行評估指標計算，根據roc-auc的計算流程可知，此處我們需要在y_pred參數位中輸入模型概率預測結果：

y_true = np.array([1, 0, 0, 1, 0, 1]) y_pred = np.array([0.9, 0.7, 0.2, 0.7, 0.4, 0.8]) roc_auc_score(y_true, y_pred) #0.9444444444444444

當然，如果我們在y_pred參數中輸入分類結果，該函數也能計算出最終結果：

y_true = np.array([1, 0, 0, 1, 0, 1]) y_pred = np.array([1, 1, 0, 1, 0, 1]) roc_auc_score(y_true, y_pred) #0.8333333333333334

不過，此時模型會默認預測標簽為0的概率結果為0.4、預測標簽為1的概率預測結果為0.6，即上述結果等價于：

y_true = np.array([1, 0, 0, 1, 0, 1]) y_pred = np.array([0.6, 0.6, 0.4, 0.6, 0.4, 0.6]) roc_auc_score(y_true, y_pred) #0.8333333333333334

即計算過程會默認模型概率預測結果更差。

接下來詳細解釋roc-auc中其他參數：

roc_auc_score? #Signature: #roc_auc_score( # y_true, # y_score, # *, # average='macro', # sample_weight=None, # max_fpr=None, # multi_class='raise', # labels=None,#multi_class : {'raise', 'ovr', 'ovo'}, default='raise' # Multiclass only. Determines the type of configuration to use. The # default value raises an error, so either ``'ovr'`` or ``'ovo'`` must be # passed explicitly. #raise多分類報錯，mvm很多時候和ovr有相通的地方 #二分類分類器在解決多分類問題，用什么這邊用什么#average : {'micro', 'macro', 'samples', 'weighted'} or None, #default='macro' # If ``None``, the scores for each class are returned. Otherwise, # this determines the type of averaging performed on the data: # Note: multiclass ROC AUC currently only handles the 'macro' and # 'weighted' averages. #)

此處需要注意的是關于multi_class參數的選擇。一般來說sklearn中的multi_class參數都是二分類器中用于解決多元分類問題時的參數（如邏輯回歸），而由于roc-auc需要分類結果中的概率來完成最終計算，因此需要知道概率結果對應分類標簽——即到底是以ovo還是ovr模式在進行多分類，因此如果是進行多分類roc-auc計算時，需要對其進行明確說明。

不過對于多分類邏輯回歸來說，無論是ovr還是mvm策略，最終分類結果其實都可以看成是ovr分類結果，因此如果是多分類邏輯回歸計算roc-auc，需要設置multi_class參數為ovr。同時由于根據roc-auc的函數參數說明可知，在multi_class參數取為ovr時，average參數取值為macro時能夠保持一個較高的偏態樣本敏感性，因此對于roc-auc來說，大多數時候average參數建議取值為macro。總結一下，對于roc-auc進行多分類問題評估時，建議選擇的參數組合是ovr/ovo+macro，而ovr/ovo的參數選擇需要根據具體的多分類模型來定，如果是圍繞邏輯回歸多分類評估器來進行結果評估，則建議roc-auc和邏輯回歸評估器的multi_class參數都選擇ovr。

在新版的sklearn中，roc-auc函數的multi_class參數已不支持micro參數，面對多分類問題，該參數只能夠在macro和weighted中進行選擇。

接下來我們簡單測算average參數中macro和weighted的計算過程。還是圍繞上述數據集進行計算：
據此我們可以計算每個類別單獨的roc-auc值：

y_true_1 = np.array([1, 0, 0, 0, 1, 0, 0, 0, 1, 0]) y_pred_1 = np.array([0.8, 0.2, 0.5, 0.2, 0.3, 0.1, 0.3, 0.3, 0.9, 0.3]) r1 = roc_auc_score(y_true_1, y_pred_1) r1 #0.8809523809523809 y_true_2 = np.array([0, 1, 0, 0, 0, 1, 1, 0, 0, 0]) y_pred_2 = np.array([0.2, 0.6, 0.3, 0, 0.2, 0.8, 0.2, 0.3, 0, 0.1]) r2 = roc_auc_score(y_true_2, y_pred_2) r2 #0.8571428571428571 y_true_3 = np.array([0, 0, 1, 1, 0, 0, 0, 1, 0, 1]) y_pred_3 = np.array([0, 0.2, 0.2, 0.8, 0.5, 0.1, 0.5, 0.4, 0.1, 0.6]) r3 = roc_auc_score(y_true_3, y_pred_3) r3 #0.8125

此時r1、r2、r3的均值如下：

np.mean([r1, r2, r3]) #0.8501984126984127

該結果應當和macro+multi_class參數計算結果相同

y_pred = np.concatenate([y_pred_1.reshape(-1, 1), y_pred_2.reshape(-1, 1), y_pred_3.reshape(-1, 1)], 1) y_pred #array([[0.8, 0.2, 0. ], # [0.2, 0.6, 0.2], # [0.5, 0.3, 0.2], # [0.2, 0. , 0.8], # [0.3, 0.2, 0.5], # [0.1, 0.8, 0.1], # [0.3, 0.2, 0.5], # [0.3, 0.3, 0.4], # [0.9, 0. , 0.1], # [0.3, 0.1, 0.6]]) y_true = np.array([0, 1, 2, 2, 0, 1, 1, 2, 0, 2]) roc_auc_score(y_true, y_pred, average='macro', multi_class='ovr') #0.8501984126984127

當然，如果roc-auc函數的參數是ovr+weighted，則計算結果過程驗證如下：

r1 * 3/10 + r2 * 3/10 + r3 * 4/10 #0.8464285714285713 roc_auc_score(y_true, y_pred, average='weighted', multi_class='ovr') #0.8464285714285713

至此，我們就能夠較為清楚的了解關于f1-score和roc-auc評估指標在調用sklearn中相關函數解決多分類問題評估的具體方法。

Lesson 6.6.2 GridSearchCV的進階使用方法

在Lesson 6.5中我們已經完整總結了機器學習調參的基本理論，同時介紹了sklearn中網格搜索（GridSearchCV）評估器的參數及基本使用方法。本節我們將進一步介紹網格搜索的進階使用方法，并同時補充多分類問題評估指標在sklearn中實現的相關方法，然后圍繞Lesson 6.4中提出的問題給出一個基于網格搜索的解決方案。

# 科學計算模塊 import numpy as np import pandas as pd# 繪圖模塊 import matplotlib as mpl import matplotlib.pyplot as plt# 自定義模塊 from ML_basic_function import *# Scikit-Learn相關模塊 # 評估器類 from sklearn.preprocessing import StandardScaler from sklearn.preprocessing import PolynomialFeatures from sklearn.linear_model import LogisticRegression from sklearn.pipeline import make_pipeline from sklearn.model_selection import GridSearchCV# 實用函數 from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score# 數據準備 from sklearn.datasets import load_iris

一、借助機器學習流構建全域參數搜索空間

首先是關于評估器全參數的設置方法。在此前的實驗中，我們只是保守的選取了部分我們覺得會對模型產生比較大影響的超參數來構建參數空間，但在實際場景中，調參應該是納入所有對模型結果有影響的參數進行搜索、并且是全流程中的參數來進行搜索。也就是說我們設置參數的空間的思路不應該更加“激進”一些，首先是對邏輯回歸評估器來說，應該是排除無用的參數外納入所有參數進行調參，并且就邏輯回歸模型來說，往往我們需要在模型訓練前進行特征衍生以增強模型表現，因此我們應該先構建一個包含多項式特征衍生的機器學習流、然后圍繞這個機器學習流進行參數搜索，這才是一個更加完整的調參過程。

首先，仿造Lesson 6.4中展示過程創造數據集如下：

np.random.seed(24) X = np.random.normal(0, 1, size=(1000, 2)) y = np.array(X[:,0]+X[:, 1]**2 < 1.5, int)plt.scatter(X[:, 0], X[:, 1], c=y)

X_train, X_test, y_train, y_test = train_test_split(X, y, train_size=0.7, random_state = 42)

然后開始構造機器學習流

# 構造機器學習流 pipe = make_pipeline(PolynomialFeatures(), StandardScaler(), LogisticRegression(max_iter=int(1e6))) # 查看參數 pipe.get_params() # {'memory': None, # 'steps': [('polynomialfeatures', PolynomialFeatures()), # ('standardscaler', StandardScaler()), # ('logisticregression', LogisticRegression(max_iter=1000000))], # 'verbose': False, # 'polynomialfeatures': PolynomialFeatures(), # 'standardscaler': StandardScaler(), # 'logisticregression': LogisticRegression(max_iter=1000000), # 'polynomialfeatures__degree': 2, # 'polynomialfeatures__include_bias': True, # 'polynomialfeatures__interaction_only': False, # 'polynomialfeatures__order': 'C', # 'standardscaler__copy': True, # 'standardscaler__with_mean': True, # 'standardscaler__with_std': True, # 'logisticregression__C': 1.0, # 'logisticregression__class_weight': None, # 'logisticregression__dual': False, # 'logisticregression__fit_intercept': True, # 'logisticregression__intercept_scaling': 1, # 'logisticregression__l1_ratio': None, # 'logisticregression__max_iter': 1000000, # 'logisticregression__multi_class': 'auto', # 'logisticregression__n_jobs': None, # 'logisticregression__penalty': 'l2', # 'logisticregression__random_state': None, # 'logisticregression__solver': 'lbfgs', # 'logisticregression__tol': 0.0001, # 'logisticregression__verbose': 0, # 'logisticregression__warm_start': False}# 構造參數空間 param_grid = [{'polynomialfeatures__degree': np.arange(2, 10).tolist(), 'logisticregression__penalty': ['l1'], 'logisticregression__C': np.arange(0.1, 2, 0.1).tolist(), 'logisticregression__solver': ['saga']}, {'polynomialfeatures__degree': np.arange(2, 10).tolist(), 'logisticregression__penalty': ['l2'], 'logisticregression__C': np.arange(0.1, 2, 0.1).tolist(), 'logisticregression__solver': ['lbfgs', 'newton-cg', 'sag', 'saga']},{'polynomialfeatures__degree': np.arange(2, 10).tolist(), 'logisticregression__penalty': ['elasticnet'], 'logisticregression__C': np.arange(0.1, 2, 0.1).tolist(), 'logisticregression__l1_ratio': np.arange(0.1, 1, 0.1).tolist(), 'logisticregression__solver': ['saga']} ]

二、優化評估指標選取

1.高級評估指標的選用方法

根據此前介紹，如果需要更好的驗證模型本身泛化能力，建議使用f1-score或者roc-auc，當然調整網格搜索過程的模型評估指標過程其實并不難理解，核心就是修改scoring參數取值。但由于涉及到在參數中調用評估函數，因此需要補充一些關于常用分類評估指標在sklearn中的函數使用方法，以及不同評估指標函數在不同參數取值時在網格搜索評估器中的調用方法。

GridSearchCV?

從評估器的說明文檔中能夠看出，scoring參數最基礎的情況下可以選擇輸入str（字符串）或者callable（可調用）對象，也就是可以輸入指代某個評估過程的字符串（一個字符串代表不同參數取值下的某評估函數），或者直接輸入某評估指標函數（或者通過make_score函數創建的函數），來進行模型結果的評估。當然，也可以在該參數位上直接輸入一個字典或者list，其中，如果是字典的話字典的value需要是str（字符串）或者callable（可調用）對象。這里看似復雜但實際上不難理解，由于sklearn中的評估指標函數一般都是有多個不同參數，而不同參數代表不同的計算過程，因此這些評估指標函數作為參數輸入網格搜索評估器中的時候，必須通過“某種方式”確定這些參數取值，因此就有了如下方法，即通過字符串對應表來查看不同字符串所代表的不同參數取值下的評估指標函數，如下所示：

相關說明可以在Scikit-Learn官網的的3.3. Metrics and scoring: quantifying the quality of predictions處查閱：

不難看出，在網格搜索中輸出評估指標參數，和調用評估指標函數進行數據處理還是有很大的區別。例如，metrics.roc_auc_score函數能夠同時處理多分類問題和二分類問題，但如果作為參數輸入到網格搜索中，roc_auc參數只能指代metrics.roc_auc_score函數的二分類功能，如果需要進行多分類，則需要在scoring參數中輸入roc_auc_ovr、roc_auc_ovo或者roc_auc_ovr_weighted、roc_auc_ovo_weighted。我們先簡單嘗試在scoring中輸入字符串的基本操作，然后在深入解釋roc-auc評估指標的使用方法。

同時，該參數列表也可以通過如下方式獲得：

import sklearn sorted(sklearn.metrics.SCORERS.keys()) ['accuracy', # 'adjusted_mutual_info_score', # 'adjusted_rand_score', # 'average_precision', # 'balanced_accuracy', # 'completeness_score', # 'explained_variance', # 'f1', # 'f1_macro', # 'f1_micro', # 'f1_samples', # 'f1_weighted', # 'fowlkes_mallows_score', # 'homogeneity_score', # 'jaccard', # 'jaccard_macro', # 'jaccard_micro', # 'jaccard_samples', # 'jaccard_weighted', # 'max_error', # 'mutual_info_score', # 'neg_brier_score', # 'neg_log_loss', # 'neg_mean_absolute_error', # 'neg_mean_gamma_deviance', # 'neg_mean_poisson_deviance', # 'neg_mean_squared_error', # 'neg_mean_squared_log_error', # 'neg_median_absolute_error', # 'neg_root_mean_squared_error', # 'normalized_mutual_info_score', # 'precision', # 'precision_macro', # 'precision_micro', # 'precision_samples', # 'precision_weighted', # 'r2', # 'recall', # 'recall_macro', # 'recall_micro', # 'recall_samples', # 'recall_weighted', # 'roc_auc', # 'roc_auc_ovo', # 'roc_auc_ovo_weighted', # 'roc_auc_ovr', # 'roc_auc_ovr_weighted', # 'v_measure_score'] from sklearn.metrics import roc_auc_score roc_auc_score?

例如字符串roc_auc_ovr就代表roc_auc_score函數中multi_class參數取值為ovr時的計算流程，也就是說，當網格搜索的scoring參數取值為字符串roc_auc_ovr時，就代表調用了multi_class=`ovr`、而其他參數選用默認參數的roc_auc_score函數作為模型評估函數。

GridSearchCV(estimator=pipe,param_grid=param_grid,scoring='roc_auc_ovr') # GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures', # PolynomialFeatures()), # ('standardscaler', StandardScaler()), # ('logisticregression', # LogisticRegression(max_iter=1000000))]), # param_grid=[{'logisticregression__C': [0.1, 0.2, # 0.30000000000000004, 0.4, # 0.5, 0.6, # 0.7000000000000001, 0.8, # 0.9, 1.0, 1.1, # 1.2000000000000002, # 1.3000000000000003, # 1.4000000000000001... # 1.4000000000000001, # 1.5000000000000002, 1.6, # 1.7000000000000002, # 1.8000000000000003, # 1.9000000000000001], # 'logisticregression__l1_ratio': [0.1, 0.2, # 0.30000000000000004, # 0.4, 0.5, 0.6, # 0.7000000000000001, # 0.8, 0.9], # 'logisticregression__penalty': ['elasticnet'], # 'logisticregression__solver': ['saga'], # 'polynomialfeatures__degree': [2, 3, 4, 5, 6, 7, 8, # 9]}], # scoring='roc_auc_ovr')

當然，scoring參數還支持直接輸入可調用對象，即支持輸入經過make_scorer函數轉化之后的評估指標函數：

from sklearn.metrics import make_scorer acc = make_scorer(roc_auc_score) GridSearchCV(estimator=pipe,param_grid=param_grid,scoring=acc) # GridSearchCV(estimator=Pipeline(steps=[('polynomialfeatures', # PolynomialFeatures()), # ('standardscaler', StandardScaler()), # ('logisticregression', # LogisticRegression(max_iter=1000000))]), # param_grid=[{'logisticregression__C': [0.1, 0.2, # 0.30000000000000004, 0.4, # 0.5, 0.6, # 0.7000000000000001, 0.8, # 0.9, 1.0, 1.1, # 1.2000000000000002, # 1.3000000000000003, # 1.4000000000000001... # 1.4000000000000001, # 1.5000000000000002, 1.6, # 1.7000000000000002, # 1.8000000000000003, # 1.9000000000000001], # 'logisticregression__l1_ratio': [0.1, 0.2, # 0.30000000000000004, # 0.4, 0.5, 0.6, # 0.7000000000000001, # 0.8, 0.9], # 'logisticregression__penalty': ['elasticnet'], # 'logisticregression__solver': ['saga'], # 'polynomialfeatures__degree': [2, 3, 4, 5, 6, 7, 8, # 9]}], # scoring=make_scorer(roc_auc_score))

但此時我們無法修改評估指標函數的默認參數。

值得注意的是，此處make_scorer函數實際上會將一個簡單的評估指標函數轉化為評估器結果評估函數。對于評估指標函數來說，只需要輸入標簽的預測值和真實值即可進行計算，例如：

accuracy_score([1, 1, 0], [1, 1, 1]) #0.6666666666666666

而評估器結果評估函數，則需要同時輸入評估器、特征矩陣以及對應的真實標簽，其執行過程是先將特征矩陣輸入評估器、然后將輸出結果和真實標簽進行對比：

acc = make_scorer(accuracy_score) acc(search.best_estimator_, X_train, y_train) #0.9732142857142857 search.score(X_train, y_train) #0.9732142857142857

而在網格搜索或者交叉驗證評估器中，只支持輸入經過make_scorer轉化后的評估指標函數。

2.同時輸入多組評估指標

當然，有的時候我們可能需要同時看不同參數下多項評估指標的結果，此時我們就可以在scoring中輸入列表、元組或者字典，當然字典對象會較為常用，例如如果我們需要同時選用roc-auc和accuracy作為模型評估指標，則需要創建如下字典：

scoring = {'AUC': 'roc_auc', 'Accuracy': make_scorer(accuracy_score)}

然后將其作為參數傳入網格搜索評估器內：

search = GridSearchCV(estimator=clf,param_grid=param_grid_simplescoring=scoring)

當然，roc-auc指標也可以用make_score來傳輸，accuracy也可以用字符串形式來傳輸，即來上述多評估指標的字典等價于：

{'AUC': make_scorer(roc_auc_score), 'Accuracy': 'accuracy'} #{'AUC': make_scorer(roc_auc_score), 'Accuracy': 'accuracy'}

不過，需要注意的是，盡管此時網格搜索評估器將同時計算一組參數下的多個評估指標結果并輸出，但我們只能選取其中一個評估指標作為挑選超參數的依據，而其他指標盡管仍然會計算，但結果只作參考。而refit參數中輸入的評估指標，就是最終選擇參數的評估指標

盡管網格搜索支持依據不同的評估指標進行參數搜索，但最終選擇何種參數，可以參考如下依據：

有明確模型評估指標的

在很多競賽或者項目算法驗收環節，可能都會存在較為明確的模型評估指標，例如模型排名根據f1-score計算結果得出等。在該情況下，應當盡量選擇要求的評估指標。

沒有明確模型評估指標的

但是，如果沒有明確的評估指標要求，則選擇評估指標最核心的依據就是盡可能提升/確保模型的泛化能力。此時，根據Lesson 5中對各評估指標的討論結果，如果數據集的各類別并沒有明確的差異，在算力允許的情況下，應當優先考慮roc-auc；而如果希望重點提升模型對類別1（或者某類別）的識別能力，則可以優先考慮f1-score作為模型評估指標。

search = GridSearchCV(estimator=clf,param_grid=param_grid_simplescoring=scoring)refit="AUC"

三、優化后建模流程

接下來，依據上述優化后的過程，來執行網格搜索。完整流程如下：

構造機器學習流

# 構造機器學習流 pipe = make_pipeline(PolynomialFeatures(), StandardScaler(), LogisticRegression(max_iter=int(1e6)))

構造包含多個評估器的機器學習流的參數空間

# 構造參數空間 param_grid = [{'polynomialfeatures__degree': np.arange(2, 10).tolist(), 'logisticregression__penalty': ['l1'], 'logisticregression__C': np.arange(0.1, 2, 0.1).tolist(), 'logisticregression__solver': ['saga']}, {'polynomialfeatures__degree': np.arange(2, 10).tolist(), 'logisticregression__penalty': ['l2'], 'logisticregression__C': np.arange(0.1, 2, 0.1).tolist(), 'logisticregression__solver': ['lbfgs', 'newton-cg', 'sag', 'saga']},{'polynomialfeatures__degree': np.arange(2, 10).tolist(), 'logisticregression__penalty': ['elasticnet'], 'logisticregression__C': np.arange(0.1, 2, 0.1).tolist(), 'logisticregression__l1_ratio': np.arange(0.1, 1, 0.1).tolist(), 'logisticregression__solver': ['saga']} ]

實例化網格搜索評估器

考慮到實際參數空間較大，網格搜索需要耗費較長時間，此處使用單一指標roc作為參數選取指標進行搜索：

search = GridSearchCV(estimator=pipe,param_grid=param_grid, scoring='roc_auc', n_jobs=5)

執行訓練

search.fit(X_train, y_train)

查看結果

search.best_score_ #0.7879905483853072 search.best_params_ #{'logisticregression__C': 0.2, # 'logisticregression__penalty': 'l1', # 'logisticregression__solver': 'saga', # 'polynomialfeatures__degree': 3}

需要注意的是，上述best_score_屬性查看的結果是在roc-auc評估指標下，默認五折交叉驗證時驗證集上的roc-auc的平均值，但如果我們對訓練好的評估器使用.socre方法，查看的仍然是pipe評估器默認的結果評估方式，也就是準確率計算結果：

search.best_estimator_.score(X_train,y_train) #0.7857142857142857 search.best_estimator_.score(X_test,y_test) #0.7866666666666666

驗證準確率計算結果：

accuracy_score(search.best_estimator_.predict(X_train), y_train) #0.7857142857142857 accuracy_score(search.best_estimator_.predict(X_test), y_test) #0.7866666666666666

結果分析

最終模型結果準確率在78%上下。當然，如果只看模型準確率結果，我們發現該結果相比Lesson 6.4中結果較差（Lesson 6.4中測試集最高得分達到0.8）。但是，該模型相比Lesson 6.4中模型來看，該模型基本沒有過擬合隱患（測試集分數甚至高于訓練集），因此該模型在未來的使用過程中更有可能能夠確保一個穩定的預測輸出結果（泛化能力更強）。這也是交叉驗證和roc-auc共同作用的結果。

當然，如果有明確要求根據準確率判斷模型效果，則上述過程應該選擇準確率，同時如果算力允許，也可以近一步擴大搜索空間（Lesson 6.4中0.8的準確率就是在15階多項式特征衍生基礎上進行的運算）。

至此，我們就完成了在實驗數據上的建模調優，在下一小節，我們將把上述技巧應用到一項kaggle數據集上來進行建模分析，屆時我們還將補充更多實戰過程中會用到的方法和技巧。

《新程序員》：云原生和全面數字化實踐50位技術專家共同創作，文字、視頻、音頻交互閱讀

總結

以上是生活随笔為你收集整理的Lesson 6.5Lesson 6.6.1Lesson 6.6.2 机器学习调参基础理论与网格搜索多分类评估指标的macro与weighted过程GridSearchCV的进阶使用方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Lesson 6. Scikit-Lea
下一篇： Lesson 8.1Lesson 8.2