集成学习之参数调整策略
1 Random Forest和Gradient Tree Boosting參數(shù)詳解
在sklearn.ensemble庫中,我們可以找到Random Forest分類和回歸的實現(xiàn):RandomForestClassifier和RandomForestRegression,Gradient Tree Boosting分類和回歸的實現(xiàn):GradientBoostingClassifier和GradientBoostingRegression。有了這些模型后,立馬上手操練起來?少俠請留步!且聽我說一說,使用這些模型時常遇到的問題:
? ? ? 1、明明模型調(diào)教得很好了,可是效果離我的想象總有些偏差?——模型訓(xùn)練的第一步就是要定好目標(biāo),往錯誤的方向走太多也是后退。
? ? ? 2、憑直覺調(diào)了某個參數(shù),可是居然沒有任何作用,有時甚至起到反作用?——定好目標(biāo)后,接下來就是要確定哪些參數(shù)是影響目標(biāo)的,其對目標(biāo)是正影響還是負(fù)影響,影響的大小。
? ? ? 3、感覺訓(xùn)練結(jié)束遙遙無期,sklearn只是個在小數(shù)據(jù)上的玩具?——雖然sklearn并不是基于分布式計算環(huán)境而設(shè)計的,但我們還是可以通過某些策略提高訓(xùn)練的效率。
? ? ? 4、模型開始訓(xùn)練了,但是訓(xùn)練到哪一步了呢?——飽暖思淫欲啊,目標(biāo),性能和效率都得了滿足后,我們有時還需要有別的追求,例如訓(xùn)練過程的輸出,袋外得分計算等等。
通過總結(jié)這些常見的問題,我們可以把模型的參數(shù)分為4類:目標(biāo)類、性能類、效率類和附加類。下表詳細地展示了4個模型參數(shù)的意義:
? ? ? 不難發(fā)現(xiàn),基于bagging的Random Forest模型和基于boosting的Gradient Tree Boosting模型有不少共同的參數(shù),然而某些參數(shù)的默認(rèn)值又相差甚遠。在《使用sklearn進行集成學(xué)習(xí)——理論》一文中,我們對bagging和boosting兩種集成學(xué)習(xí)技術(shù)有了初步的了解。Random Forest的子模型都擁有較低的偏差,整體模型的訓(xùn)練過程旨在降低方差,故其需要較少的子模型(n_estimators默認(rèn)值為10)且子模型不為弱模型(max_depth的默認(rèn)值為None),同時,降低子模型間的相關(guān)度可以起到減少整體模型的方差的效果(max_features的默認(rèn)值為auto)。另一方面,Gradient Tree Boosting的子模型都擁有較低的方差,整體模型的訓(xùn)練過程旨在降低偏差,故其需要較多的子模型(n_estimators默認(rèn)值為100)且子模型為弱模型(max_depth的默認(rèn)值為3),但是降低子模型間的相關(guān)度不能顯著減少整體模型的方差(max_features的默認(rèn)值為None)。
2 如何調(diào)參?
聰明的讀者應(yīng)當(dāng)要發(fā)問了:”博主,就算你列出來每個參數(shù)的意義,然并卵啊!我還是不知道無從下手啊!”
參數(shù)分類的目的在于縮小調(diào)參的范圍,首先我們要明確訓(xùn)練的目標(biāo),把目標(biāo)類的參數(shù)定下來。接下來,我們需要根據(jù)數(shù)據(jù)集的大小,考慮是否采用一些提高訓(xùn)練效率的策略,否則一次訓(xùn)練就三天三夜,法國人孩子都生出來了。然后,我們終于進入到了重中之重的環(huán)節(jié):調(diào)整那些影響整體模型性能的參數(shù)。
2.1 調(diào)參的目標(biāo):偏差和方差的協(xié)調(diào)
同樣在集成學(xué)習(xí)理論中,我們已討論過偏差和方差是怎樣影響著模型的性能——準(zhǔn)確度。調(diào)參的目標(biāo)就是為了達到整體模型的偏差和方差的大和諧!進一步,這些參數(shù)又可分為兩類:過程影響類及子模型影響類。在子模型不變的前提下,某些參數(shù)可以通過改變訓(xùn)練的過程,從而影響模型的性能,諸如:“子模型數(shù)”(n_estimators)、“學(xué)習(xí)率”(learning_rate)等。另外,我們還可以通過改變子模型性能來影響整體模型的性能,諸如:“最大樹深度”(max_depth)、“分裂條件”(criterion)等。正由于bagging的訓(xùn)練過程旨在降低方差,而boosting的訓(xùn)練過程旨在降低偏差,過程影響類的參數(shù)能夠引起整體模型性能的大幅度變化。一般來說,在此前提下,我們繼續(xù)微調(diào)子模型影響類的參數(shù),從而進一步提高模型的性能。
2.2 參數(shù)對整體模型性能的影響
假設(shè)模型是一個多元函數(shù)F,其輸出值為模型的準(zhǔn)確度。我們可以固定其他參數(shù),從而對某個參數(shù)對整體模型性能的影響進行分析:是正影響還是負(fù)影響,影響的單調(diào)性?
對Random Forest來說,增加“子模型數(shù)”(n_estimators)可以明顯降低整體模型的方差,且不會對子模型的偏差和方差有任何影響。模型的準(zhǔn)確度會隨著“子模型數(shù)”的增加而提高。由于減少的是整體模型方差公式的第二項,故準(zhǔn)確度的提高有一個上限。在不同的場景下,“分裂條件”(criterion)對模型的準(zhǔn)確度的影響也不一樣,該參數(shù)需要在實際運用時靈活調(diào)整。調(diào)整“最大葉節(jié)點數(shù)”(max_leaf_nodes)以及“最大樹深度”(max_depth)之一,可以粗粒度地調(diào)整樹的結(jié)構(gòu):葉節(jié)點越多或者樹越深,意味著子模型的偏差越低,方差越高;同時,調(diào)整“分裂所需最小樣本數(shù)”(min_samples_split)、“葉節(jié)點最小樣本數(shù)”(min_samples_leaf)及“葉節(jié)點最小權(quán)重總值”(min_weight_fraction_leaf),可以更細粒度地調(diào)整樹的結(jié)構(gòu):分裂所需樣本數(shù)越少或者葉節(jié)點所需樣本越少,也意味著子模型越復(fù)雜。一般來說,我們總采用bootstrap對樣本進行子采樣來降低子模型之間的關(guān)聯(lián)度,從而降低整體模型的方差。適當(dāng)?shù)販p少“分裂時考慮的最大特征數(shù)”(max_features),給子模型注入了另外的隨機性,同樣也達到了降低子模型之間關(guān)聯(lián)度的效果。但是一味地降低該參數(shù)也是不行的,因為分裂時可選特征變少,模型的偏差會越來越大。在下圖中,我們可以看到這些參數(shù)對Random Forest整體模型性能的影響:
? ? ? 對Gradient Tree Boosting來說,“子模型數(shù)”(n_estimators)和“學(xué)習(xí)率”(learning_rate)需要聯(lián)合調(diào)整才能盡可能地提高模型的準(zhǔn)確度:想象一下,A方案是走4步,每步走3米,B方案是走5步,每步走2米,哪個方案可以更接近10米遠的終點?同理,子模型越復(fù)雜,對應(yīng)整體模型偏差低,方差高,故“最大葉節(jié)點數(shù)”(max_leaf_nodes)、“最大樹深度”(max_depth)等控制子模型結(jié)構(gòu)的參數(shù)是與Random Forest一致的。類似“分裂時考慮的最大特征數(shù)”(max_features),降低“子采樣率”(subsample),也會造成子模型間的關(guān)聯(lián)度降低,整體模型的方差減小,但是當(dāng)子采樣率低到一定程度時,子模型的偏差增大,將引起整體模型的準(zhǔn)確度降低。還記得“初始模型”(init)是什么嗎?不同的損失函數(shù)有不一樣的初始模型定義,通常,初始模型是一個更加弱的模型(以“平均”情況來預(yù)測),雖說支持自定義,大多數(shù)情況下保持默認(rèn)即可。在下圖中,我們可以看到這些參數(shù)對Gradient Tree Boosting整體模型性能的影響:2.3 一個樸實的方案:貪心的坐標(biāo)下降法
到此為止,我們終于知道需要調(diào)整哪些參數(shù),對于單個參數(shù),我們也知道怎么調(diào)整才能提升性能。然而,表示模型的函數(shù)F并不是一元函數(shù),這些參數(shù)需要共同調(diào)整才能得到全局最優(yōu)解。也就是說,把這些參數(shù)丟給調(diào)參算法(諸如Grid Search)咯?對于小數(shù)據(jù)集,我們還能這么任性,但是參數(shù)組合爆炸,在大數(shù)據(jù)集上,或許我的子子孫孫能夠看到訓(xùn)練結(jié)果吧。實際上網(wǎng)格搜索也不一定能得到全局最優(yōu)解,而另一些研究者從解優(yōu)化問題的角度嘗試解決調(diào)參問題。
坐標(biāo)下降法是一類優(yōu)化算法,其最大的優(yōu)勢在于不用計算待優(yōu)化的目標(biāo)函數(shù)的梯度。我們最容易想到一種特別樸實的類似于坐標(biāo)下降法的方法,與坐標(biāo)下降法不同的是,其不是循環(huán)使用各個參數(shù)進行調(diào)整,而是貪心地選取了對整體模型性能影響最大的參數(shù)。參數(shù)對整體模型性能的影響力是動態(tài)變化的,故每一輪坐標(biāo)選取的過程中,這種方法在對每個坐標(biāo)的下降方向進行一次直線搜索(line search)。首先,找到那些能夠提升整體模型性能的參數(shù),其次確保提升是單調(diào)或近似單調(diào)的。這意味著,我們篩選出來的參數(shù)是對整體模型性能有正影響的,且這種影響不是偶然性的,要知道,訓(xùn)練過程的隨機性也會導(dǎo)致整體模型性能的細微區(qū)別,而這種區(qū)別是不具有單調(diào)性的。最后,在這些篩選出來的參數(shù)中,選取影響最大的參數(shù)進行調(diào)整即可。
無法對整體模型性能進行量化,也就談不上去比較參數(shù)影響整體模型性能的程度。是的,我們還沒有一個準(zhǔn)確的方法來量化整體模型性能,只能通過交叉驗證來近似計算整體模型性能。然而交叉驗證也存在隨機性,假設(shè)我們以驗證集上的平均準(zhǔn)確度作為整體模型的準(zhǔn)確度,我們還得關(guān)心在各個驗證集上準(zhǔn)確度的變異系數(shù),如果變異系數(shù)過大,則平均值作為整體模型的準(zhǔn)確度也是不合適的。
總結(jié)
以上是生活随笔為你收集整理的集成学习之参数调整策略的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: delphi7aes加密解密与java互
- 下一篇: Android 9.0的One UI系统