白话机器学习算法理论+实战番外篇之LightGBM
1. 寫在前面
如果想從事數據挖掘或者機器學習的工作,掌握常用的機器學習算法是非常有必要的,在這簡單的先捋一捋, 常見的機器學習算法:
- 監督學習算法:邏輯回歸,線性回歸,決策樹,樸素貝葉斯,K近鄰,支持向量機,集成算法Adaboost等
- 無監督算法:聚類,降維,關聯規則, PageRank等
我前面已經嘗試用最白話的語言完成了一個白話機器學習算法理論+實戰系列,這個系列已經基本包含了上面這些算法的原理和基本使用。 但是,如果僅僅是會用這些算法可是不夠的, 我們也得跟著時代的步伐前進,近幾年,有很多大佬又在上面的某些算法上加以改進,發明了更加厲害的算法,而這些算法才是當今時代解決問題的主流,所以我們學習的一個方式就是掌握傳統,而又得緊跟時代。
所以,后面考慮加上當前流行的一些主流機器學習算法,既當復習,又當提升。由于不想和傳統的機器學習算法混合起來,故稱之為番外,也是傳統機器學習算法的延伸, 同樣是盡量白話,同樣是豐富實戰,但會夾雜數學的身影,畢竟后面的很多算法如果沒有了數學就仿佛失去了靈魂,無法活靈活現。所以機器學習算法的故事還沒有完,我們還得繼續走著。
學習算法的過程,獲得的不應該只有算法理論,還應該有樂趣和解決實際問題的能力!
今天又帶來了一個在數據競賽中刷分奪冠的必備神兵利器叫做LightGBM, 2017年由微軟提出,是GBDT模型的另一個進化版本, 主要用于解決GBDT在海量數據中遇到的問題,以便更好更快的用于工業實踐中。從 LightGBM 名字我們可以看出其是輕量級(Light)的梯度提升機器(GBM), 所以面對大規模數據集,它依然非常淡定,跑起來更加輕盈。
談到競賽中的神器,我們難免又想到了xgboost, 同是神器, 既然有了一個xgboost, 為啥還要出個Lightgbm呢?所謂既生瑜何生亮, 難道Lightgbm相對于xgboost會有什么優勢嗎? 那是當然, LightGBM在xgboost的基礎上進行了很多的優化, 可以看成是XGBoost的升級加強版,它延續了xgboost的那一套集成學習的方式,但是它更加關注模型的訓練速度,相對于xgboost, 具有訓練速度快和內存占用率低的特點。對于Lightgbm, 重點就是兩個字:要快,快,還是快! 基于這些優勢,lightGBM現在不管是在工業界和競賽界,都混的越來越風生水起,名頭大震, 那么LightGBM到底是如何做到更快的訓練速度和更低的內存使用的呢? 在xgboost上做出了哪些優化策略呢? LightGBM和xgboost到底有何不同呢? LightGBM又是如何來解決實際問題的呢? 下面就拿好板凳,聽我娓娓道來吧 😉
當然既然是基于xgboost進行的優化版本,所以這篇文章依然會看到xgboost的身影,以對比的方式進行學習,有利于加深對算法的理解。 由于這個算法我也是剛接觸,可能有些地方會理解不當或者有些細節描述不到,歡迎留言指出,這篇文章只是拋磚引玉,明白基本原理之后建議去讀原文。
大綱如下:
- LightGBM? 我們還得先從xgboost說起(看看xgboost存在的問題以及可以改進的地方)
- LightGBM的直方圖算法(確實和xgboost的不一樣)
- LightGBM的兩大先進技術(單邊梯度抽樣GOSS和互斥特征捆綁EFB)
- LightGBM的生長策略(基于最大深度的Leaf-wise)
- LightGBM的工程優化(類別特征支持與并行化)
- LightGBM的實戰應用(分為基礎使用和調參)
OK, Let’s go!
2. LightGBM? 我們還得先從xgboost說起
談起Lightgbm, 我們已經知道了是xgboost的強化版本, 關于xgboost,從其工作原理到數學推導再到優化策略最后到實戰應用,我在前面的白話機器學習算法理論+實戰番外篇之Xgboost都已經描述過了,這里只進行簡單的回憶和梳理,在這次回憶中我們看看xgboost在某些策略上是不是依然存在一些問題? 然后這些問題是不是可以有改進的方式?
我們在上一篇文章中提到過, xgboost是屬于boosting家族,是GBDT算法的一個工程實現, 在模型的訓練過程中是聚焦殘差,在目標函數中使用了二階泰勒展開并加入了正則,在決策樹的生成過程中采用了精確貪心的思路,尋找最佳分裂點的時候,使用了預排序算法, 對所有特征都按照特征的數值進行預排序, 然后遍歷所有特征上的所有分裂點位,計算按照這些候選分裂點位分裂后的全部樣本的目標函數增益,找到最大的那個增益對應的特征和候選分裂點位,從而進行分裂。這樣一層一層的完成建樹過程, xgboost訓練的時候,是通過加法的方式進行訓練,也就是每一次通過聚焦殘差訓練一棵樹出來, 最后的預測結果是所有樹的加和表示。
上面簡單的把xgboost的一些知識給梳理了一下,我們主要是看看xgboost在樹生成的過程中,是否存在某些策略上的問題啊! 機智的你可能會說:xgboost在進行最優分裂點的選擇上是先進行預排序,然后對所有特征的所有分裂點計算按照這些分裂點位分裂后的全部樣本的目標函數增益,這樣會不會太費時間和空間了啊! 哈哈, 果真是一語中的, 還真會帶來這樣的問題, 首先就是空間消耗很大,因為預排序的話既需要保存數據的特征值, 還得保存特征排序后的索引,畢竟這樣后續計算分割點的時候快一些,但是這樣就需要消耗訓練數據兩倍的內存。其次, 時間上也有很大的開銷,在遍歷每一個分割點的時候,都需要進行分裂增益的計算,消耗的代價大。
這時候你又可能說了xgboost不是有個近似分割的算法嗎? 這個不就對分裂點進行了分桶了,不就可以少遍歷一些分裂點了? 嗯嗯, 這個其實就是下面要講的lightgbm里面的直方圖的思路, 所以直方圖這個思路在xgboost里面也體現過,不算是lightgbm的亮點了, 這個是會有一些效果,可以減少點計算,但是比較微妙,lightgbm直方圖算法進行了更好的優化(具體的下面說), 比xgboost的這個還要快很多,并且XGB雖然每次只需要遍歷幾個可能的分裂節點,然后比較每個分裂節點的信息增益,選擇最大的那個進行分割,但比較時需要考慮所有樣本帶來的信息增益,這樣還是比較費勁。 所以基于xgboost尋找最優分裂點的復雜度,我總結了下面三點:
xgboost尋找最優分裂點的復雜度=特征數量×分裂點的數量×樣本的數量xgboost尋找最優分裂點的復雜度 = 特征數量 \times分裂點的數量\times樣本的數量xgboost尋找最優分裂點的復雜度=特征數量×分裂點的數量×樣本的數量
所以如果想在xgboost上面做出一些優化的話,我們是不是就可以從上面的三個角度下手,比如想個辦法減少點特征數量啊, 分裂點的數量啊, 樣本的數量啊等等。 元芳,你怎么看?
哈哈, 微軟里面提出lightgbm的那些大佬還真就是這樣做的, Lightgbm里面的直方圖算法就是為了減少分裂點的數量, Lightgbm里面的單邊梯度抽樣算法就是為了減少樣本的數量, 而Lightgbm里面的互斥特征捆綁算法就是為了減少特征的數量。 并且后面兩個是Lightgbm的亮點所在。
這些算法到底在做什么事情呢? 竟然有這樣神器的功效! 下面我們一一來看看吧。
3. LightGBM的直方圖算法(Histogram)
LightGBM的直方圖算法是代替Xgboost的預排序算法的, 之前我們提到過,Lightgbm是在xgboost的基礎上進行的優化,為什么要基于xgboost進行優化呢? 這是因為在GBDT的眾多演化算法里面,Xgboost性能應該算是最好的一個,而Lightgbm也算是演變家族中的一員,所以為了凸顯其優越性,都是一般和xgboost進行對比。 雖然直方圖的算法思路不算是Lightgbm的亮點,畢竟xgboost里面的近似算法也是用的這種思想,但是這種思路對于xgboost的預排序本身也是一種優化,所以Lightgbm本著快的原則,也采用了這種直方圖的思想。那么直方圖究竟在做什么事情呢?
直方圖算法說白了就是把連續的浮點特征離散化為k個整數(也就是分桶bins的思想), 比如[0, 0.1) ->0, [0.1, 0.3)->1。 并根據特征所在的bin對其進行梯度累加和個數統計,在遍歷數據的時候,根據離散化后的值作為索引在直方圖中累積統計量,當遍歷一次數據后,直方圖累積了需要的統計量,然后根據直方圖的離散值,遍歷尋找最優的分割點。 這么說起來,可能還是一臉懵逼, 那么就再來形象的畫個圖吧(有圖就有真相了,哈哈,我們就拿出某一個連續特征來看看如何分桶的):
這樣在遍歷到該特征的時候,只需要根據直方圖的離散值,遍歷尋找最優的分割點即可,由于bins的數量是遠小于樣本不同取值的數量的,所以分桶之后要遍歷的分裂點的個數會少了很多,這樣就可以減少計算量?;谏厦娴倪@個方式,如果是把所有特征放到一塊的話,應該是下面的這種感覺:
這里注意一下,XGBoost 在進行預排序時只考慮非零值進行加速,而 LightGBM 也采用類似策略:只用非零特征構建直方圖。這種離散化分桶思路其實有很多優點的, 首先最明顯就是內存消耗的降低,xgboost需要用32位的浮點數去存儲特征值, 并用32位的整型去存儲索引,而Lightgbm的直方圖算法不僅不需要額外存儲預排序的結果,而且可以只保存特征離散化后的值,而這個值一般用8位整型存儲就足夠了,內存消耗可以降低為原來的1/8。
然后在計算上的代價也大幅降低,預排序算法每遍歷一個特征值就需要計算一次分裂的增益,而Lightgbm直方圖算法只需要計算k次(k可以認為是常數),時間復雜度從O(#featureValue_nums?1×#features_num)O(\#featureValue\_nums-1\times\#features\_num)O(#featureValue_nums?1×#features_num)優化到O(bin_nums?1×#features_num)O(bin\_nums-1\times\#features\_num)O(bin_nums?1×#features_num)。而我們知道featureValue_nums>>bin_numsfeatureValue\_nums >> bin\_numsfeatureValue_nums>>bin_nums
但是你知道嗎?Histogram算法還可以進一步加速。一個葉子節點的Histogram可以直接由父節點的Histogram和兄弟節點的Histogram做差得到。一般情況下,構造Histogram需要遍歷該葉子上的所有數據,通過該方法,只需要遍歷Histogram的k個捅。速度提升了一倍。再說一下這個細節, 到底這是啥意思呢?
直方圖作差加速
當節點分裂成兩個時,右邊的子節點的直方圖其實等于其父節點的直方圖減去左邊子節點的直方圖:
這是為啥啊? 看完之后,又一臉懵逼呢? 其實在說這么個意思, 舉個例子就明白了,
通過這種直方圖加速的方式,又可以使得Lightgbm的速度快進一步啦。
關于直方圖算法基本上就是這些了,當然還有很多細節簡單的描述一下, Histogram算法并不是完美的。由于特征被離散化后,找到的并不是很精確的分割點,所以會對結果產生影響。但在實際的數據集上表明,離散化的分裂點對最終的精度影響并不大,甚至會好一些。原因在于decision tree本身就是一個弱學習器,分割點是不是精確并不是太重要,采用Histogram算法會起到正則化的效果,有效地防止模型的過擬合(bin數量決定了正則化的程度,bin越少懲罰越嚴重,欠擬合風險越高)。 直方圖算法可以起到的作用就是可以減小分割點的數量, 加快計算。
如果你要說xgboost不是后面的近似分割算法也進行了分桶嗎? 為啥會比lightgbm的直方圖算法慢這么多呢? emmm, 你還記得xgboost那里的分桶是基于什么嗎? 那個算法叫做Weight Quantile Sketch算法,考慮的是對loss的影響權值,用的每個樣本的hih_ihi?來表示的(如果忘了,可以去看看我寫的xgboost),相當于基于hih_ihi?的分布去找候選分割點,這樣帶來的一個問題就是每一層劃分完了之后,下一次依然需要構建這樣的直方圖,畢竟樣本被劃分到了不同的節點中,二階導分布也就變了。 所以xgboost在每一層都得動態構建直方圖, 因為它這個直方圖算法不是針對某個特定的feature的,而是所有feature共享一個直方圖(每個樣本權重的二階導)。 而lightgbm對每個特征都有一個直方圖,這樣構建一次就OK, 并且分裂的時候還能通過直方圖作差進行加速。 故xgboost的直方圖算法是不如lightgbm的直方圖算法快的。
4. LightGBM的兩大先進技術(GOSS & EFB)
到了這里,才是Lightgbm的亮點所在, 下面的這兩大技術是Lightgbm相對于xgboost獨有的, 分別是單邊梯度抽樣算法(GOSS)和互斥特征捆綁算法(EFB), 我們上面說到,GOSS可以減少樣本的數量,而EFB可以減少特征的數量,這樣就能降低模型分裂過程中的復雜度。 減少樣本和減少特征究竟是怎么做到的?我們下面一一來看看吧。
4.1 單邊梯度抽樣算法(GOSS)
單邊梯度抽樣算法(Gradient-based One-Side Sampling)是從減少樣本的角度出發, 排除大部分權重小的樣本,僅用剩下的樣本計算信息增益,它是一種在減少數據和保證精度上平衡的算法。
看到這里你可能一下子跳出來進行反駁了,眾所周知,GBDT中沒有原始樣本的權重,既然Lightgbm是GBDT的變種,應該也沒有原始樣本的權重,你這里怎么排除大部分權重小的樣本?我讀的書少,你可別蒙我。 哈哈,你還別說, 你這樣想還真是有點道理的, 我們知道在AdaBoost中,會給每個樣本一個權重,然后每一輪之后調大錯誤樣本的權重,讓后面的模型更加關注前面錯誤區分的樣本,這時候樣本權重是數據重要性的標志(你還記得AdaBoost的這個過程嗎?),到了GBDT中, 確實沒有一個像Adaboost里面這樣的樣本權重,理論上說是不能應用權重進行采樣的, But, 我們發現啊, GBDT中每個數據都會有不同的梯度值, 這個對采樣是十分有用的, 即梯度小的樣本,訓練誤差也比較小,說明數據已經被模型學習的很好了,因為GBDT不是聚焦殘差嗎? 在訓練新模型的過程中,梯度比較小的樣本對于降低殘差的作用效果不是太大,所以我們可以關注梯度高的樣本,這樣不就減少計算量了嗎? 當然這里你可能沒有明白為啥梯度小的樣本對降低殘差效果不大, 那咱可以看看GBDT的這個殘差到底是個什么東西。 我把我xgboost里面的一個圖截過來:
當然GBDT沒有用到二階導,這個不用管,我們就看上面的一階導部分,是不是可以發現這個參數其實就是每個樣本梯度的一個相反數啊? 也就是
(yi?yhatt?1)=?C×gi(y_i-y_{hat}^{t-1}) = -C\times g_i(yi??yhatt?1?)=?C×gi?
這個常數不用管, 這樣也就是說如果我新的模型想降低殘差的效果好,那么樣本的梯度應該越大越好,所以這就是為啥梯度小的樣本對于降低殘差的效果不大。也是為啥樣本的梯度大小可以反映樣本權重的原因,這樣說清楚了吧。
但是要是盲目的直接去掉這些梯度小的數據,這樣就會改變數據的分布了啊,所Lightgbm才提出了單邊梯度抽樣算法,根據樣本的權重信息對樣本進行抽樣,減少了大量梯度小的樣本,但是還能不會過多的改變數據集的分布,這就比較牛了。 怎么做的呢?
GOSS 算法保留了梯度大的樣本,并對梯度小的樣本進行隨機抽樣,為了不改變樣本的數據分布,在計算增益時為梯度小的樣本引入一個常數進行平衡。
首先將要進行分裂的特征的所有取值按照絕對值大小降序排序(xgboost也進行了排序,但是LightGBM不用保存排序后的結果),然后拿到前a%a\%a% 的梯度大的樣本,和剩下樣本的b%b\%b%,在計算增益時,后面的這b%b\%b%通過乘上1?ab\frac{1-a}b1?a?來放大梯度小的樣本的權重。一方面算法將更多的注意力放在訓練不足的樣本上,另一方面通過乘上權重來防止采樣對原始數據分布造成太大的影響。
這個地方要注意一下,我看到很多資料描述的并不是那么清晰,如果去看論文的話,這個前a%a\%a%的樣本和剩下樣本的b%b\%b%其實是這樣算的, 前a%a\%a%就是選出a×#samplesa\times\#samplesa×#samples個樣本作為梯度大的, b%b\%b%就是在剩下的樣本中選出b×#samplesb\times\#samplesb×#samples個樣本作為梯度小但是保留下來的樣本,這就是原文的:
一般講寫這種文章是不太愿意直接截圖原文的, 但是這個地方確實好多文章講的不是那么清晰, 我估計我即使是這樣說可能依然一臉懵逼,不知道具體怎么操作,哈哈,好吧, 又得請出我這個靈魂畫手看看具體應該怎么操作了,之所以為白話,就是盡量的講清楚每個細節,看了下面圖估計就明白怎么操作了(如果還不明白,那就多看兩眼,無它,唯眼熟爾 😉):
通過上面,我們就通過采樣的方式,選出了我們的樣本,兩個梯度大的6號和7號,然后又從剩下的樣本里面隨機選了2個梯度小的,4號和2號,這時候我們重點看看基于采樣樣本的估計直方圖長什么樣子,畢竟我們從8個里面選出了四個,如果直接把另外四個給刪掉的話,這時候會改變數據的分布,但應該怎么做呢? 也就是乘上1?ab\frac{1-a}b1?a?來放大梯度小的樣本的權重到底是怎么算的? 看下圖:
梯度小的樣本乘上相應的權重之后,我們在基于采樣樣本的估計直方圖中可以發現Ni的總個數依然是8個, 雖然6個梯度小的樣本中去掉了4個,留下了兩個。 但是這2個樣本在梯度上和個數上都進行了3倍的放大,所以可以防止采樣對原數數據分布造成太大的影響, 這也就是論文里面說的將更多的注意力放在訓練不足的樣本上的原因。
PS:小雨姑娘機器學習筆記中的那個例子挺有意思: GOSS的感覺就好像一個公寓里本來住了10個人,感覺太擠了,趕走了6個人,但是剩下的人要分攤他們6個人的房租。 (恰不恰當不知道,但是符合我的大白話系列,哈哈,具體的可以看后面的鏈接)
好了, 單邊梯度抽樣算法基本上就理清楚了,Lightgbm正是通過這樣的方式,在不降低太多精度的同時,減少了樣本數量,使得訓練速度加快。
4.2 互斥特征捆綁算法(EFB)
高維度的數據往往是稀疏的,這種稀疏性啟發我們設計一種無損的方法來減少特征的維度。通常被捆綁的特征都是互斥的(即特征不會同時為非零值,像one-hot),這樣兩個特征捆綁起來才不會丟失信息。如果兩個特征并不是完全互斥(部分情況下兩個特征都是非零值),可以用一個指標對特征不互斥程度進行衡量,稱之為沖突比率,當這個值較小時,我們可以選擇把不完全互斥的兩個特征捆綁,而不影響最后的精度。
到這又一臉懵逼,這又是說的什么鬼? 什么稀疏,互斥,沖突的? 如果上面的聽不懂,我可以舉個比較極端的例子來看一下特征捆綁到底是在干嘛:
看到上面的這些特征夠稀疏了吧(大部分都是0),而每一個特征都只有一個訓練樣本是非0且都不是同一個訓練樣本,這樣的話特征之間也沒有沖突了。 這樣的情況就可以把這四個特征捆綁成一個,這樣是不是維度就減少了啊。 (有沒有感覺這種矩陣很眼熟,從右往左的話有沒有種one-hot的味道)
所以互斥特征捆綁算法(Exclusive Feature Bundling)是從減少特征的角度去幫助Lightgbm更快, 它指出如果將一些特征進行融合綁定,則可以降低特征數量。這樣在構建直方圖的時候時間復雜度從O(#data×#feature)O(\#data\times\#feature)O(#data×#feature)變成O(#data×#bundle)O(\#data\times\#bundle)O(#data×#bundle), 這里的#bundle\#bundle#bundle指的特征融合后特征包的個數,且#bundle<<#feature\#bundle << \#feature#bundle<<#feature。 這樣又可以使得速度加快了,哈哈。 但是針對這個特征捆綁融合,有兩個問題需要解決, 畢竟像我上面舉得那種極端的例子除了OneHot之后的編碼,其實很少見。
- 怎么判定哪些特征應該綁在一起?
- 特征綁在一起之后,特征值應該如何確定呢?
對于問題一:EFB 算法利用特征和特征間的關系構造一個加權無向圖,并將其轉換為圖著色的問題來求解,求解過程中采用的貪心策略。感覺這里如果說成圖著色問題的話反而有點難理解了,畢竟這里是加權無向圖,而圖著色問題可以去百度一下到底是怎么回事,反正覺得還不如直接說過程好理解,所以直接看過程反而簡單一些。
其實說白了,捆綁特征就是在干這樣的一件事:
- 首先將所有的特征看成圖的各個頂點,將不相互獨立的特征用一條邊連起來,邊的權重就是兩個相連接的特征的總沖突值(也就是這兩個特征上同時不為0的樣本個數)。
- 然后按照節點的度對特征降序排序, 度越大,說明與其他特征的沖突越大
- 對于每一個特征, 遍歷已有的特征簇,如果發現該特征加入到特征簇中的矛盾數不超過某一個閾值,則將該特征加入到該簇中。 如果該特征不能加入任何一個已有的特征簇,則新建一個簇,將該特征加入到新建的簇中。
什么? 沒明白? 比如上面畫的那個圖的例子,會發現這些特征都是相互獨立的點,度為0,這樣排序之后也發現與其他特征的沖突為0,這樣的直接放到一個簇里面就沒問題,所以這四個特征直接可以合并。 當然一般沒有這么巧的事, 所以我把上面的隨便改幾個數看看這個過程是什么樣子的:
上面這個過程的時間復雜度其實是O(#features2)O({\#features}^2)O(#features2)的,因為要遍歷特征,每個特征還要遍歷所有的簇, 在特征不多的情況下還行,但是如果特征維度很大,就不好使了。 所以為了改善效率,可以不建立圖,而是將特征按照非零值個數進行排序,因為更多的非零值的特征會導致更多的沖突,所以跳過了上面的第一步,直接排序然后第三步分簇。
這樣哪些特征捆綁的問題就解決了,下面就是第二個, 捆綁完了之后特征應該如何取值呢?這里面的一個關鍵就是原始特征能從合并的特征中分離出來, 這是什么意思? 綁定幾個特征在同一個bundle里需要保證綁定前的原始特征的值可以在bundle里面進行識別,考慮到直方圖算法將連續的值保存為離散的bins,我們可以使得不同特征的值分到簇中的不同bins里面去,這可以通過在特征值中加入一個偏置常量來解決。
比如,我們把特征A和B綁定到了同一個bundle里面, A特征的原始取值區間[0,10), B特征原始取值區間[0,20), 這樣如果直接綁定,那么會發現我從bundle里面取出一個值5, 就分不出這個5到底是來自特征A還是特征B了。 所以我們可以再B特征的取值上加一個常量10轉換為[10, 30),這樣綁定好的特征取值就是[0,30), 我如果再從bundle里面取出5, 就一下子知道這個是來自特征A的。 這樣就可以放心的融合特征A和特征B了。 看下圖:
特征捆綁算法到這里也就基本上差不多了, 通過EFB,許多排他的特征就被捆綁成了更少的密集特征,這個大大減少的特征的數量,對訓練速度又帶來很大的提高。利用這種思路,可以通過對某些特征的取值重新編碼,將多個這樣互斥的特征捆綁成為一個新的特征。有趣的是,對于類別特征,如果轉換成onehot編碼,則這些onehot編碼后的多個特征相互之間是互斥的,從而可以被捆綁成為一個特征。因此,對于指定為類別型的特征,LightGBM可以直接將每個類別取值和一個bin關聯,從而自動地處理它們,而無需預處理成onehot編碼多此一舉。
5. LightGBM的生長策略(Leaf-wise)
上面我們已經整理完了LightGBM是如何在尋找最優分裂點的過程中降低時間復雜度的, 可以簡單的回憶一下,我們說xgboost在尋找最優分裂點的時間復雜度其實可以歸到三個角度:特征的數量,分裂點的數量和樣本的數量。 而LightGBM也提出了三種策略分別從這三個角度進行優化,直方圖算法就是為了減少分裂點的數量, GOSS算法為了減少樣本的數量,而EFB算法是為了減少特征的數量。
那么lightgbm除了在尋找最優分裂點過程中進行了優化,其實在樹的生成過程中也進行了優化, 它拋棄了xgboost里面的按層生長(level-wise), 而是使用了帶有深度限制的按葉子生長(leaf-wise)。 這個有什么好處嗎?
好不好處先不談,首先看看這兩種生長方式是怎么回事, XGBoost 在樹的生成過程中采用 Level-wise 的增長策略,該策略遍歷一次數據可以同時分裂同一層的葉子,容易進行多線程優化,也好控制模型復雜度,不容易過擬合。但實際上Level-wise是一種低效的算法,因為它不加區分的對待同一層的葉子,實際上很多葉子的分裂增益較低,沒必要進行搜索和分裂,因此帶來了很多沒必要的計算開銷(一層一層的走,不管它效果到底好不好)
Leaf-wise 則是一種更為高效的策略,每次從當前所有葉子中,找到分裂增益最大的一個葉子,然后分裂,如此循環。因此同 Level-wise 相比,在分裂次數相同的情況下,Leaf-wise 可以降低更多的誤差,得到更好的精度。Leaf-wise 的缺點是可能會長出比較深的決策樹,產生過擬合。因此 LightGBM 在 Leaf-wise 之上增加了一個最大深度的限制,在保證高效率的同時防止過擬合。 (最大信息增益的優先, 我才不管層不層呢)
所以看到這里應該知道Leaf-wise的優勢了吧, Level-wise的做法會產生一些低信息增益的節點,浪費運算資源,但是這個對于防止過擬合挺有用。 而Leaf-wise能夠追求更好的精度,降低誤差,但是會帶來過擬合問題。 那你可能問,那為啥還要用Leaf-wise呢? 過擬合這個問題挺嚴重鴨! 但是人家能提高精度啊,哈哈,哪有那么十全十美的東西, 并且作者也使用了max_depth來控制樹的高度。 其實敢用Leaf-wise還有一個原因就是Lightgbm在做數據合并,直方圖和GOSS等各個操作的時候,其實都有天然正則化的作用,所以作者感覺在這里使用Leaf-wise追求高精度是一個不錯的選擇。
6. LightGBM的工程優化
這部分其實涉及到工程上的一些問題了, 不算是本篇文章的重點內容,畢竟我只是想白話原理部分。但是也做一個了解吧,畢竟Lightgbm提出的初衷就是解決工程上的問題,不過后面這些我主要是參考的一些其他資料,因為著實沒在工程上進行使用過,參考資料都會在后面給出,具體的可以去那里面看。
工程優化這部分主要涉及到了三個點:
6.1 支持類別特征
首先從第一個點開始,LightGBM是第一個直接支持類別特征的GBDT工具。我們知道大多數機器學習工具都無法直接支持類別特征,一般需要把類別特征,通過one-hot 編碼,轉化到多維的0/1特征,降低了空間和時間的效率。但對于決策樹來說,其實并不推薦使用獨熱編碼,尤其是特征中類別很多,會存在以下問題:
- 會產生樣本切分不平衡問題,切分增益會非常小。如,國籍切分后,會產生是否中國,是否美國等一系列特征,這一系列特征上只有少量樣本為 1,大量樣本為 0。這種劃分的增益非常小:較小的那個拆分樣本集,它占總樣本的比例太小。無論增益多大,乘以該比例之后幾乎可以忽略;較大的那個拆分樣本集,它幾乎就是原始的樣本集,增益幾乎為零;
- 影響決策樹學習:決策樹依賴的是數據的統計信息,而獨熱碼編碼會把數據切分到零散的小空間上。在這些零散的小空間上統計信息不準確的,學習效果變差。本質是因為獨熱碼編碼之后的特征的表達能力較差的,特征的預測能力被人為的拆分成多份,每一份與其他特征競爭最優劃分點都失敗,最終該特征得到的重要性會比實際值低。
LightGBM 原生支持類別特征,采用 many-vs-many 的切分方式將類別特征分為兩個子集,實現類別特征的最優切分。假設有某維特征有 k 個類別,則有 2(k?1)?12^{(k-1)} - 12(k?1)?1 中可能,時間復雜度為 O(2k)O(2^k)O(2k) ,LightGBM 基于 Fisher 大佬的 《On Grouping For Maximum Homogeneity》實現了 O(klog2k)O(klog_2k)O(klog2?k) 的時間復雜度。
上圖為左邊為基于 one-hot 編碼進行分裂,后圖為 LightGBM 基于 many-vs-many 進行分裂,右邊葉子節點的含義是X=AX=AX=A或者X=CX=CX=C放到左孩子,其余放到右孩子, 右邊的切分方法,數據會被切分到兩個比較大的空間,進一步的學習也會更好。
其基本思想在于每次分組時都會根據訓練目標對類別特征進行分類,在枚舉分割點之前,先把直方圖按照每個類別對應的label均值進行排序;然后按照排序的結果依次枚舉最優分割點??聪旅孢@個圖:
從上面可以看到,Sum(y)Count(y)\frac{Sum(y)}{Count(y)}Count(y)Sum(y)?為類別的均值。當然,這個方法很容易過擬合,所以LightGBM里面還增加了很多對于這個方法的約束和正則化。 實驗結果證明,這個方法可以使訓練速度加速8倍。
6.2 支持高效并行
我們知道,并行計算可以使得速度更快, lightgbm支持三個角度的并行:特征并行,數據并行和投票并行。 下面我們一一來看看:
特征并行的主要思想是不同機器在不同的特征集合上分別尋找最優的分割點,然后在機器間同步最優的分割點。XGBoost使用的就是這種特征并行方法。這種特征并行方法有個很大的缺點:就是對數據進行垂直劃分,每臺機器所含數據不同,然后使用不同機器找到不同特征的最優分裂點,劃分結果需要通過通信告知每臺機器,增加了額外的復雜度。
LightGBM 則不進行數據垂直劃分,而是在每臺機器上保存全部訓練數據,在得到最佳劃分方案后可在本地執行劃分而減少了不必要的通信。具體過程如下圖所示。
傳統的數據并行策略主要為水平劃分數據,讓不同的機器先在本地構造直方圖,然后進行全局的合并,最后在合并的直方圖上面尋找最優分割點。這種數據劃分有一個很大的缺點:通訊開銷過大。如果使用點對點通信,一臺機器的通訊開銷大約為 O(#machine×#feature×#bin)O(\#machine\times\#feature\times\#bin)O(#machine×#feature×#bin);如果使用集成的通信,則通訊開銷為O(2×#feature×#bin)O(2\times\#feature\times\#bin)O(2×#feature×#bin) 。
LightGBM在數據并行中使用分散規約 (Reduce scatter) 把直方圖合并的任務分攤到不同的機器,降低通信和計算,并利用直方圖做差,進一步減少了一半的通信量。具體過程如下圖所示。
基于投票的數據并行則進一步優化數據并行中的通信代價,使通信代價變成常數級別。在數據量很大的時候,使用投票并行的方式只合并部分特征的直方圖從而達到降低通信量的目的,可以得到非常好的加速效果。具體過程如下圖所示。大致步驟為兩步:
- 本地找出 Top K 特征,并基于投票篩選出可能是最優分割點的特征;
- 合并時只合并每個機器選出來的特征。
6.3 Cache命中率優化
XGBoost對cache優化不友好,如下圖所示。在預排序后,特征對梯度的訪問是一種隨機訪問,并且不同的特征訪問的順序不一樣,無法對cache進行優化。同時,在每一層長樹的時候,需要隨機訪問一個行索引到葉子索引的數組,并且不同特征訪問的順序也不一樣,也會造成較大的cache miss。為了解決緩存命中率低的問題,XGBoost 提出了緩存訪問算法進行改進。
而 LightGBM 所使用直方圖算法對 Cache 天生友好:
- 首先,所有的特征都采用相同的方式獲得梯度(區別于XGBoost的不同特征通過不同的索引獲得梯度),只需要對梯度進行排序并可實現連續訪問,大大提高了緩存命中率;
- 其次,因為不需要存儲行索引到葉子索引的數組,降低了存儲消耗,而且也不存在 Cache Miss的問題。
7. LightGBM的實戰應用
Lightgbm實戰部分,我們先用Lightgbm做一個波士頓房價預測的任務, 這個任務比較簡單,用lightgbm有點大材小用的感覺,但是在這里就是想看看Lightgbm到底應該如何使用,如何訓練預測和調參等。其實在復雜的數據上也是這樣的使用方法,而波士頓房價數據集不用過多的數據預處理內容,在sklearn直接有,導入數據直接建立模型即可。 所以這里才考慮使用一個簡單的數據集,既能說明問題,也能節省時間,還能節省篇幅。 然后我們再用sklearn的乳腺癌數據看看lightgbm應該怎么調參。 這兩部分稱為基本使用和調參技術。
7.1 lightgbm的基本使用
Lightgbm支持兩種形式的調用接口:原生形式和sklearn接口的形式。 所以接下來我們用波士頓房價的數據集先來看看這兩種接口應該怎么使用:
原生形式使用lightgbm
import lightgbm as lgb from sklearn.metrics import mean_squared_error from sklearn.datasets import load_boston from sklearn.model_selection import train_test_splitboston = load_boston() data = boston.data target = boston.target X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)# 創建成lgb特征的數據集格式 lgb_train = lgb.Dataset(X_train, y_train) lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train)# 將參數寫成字典下形式 params = {'task': 'train','boosting_type': 'gbdt', # 設置提升類型'objective': 'regression', # 目標函數'metric': {'l2', 'auc'}, # 評估函數'num_leaves': 31, # 葉子節點數'learning_rate': 0.05, # 學習速率'feature_fraction': 0.9, # 建樹的特征選擇比例'bagging_fraction': 0.8, # 建樹的樣本采樣比例'bagging_freq': 5, # k 意味著每 k 次迭代執行bagging'verbose': 1 # <0 顯示致命的, =0 顯示錯誤 (警告), >0 顯示信息 }# 訓練 cv and train gbm = lgb.train(params, lgb_train, num_boost_round=20, valid_sets=lgb_eval, early_stopping_rounds=5)# 保存模型到文件 #gbm.save_model('model.txt') joblib.dump(lgb, './model/lgb.pkl')# 預測數據集 y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration)# 評估模型 print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)sklearn接口形式的Lightgbm
# 加載數據 boston = load_boston() data = boston.data target = boston.target X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)# 創建模型,訓練模型 gbm = lgb.LGBMRegressor(objective='regression', num_leaves=31, learning_rate=0.05, n_estimators=20) gbm.fit(X_train, y_train, eval_set=[(X_test, y_test)], eval_metric='l1', early_stopping_rounds=5)# 測試機預測 y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration_)# 模型評估 print('The rmse of prediction is:', mean_squared_error(y_test, y_pred) ** 0.5)# feature importances print('Feature importances:', list(gbm.feature_importances_))# 網格搜索,參數優化 estimator = lgb.LGBMRegressor(num_leaves=31) param_grid = {'learning_rate': [0.01, 0.1, 1],'n_estimators': [20, 40] } gbm = GridSearchCV(estimator, param_grid) gbm.fit(X_train, y_train) print('Best parameters found by grid search are:', gbm.best_params_)7.2 Lightgbm調參
Lightgbm的參數非常多,有核心參數,學習控制參數,IO參數,目標函數參數,度量參數等很多,但是我們調參的時候不需要關注這么多,只需要記住常用的關鍵的一些參數即可,下面從四個問題的維度整理一些調參的指導:
- 針對leaf-wise樹的參數優化
- num_leaves:控制了葉節點的數目。它是控制樹模型復雜度的主要參數。 如果是level-wise,則該參數為2depth2^{depth}2depth,其中depth為樹的深度。但是當葉子數量相同時,leaf-wise的樹要遠遠深過level-wise樹,非常容易導致過擬合。因此應該讓num_leaves小于2depth2^{depth}2depth。在leaf-wise樹中,并不存在depth的概念。因為不存在一個從leaves到depth的合理映射。
- min_data_in_leaf: 每個葉節點的最少樣本數量。它是處理leaf-wise樹的過擬合的重要參數。將它設為較大的值,可以避免生成一個過深的樹。但是也可能導致欠擬合。
- max_depth: 控制了樹的最大深度。該參數可以顯式的限制樹的深度。
- 針對更快的訓練速度
- 通過設置 bagging_fraction 和 bagging_freq 參數來使用 bagging 方法
- 通過設置 feature_fraction 參數來使用特征的子抽樣
- 使用較小的 max_bin
- 使用 save_binary 在未來的學習過程對數據加載進行加速
- 獲得更好的準確率
- 使用較大的 max_bin (學習速度可能變慢)
- 使用較小的 learning_rate 和較大的 num_iterations
- 使用較大的 num_leaves (可能導致過擬合)
- 使用更大的訓練數據
- 嘗試DART
- 緩解過擬合
- 使用較小的 max_bin, 分桶粗一些
- 使用較小的 num_leaves 不要在單棵樹分的太細
- 使用 lambda_l1, lambda_l2 和 min_gain_to_split 來使用正則
- 嘗試 max_depth 來避免生成過深的樹
- 使用 min_data_in_leaf 和 min_sum_hessian_in_leaf, 確保葉子節點有足夠多的數據
下面就以一個乳腺癌數據的例子,看看我們應該怎么具體去調參:
LightGBM的調參過程和RF、GBDT等類似,其基本流程如下:
- 首先選擇較高的學習率,大概0.1附近,這樣是為了加快收斂的速度。這對于調參是很有必要的。
- 對決策樹基本參數調參
- 正則化參數調參
- 最后降低學習率,這里是為了最后提高準確率
下面具體看看:
第一步:學習率和迭代次數
我們先把學習率先定一個較高的值,這里取 learning_rate = 0.1,其次確定估計器boosting/boost/boosting_type的類型,不過默認都會選gbdt。
迭代的次數,也可以說是殘差樹的數目,參數名為n_estimators/num_iterations/num_round/num_boost_round。我們可以先將該參數設成一個較大的數,然后在cv結果中查看最優的迭代次數,具體如代碼。
在這之前,我們必須給其他重要的參數一個初始值。初始值的意義不大,只是為了方便確定其他參數。下面先給定一下初始值:
以下參數根據具體項目要求定:
'boosting_type'/'boosting': 'gbdt' 'objective': 'binary' 'metric': 'auc'# 以下是選擇的初始值 'max_depth': 5 # 由于數據集不是很大,所以選擇了一個適中的值,其實4-10都無所謂。 'num_leaves': 30 # 由于lightGBM是leaves_wise生長,官方說法是要小于2^max_depth 'subsample'/'bagging_fraction':0.8 # 數據采樣 'colsample_bytree'/'feature_fraction': 0.8 # 特征采樣下面用Lightgbm的cv函數確定
import pandas as pd import lightgbm as lgb from sklearn.datasets import load_breast_cancer from sklearn.cross_validation import train_test_splitcanceData=load_breast_cancer() X=canceData.data y=canceData.target X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0,test_size=0.2) params = { 'boosting_type': 'gbdt','objective': 'binary','metric': 'auc','nthread':4,'learning_rate':0.1,'num_leaves':30, 'max_depth': 5, 'subsample': 0.8, 'colsample_bytree': 0.8, }data_train = lgb.Dataset(X_train, y_train) cv_results = lgb.cv(params, data_train, num_boost_round=1000, nfold=5, stratified=False, shuffle=True, metrics='auc',early_stopping_rounds=50,seed=0) print('best n_estimators:', len(cv_results['auc-mean'])) print('best cv score:', pd.Series(cv_results['auc-mean']).max())# 結果: ('best n_estimators:', 188) ('best cv score:', 0.99134716298085424)我們根據以上結果,就可以取n_estimators=188
第二步:確定max_depth和num_leaves
這是提高精確度的最重要的參數。這里我們引入sklearn里的GridSearchCV()函數進行搜索
根據結果,我們取max_depth=4, num_leaves=10
第三步:確定min_data_in_leaf和max_bin
params_test2={'max_bin': range(5,256,10), 'min_data_in_leaf':range(1,102,10)}gsearch2 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,bagging_fraction = 0.8,feature_fraction = 0.8), param_grid = params_test2, scoring='roc_auc',cv=5,n_jobs=-1) gsearch2.fit(X_train,y_train) gsearch2.grid_scores_, gsearch2.best_params_, gsearch2.best_score_這個結果就不顯示了,根據結果,我們取min_data_in_leaf=51,max_bin in=15。
第四步:確定feature_fraction、bagging_fraction、bagging_freq
params_test3={'feature_fraction': [0.6,0.7,0.8,0.9,1.0],'bagging_fraction': [0.6,0.7,0.8,0.9,1.0],'bagging_freq': range(0,81,10) }gsearch3 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51), param_grid = params_test3, scoring='roc_auc',cv=5,n_jobs=-1) gsearch3.fit(X_train,y_train) gsearch3.grid_scores_, gsearch3.best_params_, gsearch3.best_score_第五步:確定lambda_l1和lambda_l2
params_test4={'lambda_l1': [1e-5,1e-3,1e-1,0.0,0.1,0.3,0.5,0.7,0.9,1.0],'lambda_l2': [1e-5,1e-3,1e-1,0.0,0.1,0.3,0.5,0.7,0.9,1.0] }gsearch4 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51,bagging_fraction=0.6,bagging_freq= 0, feature_fraction= 0.8), param_grid = params_test4, scoring='roc_auc',cv=5,n_jobs=-1) gsearch4.fit(X_train,y_train) gsearch4.grid_scores_, gsearch4.best_params_, gsearch4.best_score_第六步:確定 min_split_gain
params_test5={'min_split_gain':[0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0]}gsearch5 = GridSearchCV(estimator = lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.1, n_estimators=188, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51,bagging_fraction=0.6,bagging_freq= 0, feature_fraction= 0.8, lambda_l1=1e-05,lambda_l2=1e-05), param_grid = params_test5, scoring='roc_auc',cv=5,n_jobs=-1) gsearch5.fit(X_train,y_train) gsearch5.grid_scores_, gsearch5.best_params_, gsearch5.best_score_第七步:降低學習率,增加迭代次數,驗證模型
model=lgb.LGBMClassifier(boosting_type='gbdt',objective='binary',metrics='auc',learning_rate=0.01, n_estimators=1000, max_depth=4, num_leaves=10,max_bin=15,min_data_in_leaf=51,bagging_fraction=0.6,bagging_freq= 0, feature_fraction= 0.8, lambda_l1=1e-05,lambda_l2=1e-05,min_split_gain=0) model.fit(X_train,y_train) y_pre=model.predict(X_test) print("acc:",metrics.accuracy_score(y_test,y_pre)) print("auc:",metrics.roc_auc_score(y_test,y_pre))這樣會發現, 調完參之后, 比使用默認參數的acc,auc都會有所提高。還有一種是LightGBM的cv函數調參, 這個比較省事,寫好代碼自動尋優,但是需要調參經驗,如何設置一個好的參數范圍, 這個不寫了,篇幅太長,具體的看最后面那個鏈接吧。
關于lightgbm的實戰部分,先說這么多吧,因為這個實戰的東西,說再多也是個經驗,遇到不同的問題,不同的數據,得需要不斷的嘗試,況且我用lightgbm實戰的并不太多,經驗不足,所以說再多就可能誤人子弟了。 就此打住哈哈。
8. 總結
到這里終于把Lightgbm說的差不多了,不知不覺依然是整理了這么多,篇幅和xgboost差不多,因為這個算法也是超級的重要,面試的時候也會扣得很細,所以能多整理點還是盡量多整理一些。 這次我重點放到了算法的原理上面,盡量用白話的語言去描述,關于論文里面的算法流程圖我可沒敢放上來,但具體的細節還是建議去看原文,這次內容挺多,依然是快速回顧一遍。
講Lightgbm,基本上就是圍繞著快進行的,為了實現這個目的,lightgbm基于xgboost做了很多的優化,首先,從尋找最優分裂點上,我們說了直方圖算法算法原理,這個可以降低分裂點的數量,然后我們又說了lightgbm的兩大亮點技術GOSS和EFB的算法原理, 前者是為了降低樣本的數量,后者是為了減少特征的數量,這樣從這三個角度lightgbm降低了xgboost在尋找最優分裂點上的復雜度,從而實現了快。然后Lightgbm又從樹的生長策略上對xgboost進行了優化,使用了Leaf-wise實現了高精度。 最后工程上Lightgbm首次支持類別特征,并且在并行方式上也做了很多的優化,然后就是提高了cache的命中率,這些方式都提高了lightgbm的訓練速度,所以相比于xgboost,快,更快,越來越快 😉 后面作為收尾,依然是給出了一個實戰示例,并整理了一些調參技術。
下面就與xgboost對比一下,總結一下lightgbm的優點作為收尾, 從內存和速度兩方面總結:
- XGBoost 使用預排序后需要記錄特征值及其對應樣本的統計值的索引,而 LightGBM 使用了直方圖算法將特征值轉變為 bin 值,且不需要記錄特征到樣本的索引,將空間復雜度從 O(2*#data) 降低為 O(#bin) ,極大的減少了內存消耗;
- LightGBM 采用了直方圖算法將存儲特征值轉變為存儲 bin 值,降低了內存消耗;
- LightGBM 在訓練過程中采用互斥特征捆綁算法減少了特征數量,降低了內存消耗。
- LightGBM 采用了直方圖算法將遍歷樣本轉變為遍歷直方圖,極大的降低了時間復雜度;
- LightGBM 在訓練過程中采用單邊梯度算法過濾掉梯度小的樣本,減少了大量的計算;
- LightGBM 采用了基于 Leaf-wise 算法的增長策略構建樹,減少了很多不必要的計算量;
- LightGBM 采用優化后的特征并行、數據并行方法加速計算,當數據量非常大的時候還可以采用投票并行的策略;
- LightGBM 對緩存也進行了優化,增加了 Cache hit 的命中率。
好了,lightgbm的故事就先到這里了, 希望能對你有所幫助,本文依然是拋磚引玉, 還是建議去看看原文,畢竟這個算法還是超級重要的,面試的時候也會摳得很細, 不看原文的話有些精華get不到。
參考:
- Lightgbm論文原文 - 這才是經典
- 終于有人把XGBoost 和 LightGBM 講明白了,項目中最主流的集成算法!
- 30分鐘學會LightGBM
- 無痛看懂LightGBM原文
- lightgbm,xgboost,gbdt的區別與聯系
- 機器學習-LightGBM
- 開源|LightGBM基本原理,以及調用形式
- LightGBM算法的特別之處
- 機器學習算法之LightGBM
- 深入理解LightGBM
- LightGBM原理及實現
- LightGBM源碼閱讀+理論分析(處理特征類別,缺省值的實現細節)
- XGBoost、LightGBM的詳細對比介紹
- 機器學習 之LightGBM算法
- LightGBM調參筆記
下面整理一些面試題了:
LGB相對于XBG的優缺點:
優點: 上面的那些了。
缺點: 直方圖較為粗糙, 會損失一定的精度, 但是在gbm的框架下, 基學習器的精度損失可以通過引入更多的tree來彌補。
xgb和lgb在特征、數據并行上存在什么差異?
特征并行
lgbm特征并行的前提是每個worker留有一份完整的數據集,但是每個worker僅在特征子集上進行最佳切分點的尋找;worker之間需要相互通信,通過比對損失來確定最佳切分點;然后將這個最佳切分點的位置進行全局廣播,每個worker進行切分即可。
xgb的特征并行與lgbm的最大不同在于xgb每個worker節點中僅有部分的列數據,也就是垂直切分,每個worker尋找局部最佳切分點,worker之間相互通信,然后在具有最佳切分點的worker上進行節點分裂,再由這個節點廣播一下被切分到左右節點的樣本索引號,其他worker才能開始分裂。
二者的區別就導致了lgbm中worker間通信成本明顯降低,只需通信一個特征分裂點即可,而xgb中要廣播樣本索引。
數據并行
當數據量很大,特征相對較少時,可采用數據并行策略。
lgbm中先對數據水平切分,每個worker上的數據先建立起局部的直方圖,然后合并成全局的直方圖,采用直方圖相減的方式,先計算樣本量少的節點的樣本索引,然后直接相減得到另一子節點的樣本索引,這個直方圖算法使得worker間的通信成本降低一倍,因為只用通信以此樣本量少的節點。(直方圖可以加速)
xgb中的數據并行也是水平切分,然后單個worker建立局部直方圖,再合并為全局,不同在于根據全局直方圖進行各個worker上的節點分裂時會單獨計算子節點的樣本索引,因此效率賊慢,每個worker間的通信量也就變得很大。
投票并行
當數據量和維度都很大時,選用投票并行,該方法是數據并行的一個改進。數據并行中的合并直方圖的代價相對較大,尤其是當特征維度很大時。
大致思想是:每個worker首先會找到本地的一些優秀的特征,然后進行全局投票,根據投票結果,選擇top的特征進行直方圖的合并,再尋求全局的最優分割點。
總結
以上是生活随笔為你收集整理的白话机器学习算法理论+实战番外篇之LightGBM的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超参数的调优(lightgbm)
- 下一篇: thinkphp5.1部署在百度云主机的