通俗理解LightGBM并图解举例
算法原文是:
 LightGBM:A Highly Efficient Gradient Boosting Decision Tree
 一句話:
 LightGBM是GBDT的運行速度上的升級版
 文章結構如下:
LightGBM={Goss(Gradient?basedOne?SideSampling)EFB(ExclusiveFeatureBundling)LightGBM=\left\{ \begin{aligned} Goss(Gradient-based\ One-Side Sampling)\\ EFB(Exclusive\ Feature\ Bundling) \\ \end{aligned} \right.LightGBM={Goss(Gradient?based?One?SideSampling)EFB(Exclusive?Feature?Bundling)?
Goss
 先根據梯度對樣本進行排序,選取 a * 100% 的top樣本,再從剩余數據中隨機選取 b * 100% 的樣本,并乘以 ?的系數放大。
同學們 ,到底什么是"根據梯度"對樣本進行排序?
 
假設我們現在的數據集只有一個特征,那么我們怎么篩選數據集呢?
 根據上面的圖我們可以知道,圖中處于黑色區段的特征取值的那一部分數據集就是我們需要的數據集.
也就是說,論文的意思是:
 GOSS則通過保存大梯度樣本,隨機選取小梯度樣本,并為其彌補上一個常數權重。這樣,GOSS更關注訓練不足的樣本,同時也不會改變原始數據太多。
 ##################################################
 然后我們來看看EFB是啥意思?
 根據論文原文中的一段話:
 Specially,in a sparse feature space,many features are mutually exclusive,i.e.they never take nonzero values simultaneously.
 什么意思呢?
| 1 | - | get cancer | 
| - | big | healthy | 
| 3 | - | get cancer | 
| _ | large | healthy | 
把特征A和特征B融合為一個特征.
 所以這里相當于是在lightGBM的分類器內部進行了"數據預處理"
總結
以上是生活随笔為你收集整理的通俗理解LightGBM并图解举例的全部內容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 线性链条件随机场与HMM在viterbi
- 下一篇: Catboost原文解读
