當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习-集成学习

發(fā)布時(shí)間：2023/12/14 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习-集成学习小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

01 集成學(xué)習(xí)方法概述

Bagging：從訓(xùn)練集中進(jìn)行子抽樣組成每個(gè)基模型所需要的自己訓(xùn)練集，對所有基模型預(yù)測的結(jié)果進(jìn)行綜合產(chǎn)生最終的預(yù)測結(jié)果：

Boosting

訓(xùn)練過程為階梯狀，基模型按次序一一進(jìn)行訓(xùn)練（實(shí)現(xiàn)上可以做到并行），基模型的訓(xùn)練集按照某種策略每次都進(jìn)行一定的轉(zhuǎn)化。對所有基模型預(yù)測的結(jié)果進(jìn)行線性綜合產(chǎn)生最終的預(yù)測結(jié)果。

Stacking

將訓(xùn)練好的所有基模型對訓(xùn)練集進(jìn)行預(yù)測，在這里插入代碼片第j個(gè)基模型對第i個(gè)訓(xùn)練樣本的預(yù)測值將作為新的訓(xùn)練集中第i個(gè)樣本的第j個(gè)特征值，最后基于新的訓(xùn)練集進(jìn)行訓(xùn)練。同理，預(yù)測的過程也要先經(jīng)過所有基模型的預(yù)測形成新的測試集，最后再對測試集進(jìn)行預(yù)測

Random Forest（隨機(jī)森林）

用隨機(jī)的方式建立一個(gè)森林，隨機(jī)森林算法由很多決策樹組成，每一棵決策樹之間沒有關(guān)聯(lián)。建立完森林后，當(dāng)有新樣本進(jìn)入時(shí)，每棵決策樹都會分別進(jìn)行判斷，然后基于投票法給出分類結(jié)果.
優(yōu)點(diǎn)：
在數(shù)據(jù)集上表現(xiàn)良好，相對于其他算法有較大的優(yōu)勢
易于并行化，在大數(shù)據(jù)集上有很大的優(yōu)勢
能夠處理高維數(shù)據(jù)，不用做特征選擇

Random Forest（隨機(jī)森林）

是Bagging 的擴(kuò)展變體，它在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging 集成的基礎(chǔ)上，進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)特征選擇，因此可以概括隨機(jī)森林包括四個(gè)部分：

1.隨機(jī)選擇樣本（放回抽樣）；
2.隨機(jī)選擇特征；
3.構(gòu)建決策樹；
4.隨機(jī)森林投票（平均）。
隨機(jī)選擇樣本和Bagging 相同，采用的是Bootstraping自助采樣法；隨機(jī)選擇特征是指在每個(gè)節(jié)點(diǎn)在分裂過程中都是隨機(jī)選擇特征的（區(qū)別與每棵樹隨機(jī)選擇一批特征）。這種隨機(jī)性導(dǎo)致隨機(jī)森林的偏差會有稍微的增加（相比于單棵不隨機(jī)樹），但是由于隨機(jī)森林的“平均”特性，會使得它的方差減小，而且方差的減小補(bǔ)償了偏差的增大，因此總體而言是更好的模型。

02 AdaBoost和GBDT算法

AdaBoost（AdaptiveBoosting，自適應(yīng)增強(qiáng)），其自適應(yīng)在于：前一個(gè)基本分類器分錯(cuò)的樣本會得到加強(qiáng)，加權(quán)后的全體樣本再次被用來訓(xùn)練下一個(gè)基本分類器。同時(shí)，在每一輪中加入一個(gè)新的弱分類器，直到達(dá)到某個(gè)預(yù)定的足夠小的錯(cuò)誤率或達(dá)到預(yù)先指定的最大迭代次數(shù)。
后一個(gè)模型的訓(xùn)練永遠(yuǎn)是在前一個(gè)模型的基礎(chǔ)上完成！
算法思想：初始化訓(xùn)練樣本的權(quán)值分布，每個(gè)樣本具有相同的權(quán)重
訓(xùn)練弱分類器，如果樣本分類正確，則在構(gòu)造下一個(gè)訓(xùn)練集中它的權(quán)值就會被降低；反之提高，用更新過的樣本集去訓(xùn)練下一個(gè)分類器
將所有弱分類組合成強(qiáng)分類器，各個(gè)弱分類器的訓(xùn)練過程結(jié)束后，加大分類差錯(cuò)率小的弱分類器權(quán)重，降低分類誤差率大的弱分類器的權(quán)重

AdaBoost算法思想

后一個(gè)模型的訓(xùn)練永遠(yuǎn)是在前一個(gè)模型的基礎(chǔ)上完成

GBDT

GBDT（GradientBoosting Decision Tree）是一種迭代的決策樹算法，該算法由多棵決策樹組成，GBDT的核心在于累加所有樹的結(jié)果作為最終結(jié)果，所以GBDT 中的樹都是回歸樹，不是分類樹，它是屬于Boosting 策略。GBDT是被公認(rèn)的泛化能力較強(qiáng)的算法。
GBDT算法：

03 XGBoost

XGBoost是大規(guī)模并行boosting tree 的工具，它是目前最快最好的開源boosting tree 工具包，比常見的工具包快10 倍以上。XGBoost和GBDT 兩者都是boosting 方法，除了工程實(shí)現(xiàn)、解決問題上的一些差異外，最大的不同就是目標(biāo)函數(shù)的定義。
-

04 LightGBM

LightGBM由微軟提出，主要用于解決GDBT在海量數(shù)據(jù)中遇到的問題，以便其可以更好更快地用于工業(yè)實(shí)踐中，其相對XGBoost具有訓(xùn)練速度快、內(nèi)存占用低的特點(diǎn)。
LightGBM與XGBoost相比，主要有以下幾個(gè)優(yōu)勢：
1）更快的訓(xùn)練速度
2）更低的內(nèi)存消耗
3）更好的準(zhǔn)確率
4）分布式支持，可快速處理海量數(shù)據(jù)
LightGBM的主要改進(jìn)
LightGBM與XGBoost相比，主要有以下幾個(gè)改進(jìn)：
?基于梯度的單邊采樣算法（Gradient-based One-Side Sampling, GOSS）；
?互斥特征捆綁算法（Exclusive Feature Bundling, EFB）；
?直方圖算法（Histogram ）；
?基于最大深度的Leaf-wise 的垂直生長算法；
LightGBM= XGBoost+ GOSS + EFB+ Histogram
基于梯度的單邊采樣算法（Gradient-based One-Side Sampling, GOSS）
主要思想是通過對樣本采樣的方法來減少計(jì)算目標(biāo)函數(shù)增益時(shí)候的復(fù)雜度。GOSS算法保留了梯度大的樣本，并對梯度小的樣本進(jìn)行隨機(jī)抽樣，為了不改變樣本的數(shù)據(jù)分布，在計(jì)算增益時(shí)為梯度小的樣本引入一個(gè)常數(shù)進(jìn)行平衡
如果一個(gè)樣本的梯度很小，說明該樣本的訓(xùn)練誤差很小，或者說該樣本已經(jīng)得到了很好的訓(xùn)練(well-trained)。
基于梯度的單邊采樣算法（Gradient-based One-Side Sampling, GOSS）
輸入：訓(xùn)練數(shù)據(jù)，迭代步數(shù)d，大梯度數(shù)據(jù)的采樣率a，小梯度數(shù)據(jù)的采樣率b，損失函數(shù)和若學(xué)習(xí)器的類型（一般為決策樹）
輸出：訓(xùn)練好的強(qiáng)學(xué)習(xí)器
（1）根據(jù)樣本點(diǎn)的梯度的絕對值對它們進(jìn)行降序排序；
（2）對排序后的結(jié)果選取前a*100%的樣本生成一個(gè)大梯度樣本點(diǎn)的子集；
（3）對剩下的樣本集合(1-a)*100%的樣本，隨機(jī)的選取b *(1-a)*100%個(gè)樣本點(diǎn)，生成一個(gè)小梯度樣本點(diǎn)的集合；
（4）將大梯度樣本和采樣的小梯度樣本合并；
（5）將小梯度樣本乘上一個(gè)權(quán)重系數(shù) $1?ab\frac{1-a}$ ；
（6）使用上述的采樣的樣本，學(xué)習(xí)一個(gè)新的弱學(xué)習(xí)器；
（7）不斷地重復(fù)（1）~（6）步驟直到達(dá)到規(guī)定的迭代次數(shù)或者收斂為止。
互斥特征捆綁算法（Exclusive Feature Bundling, EFB）
高維特征往往是稀疏的，而且特征間可能是相互排斥的（如兩個(gè)特征不同時(shí)取非零值），如果兩個(gè)特征并不完全互斥（如只有一部分情況下是不同時(shí)取非零值），可以用互斥率表示互斥程度。EFB算法指出如果將一些特征進(jìn)行融合綁定，則可以降低特征數(shù)量。
論文給出特征合并算法，其關(guān)鍵在于原始特征能從合并的特征中分離出來。

#%%import warnings warnings.filterwarnings('ignore') import pandas as pd from sklearn.model_selection import train_test_split#%% md# 生成數(shù)據(jù) 生成12000行的數(shù)據(jù)，訓(xùn)練集和測試集按照3：1劃分#%%from sklearn.datasets import make_hastie_10_2 data,target=make_hastie_10_2() data#%%X_train, X_test, y_train, y_test = train_test_split(data, target,random_state=123) X_train.shape, X_test.shape y_train#%% md# 模型對比對比六大模型，都是默認(rèn)參數(shù)#%%from sklearn.linear_model import LogisticRegression from sklearn.ensemble import RandomForestClassifier from sklearn.ensemble import AdaBoostClassifier from sklearn.ensemble import GradientBoostingClassifier from xgboost import XGBClassifier from lightgbm import LGBMClassifier import time from sklearn.model_selection import cross_val_score clf1=LogisticRegression() clf2 = RandomForestClassifier() clf3 = AdaBoostClassifier() clf4 = GradientBoostingClassifier() clf5 = XGBClassifier() clf6 = LGBMClassifier() clf1.fit(X_train,y_train) print(clf1.score(X_test,y_test)) for clf, label in zip([clf1, clf2, clf3, clf4, clf5, clf6], ['Logistic Regression', 'Random Forest', 'AdaBoost', 'GBDT', 'XGBoost','LightGBM' ]):start = time.time()scores = cross_val_score(clf, X_train, y_train, scoring='accuracy', cv=5)print(scores)end = time.time()running_time = end-startprint("Accuracy: %0.8f (+/- %0.2f),耗時(shí)%0.2f秒。模型名稱[%s]" %(scores.mean(), scores.std(), running_time, label))#%% md對比了六大模型，可以看出，邏輯回歸速度最快，但準(zhǔn)確率最低。而LightGBM，速度快，而且準(zhǔn)確率最高，所以，現(xiàn)在處理結(jié)構(gòu)化數(shù)據(jù)的時(shí)候，大部分都是用LightGBM算法。#%% md# 原生XGBoost的使用 1.原生XGBoost的使用#%%import xgboost as xgb #記錄運(yùn)行時(shí)間 import time start_time=time.time() # xgb矩陣賦值 xgb_train=xgb.DMatrix(X_train,y_train) xgb_test = xgb.DMatrix(X_test, label=y_test) ##參數(shù) params = {'booster': 'gbtree','silent': 0, #設(shè)置成1則沒有運(yùn)行信息輸出，最好是設(shè)置為0.#'nthread':7,# cpu 線程數(shù) 默認(rèn)最大'eta': 0.007, # 如同學(xué)習(xí)率'min_child_weight': 3,# 這個(gè)參數(shù)默認(rèn)是 1，是每個(gè)葉子里面 h 的和至少是多少，對正負(fù)樣本不均衡時(shí)的 0-1 分類而言#，假設(shè) h 在 0.01 附近，min_child_weight 為 1 意味著葉子節(jié)點(diǎn)中最少需要包含 100 個(gè)樣本。#這個(gè)參數(shù)非常影響結(jié)果，控制葉子節(jié)點(diǎn)中二階導(dǎo)的和的最小值，該參數(shù)值越小，越容易 overfitting。'max_depth': 6, # 構(gòu)建樹的深度，越大越容易過擬合'gamma': 0.1, # 樹的葉子節(jié)點(diǎn)上作進(jìn)一步分區(qū)所需的最小損失減少,越大越保守，一般0.1、0.2這樣子。'subsample': 0.7, # 隨機(jī)采樣訓(xùn)練樣本'colsample_bytree': 0.7, # 生成樹時(shí)進(jìn)行的列采樣 'lambda': 2, # 控制模型復(fù)雜度的權(quán)重值的L2正則化項(xiàng)參數(shù)，參數(shù)越大，模型越不容易過擬合。#'alpha':0, # L1 正則項(xiàng)參數(shù)#'scale_pos_weight':1, #如果取值大于0的話，在類別樣本不平衡的情況下有助于快速收斂。#'objective': 'multi:softmax', #多分類的問題#'num_class':10, # 類別數(shù)，多分類與 multisoftmax 并用'seed': 1000, #隨機(jī)種子#'eval_metric': 'auc' } plst=list(params.items()) num_rounds=500 # 迭代次數(shù) watchlist=[(xgb_train,'train'),(xgb_test,'val')]#%%#訓(xùn)練模型并保存 # early_stopping_rounds 當(dāng)設(shè)置的迭代次數(shù)較大時(shí)，early_stopping_rounds 可在一定的迭代次數(shù)內(nèi)準(zhǔn)確率沒有提升就停止訓(xùn)練 model = xgb.train(plst,xgb_train,num_rounds,watchlist,early_stopping_rounds=100, ) print("best best_ntree_limit", model.best_ntree_limit) y_pred = model.predict(xgb_test, ntree_limit=model.best_ntree_limit) print('error=%f' %(sum(1for i in range(len(y_pred)) if int(y_pred[i] > 0.5) != y_test[i]) /float(len(y_pred)))) # 輸出運(yùn)行時(shí)長 cost_time = time.time() - start_time print("xgboost success!", '\n', "cost time:", cost_time, "(s)......")#%% mdLIghtGBM的使用 1.原生接口#%%import lightgbm as lgb from sklearn.metrics import mean_squared_error # 加載你的數(shù)據(jù) # print('Load data...') # df_train = pd.read_csv('../regression/regression.train', header=None, sep='\t') # df_test = pd.read_csv('../regression/regression.test', header=None, sep='\t') # # y_train = df_train[0].values # y_test = df_test[0].values # X_train = df_train.drop(0, axis=1).values # X_test = df_test.drop(0, axis=1).values# 創(chuàng)建成lgb特征的數(shù)據(jù)集格式 lgb_train = lgb.Dataset(X_train, y_train) # 將數(shù)據(jù)保存到LightGBM二進(jìn)制文件將使加載更快 lgb_eval = lgb.Dataset(X_test, y_test, reference=lgb_train) # 創(chuàng)建驗(yàn)證數(shù)據(jù) # 將參數(shù)寫成字典下形式 params = {'task': 'train','boosting_type': 'gbdt', # 設(shè)置提升類型'objective': 'regression', # 目標(biāo)函數(shù)'metric': {'l2', 'auc'}, # 評估函數(shù)'num_leaves': 31, # 葉子節(jié)點(diǎn)數(shù)'learning_rate': 0.05, # 學(xué)習(xí)速率'feature_fraction': 0.9, # 建樹的特征選擇比例'bagging_fraction': 0.8, # 建樹的樣本采樣比例'bagging_freq': 5, # k 意味著每 k 次迭代執(zhí)行bagging'verbose': 1 # <0 顯示致命的, =0 顯示錯(cuò)誤 (警告), >0 顯示信息 } print('Start training...') # 訓(xùn)練 cv and train gbm = lgb.train(params,lgb_train,num_boost_round=500,valid_sets=lgb_eval,early_stopping_rounds=5) # 訓(xùn)練數(shù)據(jù)需要參數(shù)列表和數(shù)據(jù)集print('Save model...')gbm.save_model('model.txt') # 訓(xùn)練后保存模型到文件print('Start predicting...') # 預(yù)測數(shù)據(jù)集 y_pred = gbm.predict(X_test, num_iteration=gbm.best_iteration) #如果在訓(xùn)練期間啟用了早期停止，可以通過best_iteration方式從最佳迭代中獲得預(yù)測 # 評估模型 print('error=%f' %(sum(1for i in range(len(y_pred)) if int(y_pred[i] > 0.5) != y_test[i]) /float(len(y_pred))))#%% md2.scikit-learn接口#%%from sklearn import metrics from lightgbm import LGBMClassifierclf = LGBMClassifier(boosting_type='gbdt', # 提升樹的類型 gbdt,dart,goss,rfnum_leaves=31, #樹的最大葉子數(shù)，對比xgboost一般為2^(max_depth)max_depth=-1, #最大樹的深度learning_rate=0.1, #學(xué)習(xí)率n_estimators=100, # 擬合的樹的棵樹，相當(dāng)于訓(xùn)練輪數(shù)subsample_for_bin=200000,objective=None,class_weight=None,min_split_gain=0.0, # 最小分割增益min_child_weight=0.001, # 分支結(jié)點(diǎn)的最小權(quán)重min_child_samples=20,subsample=1.0, # 訓(xùn)練樣本采樣率行subsample_freq=0, # 子樣本頻率colsample_bytree=1.0, # 訓(xùn)練特征采樣率列reg_alpha=0.0, # L1正則化系數(shù)reg_lambda=0.0, # L2正則化系數(shù)random_state=None,n_jobs=-1,silent=True, ) clf.fit(X_train, y_train, eval_metric='auc') #設(shè)置驗(yàn)證集合 verbose=False不打印過程 clf.fit(X_train, y_train)y_true, y_pred = y_test, clf.predict(X_test) print("Accuracy : %.4g" % metrics.accuracy_score(y_true, y_pred))#%%#%%#%%#%%#%%#%%

資料

總結(jié)

以上是生活随笔為你收集整理的机器学习-集成学习的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

机器

上一篇：阿里大佬耗时3年总结Python学习清单
下一篇：《善数者成：大数据改变中国》读书笔记1

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

机器学习-集成学习

01 集成學(xué)習(xí)方法概述

Boosting

Stacking

Random Forest（隨機(jī)森林）

Random Forest（隨機(jī)森林）

02 AdaBoost和GBDT算法

AdaBoost算法思想

GBDT

03 XGBoost

04 LightGBM

資料

總結(jié)