當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

模型融合之stacking方法

發布時間：2025/3/21 编程问答 17 豆豆

生活随笔收集整理的這篇文章主要介紹了模型融合之stacking方法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

之前一直對stacking一知半解，找到的資料也介紹的很模糊。所以有多看了幾篇文章，然后來此寫篇博客，加深一下印象，順便給各位朋友分享一下。

stacking的過程有一張圖非常經典，如下：

雖然他很直觀，但是沒有語言描述確實很難搞懂。

上半部分是用一個基礎模型進行5折交叉驗證，如：用XGBoost作為基礎模型Model1，5折交叉驗證就是先拿出四折作為training data，另外一折作為testing data。注意：在stacking中此部分數據會用到整個traing set。如：假設我們整個training set包含10000行數據，testing set包含2500行數據，那么每一次交叉驗證其實就是對training set進行劃分，在每一次的交叉驗證中training data將會是8000行，testing data是2000行。

每一次的交叉驗證包含兩個過程，1. 基于training data訓練模型；2. 基于training data訓練生成的模型對testing data進行預測。在整個第一次的交叉驗證完成之后我們將會得到關于當前testing data的預測值，這將會是一個一維2000行的數據，記為a1。注意！在這部分操作完成后，我們還要對數據集原來的整個testing set進行預測，這個過程會生成2500個預測值，這部分預測值將會作為下一層模型testing data的一部分，記為b1。因為我們進行的是5折交叉驗證，所以以上提及的過程將會進行五次，最終會生成針對testing set數據預測的5列2000行的數據a1,a2,a3,a4,a5，對testing set的預測會是5列2500行數據b1,b2,b3,b4,b5。

在完成對Model1的整個步驟之后，我們可以發現a1,a2,a3,a4,a5其實就是對原來整個training set的預測值，將他們拼湊起來，會形成一個10000行一列的矩陣，記為A1。而對于b1,b2,b3,b4,b5這部分數據，我們將各部分相加取平均值，得到一個2500行一列的矩陣，記為B1。

以上就是stacking中一個模型的完整流程，stacking中同一層通常包含多個模型，假設還有Model2: LR，Model3：RF，Model4: GBDT，Model5：SVM，對于這四個模型，我們可以重復以上的步驟，在整個流程結束之后，我們可以得到新的A2,A3,A4,A5,B2,B3,B4,B5矩陣。

在此之后，我們把A1,A2,A3,A4,A5并列合并得到一個10000行五列的矩陣作為training data，B1,B2,B3,B4,B5并列合并得到一個2500行五列的矩陣作為testing data。讓下一層的模型，基于他們進一步訓練。

以上即為stacking的完整步驟！

總結

以上是生活随笔為你收集整理的模型融合之stacking方法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

模型融合之stacking方法

總結