解决样本不平衡问题的奇技淫巧 汇总
先舉一個“恐怖”的例子,直觀的感受一下樣本不平衡問題:
你根據(jù)1000個正樣本和1000個負(fù)樣本正確訓(xùn)練出了一個準(zhǔn)確率90%召回率90%的分類器,且通過實驗驗證沒有欠采樣過采樣的問題哦~完美的樣本,完美的模型,破費,你心里暗自得意。然后模型上線,正式預(yù)測每天的未知樣本~。
開始一切都很美好,準(zhǔn)確率召回率都很好。直到有一天,數(shù)據(jù)發(fā)生了一點變化,還是原來的數(shù)據(jù)類型和特征,只是每天新數(shù)據(jù)中正負(fù)樣本變成了100個正樣本,10000個負(fù)樣本。注意,先前準(zhǔn)確率90%的另一種表達(dá)是負(fù)樣本有10%的概率被誤檢為正樣本。好了,模型不變,現(xiàn)在誤檢的負(fù)樣本數(shù)是10000*0.1=1000個,正樣本被檢出100*0.9(召回)=90個,好了,這個時候召回率不變?nèi)詾?0%,但是新的準(zhǔn)確率=90/(1000+90)=8.26% 。震驚嗎!?恐怖嗎!?
結(jié)論: 同一個模型僅僅是改變了驗證集的正負(fù)樣本比例,模型已經(jīng)從可用退化成不可用了!!樣本不平衡問題可怕就可怕在這,往往你的模型參數(shù),訓(xùn)練,數(shù)據(jù),特征都是對的!能做的都做了,但你的準(zhǔn)確率就是上不去!!絕望吧。。。。。。
問題定義:數(shù)據(jù)集中,每個類別下的樣本數(shù)目相差很大(數(shù)量級上的差距)。以下以二分類問題為例說明。
1. SMOTE(Synthetic Minority Over-sampling Technique)過采樣小樣本(擴(kuò)充小類,產(chǎn)生新數(shù)據(jù))
即該算法構(gòu)造的數(shù)據(jù)是新樣本,原數(shù)據(jù)集中不存在的。該基于距離度量選擇小類別下兩個或者更多的相似樣本,然后選擇其中一個樣本,并隨機(jī)選擇一定數(shù)量的鄰居樣本對選擇的那個樣本的一個屬性增加噪聲,每次處理一個屬性。這樣就構(gòu)造了更多的新生數(shù)據(jù)。(優(yōu)點是相當(dāng)于合理地對小樣本的分類平面進(jìn)行的一定程度的外擴(kuò);也相當(dāng)于對小類錯分進(jìn)行加權(quán)懲罰(解釋見3))
2. 欠采樣大樣本(壓縮大類,產(chǎn)生新數(shù)據(jù))
設(shè)小類中有N個樣本。將大類聚類成N個簇,然后使用每個簇的中心組成大類中的N個樣本,加上小類中所有的樣本進(jìn)行訓(xùn)練。(優(yōu)點是保留了大類在特征空間的分布特性,又降低了大類數(shù)據(jù)的數(shù)目)
3. 對小類錯分進(jìn)行加權(quán)懲罰
對分類器的小類樣本數(shù)據(jù)增加權(quán)值,降低大類樣本的權(quán)值(這種方法其實是產(chǎn)生了新的數(shù)據(jù)分布,即產(chǎn)生了新的數(shù)據(jù)集,譯者注),從而使得分類器將重點集中在小類樣本身上。一個具體做法就是,在訓(xùn)練分類器時,若分類器將小類樣本分錯時額外增加分類器一個小類樣本分錯代價,這個額外的代價可以使得分類器更加“關(guān)心”小類樣本。如penalized-SVM和penalized-LDA算法。
對小樣本進(jìn)行過采樣(例如含L倍的重復(fù)數(shù)據(jù)),其實在計算小樣本錯分cost functions時會累加L倍的懲罰分?jǐn)?shù)。
4. 分治ensemble
將大類中樣本聚類到L個聚類中,然后訓(xùn)練L個分類器;每個分類器使用大類中的一個簇與所有的小類樣本進(jìn)行訓(xùn)練得到;最后對這L個分類器采取少數(shù)服從多數(shù)對未知類別數(shù)據(jù)進(jìn)行分類,如果是連續(xù)值(預(yù)測),那么采用平均值。
5. 分層級ensemble
使用原始數(shù)據(jù)集訓(xùn)練第一個學(xué)習(xí)器L1;將L1錯分的數(shù)據(jù)集作為新的數(shù)據(jù)集訓(xùn)練L2;將L1和L2分類結(jié)果不一致的數(shù)據(jù)作為數(shù)據(jù)集訓(xùn)練L3;最后測試集上將三個分類器的結(jié)果匯總(結(jié)合這三個分類器,采用投票的方式來決定分類結(jié)果,因此只有當(dāng)L2與L3都分類為false時,最終結(jié)果才為false,否則true。)
6. 基于異常檢測的分類
用異常檢測算法(如高斯混合模型、聚類等)檢測得到離群點或異常點;再對這些異常點為訓(xùn)練集學(xué)習(xí)一個分類器。
7. 其他...待補(bǔ)充。
---------------------?
作者:songhk0209?
來源:CSDN?
原文:https://blog.csdn.net/songhk0209/article/details/71484469?
版權(quán)聲明:本文為博主原創(chuàng)文章,轉(zhuǎn)載請附上博文鏈接!
總結(jié)
以上是生活随笔為你收集整理的解决样本不平衡问题的奇技淫巧 汇总的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: tfrecord可以以列表的形式传入多个
- 下一篇: 解决GPU模型训练的随机性