【机器学习】机器学习处理不均衡分类
??在真實的場景中,不均衡的分類到處可見,比如大多數(shù)訪客都不會單擊“購買”按鈕,大多數(shù)用戶都不會付費成為“VIP”,有些癌癥或遺傳病也是十分罕見的。因此,處理不均衡分類就稱為機器學(xué)習(xí)的一個常見任務(wù)。
??對此,最好的解決方案是收集更多的觀觀察值——尤其是占少數(shù)的分類的觀察值。可惜的是,這可能很難做到,所以我們需要求助于其他手段。
??次優(yōu)的解決方案是選擇更適用于評估不均衡數(shù)據(jù)的標(biāo)準(zhǔn)。準(zhǔn)確率常常被作為評估模型性能的標(biāo)準(zhǔn),但用準(zhǔn)確率來評估不均衡分類是不合適的。例如,如果樣本中只有0.5%的人得了某種罕見的癌癥,那么即使我們的模型預(yù)測沒有人會得這種癌癥,準(zhǔn)確率也只能達(dá)到99.5%。很明顯,這也不是我們想要的。一些更有效的評估標(biāo)準(zhǔn),如混淆矩陣、精確度、召回率、F1值以及ROC曲線都是值得學(xué)習(xí)的。(題外話:記得HIT王宏志教授說ML流程中研究最弱的是模型評估。
??第三個解決方案是在一些分類器模型中使用分類權(quán)重參數(shù),這樣就能針對不均衡的分類來調(diào)整算法。scikit-learn的很多分類器都有class_weight參數(shù),便于使用。
??第四個方案和第五個方案是相關(guān)的:下采樣和上采樣。在下采樣中,需要從占多數(shù)的分類中創(chuàng)建一個子集,其觀察之?dāng)?shù)量與占少數(shù)的分類的觀察值數(shù)量相等。在上采樣中,采用有放回的方式對占少數(shù)的分類重復(fù)采樣,一次創(chuàng)建與占多數(shù)的分類有相同數(shù)量觀察值的數(shù)據(jù)集。到底是下采樣還是上采樣,需要根據(jù)實際場景做決定。通常情況下,應(yīng)該同時嘗試兩種方法,看看哪種效果更好。
總結(jié)
以上是生活随笔為你收集整理的【机器学习】机器学习处理不均衡分类的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Java】存储单元的设计与模拟
- 下一篇: 【C语言】第四章 逻辑判断与选择结构 题