不均衡数据的处理方法
關(guān)于不均衡數(shù)據(jù)的處理方法,主要有以下幾個(gè)方面:
1. 采樣的方法
? ?1.1 過(guò)采樣,采集類標(biāo)少的樣本,達(dá)到平衡樣本的目的。
? ? ? ? ?方法一,簡(jiǎn)單的復(fù)制類標(biāo)少的樣本
? ? ? ? 方法二,生成人工樣本(SMOTE方法),MATLAB代碼?SMOTE (Synthetic Minority Over-Sampling Technique) - File Exchange - MATLAB Central
? ?1.2 下采樣,將大樣本隨機(jī)分成N類,結(jié)合類標(biāo)少的樣本進(jìn)行訓(xùn)練N個(gè)模型,最后結(jié)果是N個(gè)模型的加權(quán)平均來(lái)刻畫。
2. 基于名義變量的方法,也就是代價(jià)敏感函數(shù)方法。
? ? ? cost-sensitive learning, penalized-SVM
3.?RUSBoostcan be implemented in Matlab using the 'fitensemble' technique.?
? ??Using classifiers which can handle the imbalance problem such as the RUSBoost technique
Matlab代碼可見?
RUSBoost
以上方法的所有細(xì)節(jié)可參看下面的博文
(1)Class Imbalance Problem
(2)不平衡數(shù)據(jù)下的機(jī)器學(xué)習(xí)方法簡(jiǎn)介
(3)8大策略讓你對(duì)抗機(jī)器學(xué)習(xí)數(shù)據(jù)集里的不均衡數(shù)據(jù)
(4)Quora上面的解答:https://www.quora.com/In-classification-how-do-you-handle-an-unbalanced-training-set
翻譯見:http://blog.csdn.net/heyongluoyao8/article/details/49408131
(5)在分類中如何處理訓(xùn)練集中不平衡問題
?
?(6)知乎上的討論?https://www.zhihu.com/question/36514847
? ? ? ? ? ? ? ? ? ? ?https://www.zhihu.com/question/30492527
總結(jié)
以上是生活随笔為你收集整理的不均衡数据的处理方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 广州银行美团信用卡可以取现吗?这两个事项
- 下一篇: 广州银行美团信用卡额度多少?怎么提额?