数据偏斜的处理
轉自:http://wenku.baidu.com/link?url=g2guKl_TnsP-emCmc_eG7zSAhxMIeWzoPcLcygkJ6BDtOSz5zggDqIPLbIRZDCaXvoDZsC3BKsWrgf4u_gmfmwZzrEtRq3Pte3rZSUTrA0C
對于數(shù)據(jù)偏斜問題的處理主要分類兩大類:基于算法和基于數(shù)據(jù),增強少數(shù)類別對算法的影響程度,提高算法對少數(shù)類別的敏感程度。
基于算法:
在算法中提高少數(shù)類別樣例的權重,對少數(shù)類別樣本錯誤分類的代價高于多數(shù)類別樣本的錯分。
基于數(shù)據(jù):
兩種。一是過采樣,在數(shù)據(jù)集中增加少數(shù)類別樣例。二是下采樣,減少多數(shù)類別的樣本個數(shù)。
總結
- 上一篇: Java操作XML的工具:JAXB
- 下一篇: UE5神通--POI解决方案