3.6评分卡极端值的识别以及处理
1.極端值的識(shí)別
極端值的來(lái)源無(wú)非是數(shù)據(jù)差錯(cuò)和數(shù)據(jù)差異。
大多數(shù)情況下,極端值被刪除或者被重置。但是,當(dāng)極端值的觀測(cè)量很大時(shí),需要考慮分群(segments),ie.針對(duì)每個(gè)群開(kāi)發(fā)獨(dú)立的評(píng)分卡。
識(shí)別方法如下:
?
- 設(shè)定正常的取值范圍
- 考慮數(shù)據(jù)的多元屬性,建立擬合模型,偏離模型值為極端值
- 聚類算法
- 依靠決策樹發(fā)現(xiàn)包含少量觀測(cè)值的持續(xù)節(jié)點(diǎn)。這取決于一個(gè)好的交互式?jīng)Q策樹軟件和對(duì)數(shù)據(jù)進(jìn)行可視化探索的可能。
2.用SAS實(shí)現(xiàn)對(duì)極端值的識(shí)別
?
?
- 計(jì)算出均值和標(biāo)準(zhǔn)差之后,調(diào)用宏%extremes
/* identifying outliers using the mean and three standard deviations */
?
%extremes(dsin,varx,idvar,nsigma,dsout);
/* 輸入數(shù)據(jù)集,被分析變量,ID變量,標(biāo)準(zhǔn)差倍數(shù),輸出數(shù)據(jù)集 */
?
- K-均值聚類識(shí)別 (考慮了數(shù)據(jù)的多元特征)
/* 宏%clustol用proc fastclus創(chuàng)建總計(jì)為nclust的簇,參數(shù)pmin被設(shè)定一個(gè)簇中的觀測(cè)值相對(duì)于數(shù)據(jù)集總體的百分比。大多數(shù)風(fēng)險(xiǎn)評(píng)分實(shí)踐中,被設(shè)定為0.05~0.10 */
?
%ClustOL (&dsin,&varlist,&NClust,&Pmin,&DSout);
/* ?輸入數(shù)據(jù)集,變量列表,簇的數(shù)量,簇的最大規(guī)模,輸出數(shù)據(jù)集 */
?
- 多級(jí)別識(shí)別
?ie.首先單變量分析識(shí)別極端值,然后聚類在多元特征上識(shí)別極端值?
?
?
3.極端值的處理?
?
- 考慮分群處理?(極端值數(shù)量很多)
- 刪除
- 用一些單變量統(tǒng)計(jì)量替代(缺點(diǎn):有偏)
- 多重歸因? (proc MI)
?
轉(zhuǎn)載于:https://www.cnblogs.com/jane-lau/p/8458924.html
總結(jié)
以上是生活随笔為你收集整理的3.6评分卡极端值的识别以及处理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: CodeChef - NWAYS 组合数
- 下一篇: Dubbo详解-说明(一)