《Credit Risk Scorecard》第五章: Development Database Creation
?
第五章:Scorecard Development Process, Stage 3: Development Database Creation
Selection of Characteristics
?特征選擇需要考慮:(1)有預測能力; (2)可靠并且魯棒性; (3)易于收集; (4)可解釋性;?
Sampling
Development/Validation: 樣本劃分為訓練集和測試集。這種常用的方法,交叉驗證,跨時間窗驗證等。
Good/Bad/Reject:
??????常見的開發(fā)樣本采樣方式:()oversamling (過采樣),這種需要事后進行模型調整; (2)按比率采樣,開發(fā)樣本分布和真實樣本分布保持一致。
Development Data Collection ?and Construction
Random and Representative: 樣本選擇必須是隨機的,代表開發(fā)的評分卡應用的對象(需要排除特定類型的樣本)。樣本傾斜某些群體會造成弱化其他群體的預測能力。
Nonsegmented Dataset:劃分不同場景開發(fā)評分卡,所有需要對不同場景構造相對獨立的切分樣本集。同時,也需要保留一份沒劃分的樣本。這樣的做的目的,是方便統(tǒng)計劃分場景的評分卡對不劃分場景的評分卡模型帶來的提升效果有多大。
Data Quirks:當收集數(shù)據的時候,需要了解數(shù)據庫相關數(shù)據變更歷史,尤其樣本窗口前后。這里面可能設計點字段值定義的改變,字段名的改變等。
Adjusting for Prior Probabilities (預測概率調整)
實際開發(fā)樣本是經過一定過采樣后的,這樣開發(fā)樣本好壞樣本分布和真實樣本中好壞分布是不一致的。針對這樣情況,需要模型做一定的處理,來還原真實的分布情況。當然,有些情況是不需要調整的,比如如果你只關心評分相對排序(關心分數(shù)具體值),或者自變量和目標值關系。
一般信用評分模型中是需要做特殊處理的,因為信用評分模型是用來做真實決策,設定閾值,考察評分和壞樣本率具體真實對應關系。
假設一個開發(fā)樣本集,有2000好樣本,2000壞樣本,2000拒絕樣本組成,那開發(fā)樣本,申請通過率為67%,壞樣本率為50%。但是真實的樣本分布情況,如下圖所示,其中申請通過率為70.5%, 壞樣本率為12.4%。
常見的調整方法:(1)偏置調整(offset); (2)樣本權重調整(sample weight)
Offset Method:
偏置調整,一般可以在模型預測概率后進行調整,下面是調整公式。
Sampling Weights:
樣本加權,對樣本進行加權后再進行訓練。下面提到不同類別的樣本權重。
具體采用偏置調整方法,還是樣本加權方法? 如果是lr模型,優(yōu)先選擇偏置調整方法,如果是一些非線性模型,加權方法更合適。同時,如果是基于非分組變量開發(fā),那偏置調整方法更好;如果基于分組變量,點分卡開發(fā),加權方法更好,因為他不僅修正預測概率,同時更正了參數(shù)估計,進而使派生出的特征評分更合理。
?
總結
以上是生活随笔為你收集整理的《Credit Risk Scorecard》第五章: Development Database Creation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 《Credit Risk Scoreca
- 下一篇: 《Credit Risk Scoreca