【采用】信用风险评分卡系列之数据处理
本系列文章主要介紹信用風險評分卡制作流程,如果想對信用風險深入了解,給大家推薦如下書單:
1.《信用風險評分卡研究—基于 SAS 的開發與實施》,作者:Mamdouh·Refat
2.《互聯網金融時代:消費信貸評分建模與應用》,作者:單良 ,? 茆小林
3.《消費信用模型:定價、利潤與組合》,作者: Lyn C. Thomas
4.《消費金融真經: 個人貸款業務全流程指南(原書第2版) 》,作者:戴維?勞倫斯(David Lawrence) 阿琳?所羅門(Arlene Solomon)譯者:張宇
信用風險評分模型是評估貸款人的資信狀況來預測申請人未來發生違約概率的模型。本文將從數據、特征變量、模型開發、模型驗證、評分卡制作等幾部分介紹從數據到評分卡的基本流程。
1.數據來源
用于制作評分模型的數據有很多:電商購物交易流水、手機SDK獲取的各類隱私數據(通訊錄、通話記錄、LBS、App列表、app行為數據)、社保、公積金、學歷、社交信息、電信運營商數據、第三方的多頭和黑名單等數據,還有信息維度最多的人行征信報告。本文采取的案列數據來自UCI機器學習數據庫(http://archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients)。當然也可以去kaggle網站尋找合適的練習數據。
2.數據描述
?
3.數據預處理
(1)首先需要理解數據的業務含義,比如age小于0或者超出正常水平很離譜就違背了業務常識,需要做清理;
(2)對于一些未知含義的數據作統一轉換,比如婚姻狀況本身只有三種,1 = married; 2 = single; 3 = others,而在源數據中卻出現了婚姻狀況的數據值為0,同樣,在教育程度的變量中,1 = graduate school; 2 = university; 3 = high school; 4 = others,但也出現的意義不明的值,我們需要將這些值以及others統一做處理轉換。
4.數據勘探
對數據進行一個基本層面的分析,以便更好地理解數據。變量分兩種類型:離散型變量和連續型變量。
(1)字符型變量:主要是看數據各個類別的分布情況,主要圖形方法有條形圖以及餅形圖,統計方法有頻數分布統計等。以數據中的 EDUCATION 為例, 條形圖的運行結果如下。教育程度中,大多數客戶集中在 1&2, 也就是學歷為 graduate school 和 university 的客戶較多;
?
(2)數值型變量:主要看該變量的集中趨勢和離散趨勢,集中趨勢主要統計量有均值、中位數等,離散趨勢主要統計量有標準差、方差、四分位差、全距等。
5.數據處理
在對數據做基本勘探后,繼續對數據做處理:
(1)缺失值,包括分析缺失值的占比,分析缺失值產生的原因,判斷是否可以刪除存在缺失值的sample,以及對缺失值的插補。可以根據數據是離散型和連續型,取平均數、中位數、眾位數等來填充。另外還可以考慮,通過模型來預測缺失變量進行填補;
(2)異常值,遇到個別數據值偏離預期或大量統計數據值結果的情況,如果把這些數據值和正常數據值放在一起進行統計,可能會影響結果的正確性,如果把這些數據值簡單地剔除,又可能忽略了重要信息。這里重要的問題是如何判斷異常值,然后將其剔除。
a.如前述,根據對客觀事物已有的認識,判斷age值正常范圍
b.統計判別法,給定一個置信概率并確定一個置信限,超過限制就屬于異常值。如果數據呈正態分布,對于大于 μ+3σ 或小于 μ—3σ 的數據值作為異常值; 一般根據分位數結合箱線圖進行判斷處理;
c.重復值,對于重復值超過 90%的變量剔除。如果數據90%是重復的,跟90%是缺失一個意思,變量的意義不是太大。
6.數據清洗
(1)日期格式的清洗。因為在后面的衍生變量中,我們需要用到日期類的變量去衍生變量,所以日期格式的清洗就方便我們做對日期格式相加減,譬如把“2016 年 4 月 6 號”轉化為“2016-04-06” ;
(2)字符變量的清洗。字符變量譬如客戶地址,我們在建模中并不需要客戶的地址精確到那條街那個門牌號,我們只需要客戶的居住地址(精確到縣),那么我們就需要對客戶填寫的地址清洗出那個市以及那個縣,例如:”深圳市龍華新區梅林關口民樂老村99 棟”我們只需要“深圳市龍華新區”,包括銀行也是,“中國銀行深圳福田支行”,我們只需要“中國銀行”就可以了;
(3)數值變量的清洗。譬如在數據庫中有這么一個變量,居住年限,這個變量有時候是手工輸入的,因為人的邏輯不一樣,有些人就填是從那一年住的“2014”,有些人就填是住了幾年“3”,但其實,“2014”和“3”是相同的居住年限,那么這時候就應該識別出“2014”清洗居住年限為 3 年。
以上為數據處理的主要過程(不限定順序),在特征工程中,這些過程會經常反復進行。下文會介紹衍生變量、特征變量分析和篩選。
總結
以上是生活随笔為你收集整理的【采用】信用风险评分卡系列之数据处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于正则化的特征选择
- 下一篇: 【待继续研究】建模-听说你的坏样本不太够