【采用】信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)
巴塞爾協(xié)議定義了金融風(fēng)險(xiǎn)類(lèi)型:市場(chǎng)風(fēng)險(xiǎn)、作業(yè)風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)。信用風(fēng)險(xiǎn)ABC模型有進(jìn)件申請(qǐng)?jiān)u分、行為評(píng)分、催收評(píng)分。
?
?
?
————————————————————————————————————
?
一、數(shù)據(jù)準(zhǔn)備
?
1、排除一些特定的建模客戶
?
用于建模的客戶或者申請(qǐng)者必須是日常審批過(guò)程中接觸到的,需要排除以下兩類(lèi)人:
異常行為:銷(xiāo)戶、按條例拒絕、特殊賬戶;
特殊賬戶:出國(guó)、卡丟失/失竊、死亡、未成年、員工賬戶、VIP;
其他:欺詐(根據(jù)反欺詐評(píng)分)、主動(dòng)銷(xiāo)戶者(流失評(píng)分)
?
2、解釋指標(biāo)的選取
?
(1)申請(qǐng)?jiān)u分所需指標(biāo)
?
信用風(fēng)險(xiǎn)中,申請(qǐng)?jiān)u分所采納的指標(biāo)有很多,譬如可以參考FICO信用分中的一些,參考:筆記︱金融風(fēng)險(xiǎn)控制基礎(chǔ)常識(shí)——巴塞爾協(xié)議+信用評(píng)分卡Fico信用分
其中2.1FICO信用分的計(jì)算方法給出了一些評(píng)判標(biāo)準(zhǔn)
?
(2)行為評(píng)分所需指標(biāo)
?
圖片來(lái)自CDA-DSC課程中。
?
?
3、目標(biāo)變量的確立
?
?
對(duì)于預(yù)測(cè)建模,定義目標(biāo)變量是最重要、對(duì)建模結(jié)果影響最大的一步。銀行業(yè)信用評(píng)分解決方案默認(rèn)的目標(biāo)時(shí)間定義選擇二分類(lèi)變量為:不良/逾期、良好。
不良/逾期:觀察窗口內(nèi),觀察窗口內(nèi),60/90/120天算逾期日期;
良好:從未或截止逾期;從未或在觀察期內(nèi)截止逾期
?
其中關(guān)于不良/逾期需要界定以下兩項(xiàng)內(nèi)容:確定違約日期時(shí)長(zhǎng)、觀察窗口期設(shè)置。
?
?
————————————————————————————————————
?
二、確定違約日期時(shí)長(zhǎng)、觀察窗口期設(shè)置
?
其中有兩個(gè)時(shí)期,觀察窗口期、預(yù)測(cè)窗口期。預(yù)測(cè)窗口期時(shí)間由賬齡分析獲取,觀察窗口期大約就是預(yù)測(cè)窗口的3-5倍。巴塞爾協(xié)議中規(guī)定預(yù)測(cè)窗口期一般為12個(gè)月,所以一般實(shí)務(wù)中以12個(gè)月為窗口期。在已知預(yù)測(cè)窗口期之下,通過(guò)轉(zhuǎn)移矩陣了解違約期具體時(shí)長(zhǎng)。
(PS:雖然做了總結(jié),但是還沒(méi)明白老師上課所講的,為什么這么做?怎么出結(jié)果?)
?
評(píng)論區(qū)網(wǎng)友Love_sf留言:
窗口期為一年12個(gè)月,觀察窗口為預(yù)測(cè)窗口的3-5倍,即觀察窗口為9個(gè)月,預(yù)測(cè)窗口3個(gè)月,或者觀察窗口為10個(gè)月,預(yù)測(cè)窗口2個(gè)月,定義M2+或者M(jìn)3+作為違約用戶,這樣才能用來(lái)建模預(yù)測(cè)壞用戶出現(xiàn)概率。
?
?
1、違約日期的確定——轉(zhuǎn)移矩陣
?
不同賬期客戶轉(zhuǎn)移到更壞概率不同,選取顯著變化的節(jié)點(diǎn)。
?
?
圖中可以看出,第一個(gè)月不還拖欠到下一個(gè)月的概率為M0=7.96%,第二個(gè)月不還拖欠到下個(gè)月的有M1=57.26%,M2=64.48%,M3=79%,M4=83.77%。
從這里可以看出,第五個(gè)月是一個(gè)拐點(diǎn),說(shuō)明第五月之后就很難催到賬務(wù)。所以,催帳日期可以選擇3月。同時(shí),超過(guò)5月包括5月的都屬于違約行為。
?
?
2、違約窗口期設(shè)置——賬齡分析
?
一般情況下巴塞爾協(xié)議硬性要求12個(gè)月及以上作為窗口期。一般情況下,觀察窗口=3-5倍的預(yù)測(cè)窗口。
?
決定信用評(píng)等模型開(kāi)發(fā)所需數(shù)據(jù)期間長(zhǎng)度,一般會(huì)從最新資料的留存時(shí)點(diǎn)開(kāi)始推算,利用賬齡分析觀察目標(biāo)客戶的違約成熟期長(zhǎng)度,借此設(shè)定觀察期長(zhǎng)度(預(yù)測(cè)窗口的時(shí)間長(zhǎng)度)。比如200901開(kāi)卡的人,第10個(gè)月,穩(wěn)定成熟了,績(jī)效時(shí)間可以確定為10-12個(gè)月;200902開(kāi)卡的人,第11個(gè)月,穩(wěn)定成熟了,11-12個(gè)月。
?
?
————————————————————————————————————
?
三、數(shù)據(jù)重編碼——WOE轉(zhuǎn)換
?
由于制作評(píng)分卡的某些需要,通常會(huì)在建立評(píng)分模型時(shí)將自變量(連續(xù)+離散都可以)做離散化處理(等寬切割,等高切割,或者利用決策樹(shù)來(lái)切割),但是模型本身沒(méi)辦法很好地直接接受分類(lèi)自變量的輸入。所以信用評(píng)分卡中常用的WOE轉(zhuǎn)換。
?
WOE轉(zhuǎn)換=分箱法=Logit值,與等深、等寬不同是根據(jù)被解釋變量來(lái)重新定義一個(gè)WOE值(R語(yǔ)言︱噪聲數(shù)據(jù)處理、數(shù)據(jù)分組——分箱法(離散化、等級(jí)化))。
?
WOE的公式就是:WOE=ln(好客戶占比/壞客戶占比)*100%=優(yōu)勢(shì)比
?
好客戶占比=數(shù)量(x︱y=好)/總?cè)藬?shù)
?
?
WOE轉(zhuǎn)化的優(yōu)勢(shì):提升模型的預(yù)測(cè)效果,提高模型的可理解性。
?
1、WOE與違約概率具有某種線性關(guān)系
從而通過(guò)這種WOE編碼可以發(fā)現(xiàn)自變量與目標(biāo)變量之間的非線性關(guān)系(例如U型或者倒U型關(guān)系)。提升預(yù)測(cè)效果
?
2、WOE變量出現(xiàn)負(fù)值情況。
在此基礎(chǔ)上,我們可以預(yù)料到模型擬合出來(lái)的自變量系數(shù)應(yīng)該都是正數(shù),如果結(jié)果中出現(xiàn)了負(fù)數(shù),應(yīng)當(dāng)考慮是否是來(lái)自自變量多重共線性的影響。
?
3、標(biāo)準(zhǔn)化的功能。
WOE編碼之后,自變量其實(shí)具備了某種標(biāo)準(zhǔn)化的性質(zhì),也就是說(shuō),自變量?jī)?nèi)部的各個(gè)取值之間都可以直接進(jìn)行比較(WOE之間的比較),而不同自變量之間的各種取值也可以通過(guò)WOE進(jìn)行直接的比較。
?
4、WOE能反映自變量的貢獻(xiàn)情況。
自變量?jī)?nèi)部WOE值的變異(波動(dòng))情況,結(jié)合模型擬合出的系數(shù),構(gòu)造出各個(gè)自變量的貢獻(xiàn)率及相對(duì)重要性。一般地,系數(shù)越大,woe的方差越大,則自變量的貢獻(xiàn)率越大(類(lèi)似于某種方差貢獻(xiàn)率),這也能夠很直觀地理解。
?
5、異常值處理。
很多極值變量通過(guò)WOE可以變?yōu)榉钱惓V?
譬如解決分類(lèi)之后,一些案例個(gè)數(shù)過(guò)少的情況。案例個(gè)數(shù)過(guò)少的情況一般情況下可以合并,也可以用WOE轉(zhuǎn)化來(lái)實(shí)現(xiàn)。
轉(zhuǎn)化之后可能值變成這個(gè)樣子,跳躍很大,可以作為用蓋帽法等方法解決。
?
——————————————————————————————————————————
?
延伸案例一:機(jī)器學(xué)習(xí)算法基于信用卡消費(fèi)記錄做信用評(píng)分
?
文章來(lái)源云棲社區(qū),作者傲海
?
數(shù)據(jù)集介紹
?
?
這是一份國(guó)外某機(jī)構(gòu)開(kāi)源的數(shù)據(jù)集,數(shù)據(jù)的內(nèi)容包括每個(gè)用戶的一些性別、教育、婚姻、年齡等屬性,同時(shí)也包含用戶過(guò)去一段時(shí)間的信用卡消費(fèi)情況和賬單情況。payment_next_month是目標(biāo)隊(duì)列,表示用戶是否償還信用卡賬單,1表示償還,0表示沒(méi)有償還。
數(shù)據(jù)供30000條。
數(shù)據(jù)集下載地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset
實(shí)驗(yàn)流程
先來(lái)看下實(shí)驗(yàn)圖:
?
現(xiàn)在對(duì)一些關(guān)鍵節(jié)點(diǎn)進(jìn)行介紹:
(1)拆分
將輸入數(shù)據(jù)集分為兩部分,一部分用來(lái)訓(xùn)練模型,另一部分用來(lái)預(yù)測(cè)評(píng)估。
(2)分箱
分箱組件類(lèi)似于onehot編碼,可以將數(shù)據(jù)按照分布映射成更高維度的特征。我們以age這個(gè)字段為例,分箱組件可以按照數(shù)據(jù)在不同區(qū)間的分布進(jìn)行分享操作,分箱結(jié)果如圖:
?
?
最終分箱組件的輸出如圖,每個(gè)字段都被分箱到多個(gè)區(qū)間上:
?
(3)樣本穩(wěn)定指數(shù)PSI
樣本穩(wěn)定指數(shù)是衡量樣本變化所產(chǎn)生的偏移量的一種重要指標(biāo),通常用來(lái)衡量樣本的穩(wěn)定程度,比如樣本在兩個(gè)月份之間的變化是否穩(wěn)定。通常變量的PSI值在0.1以下表示變化不太顯著,在0.1到0.25之間表示有比較顯著的變化,大于0.25表示變量變化比較劇烈,需要特殊關(guān)注。
本案例中,可以綜合比較拆分前后以及分箱結(jié)果的樣本穩(wěn)定程度,返回每個(gè)特征的PSI數(shù)值:
?
(4)評(píng)分卡訓(xùn)練
評(píng)分卡訓(xùn)練的結(jié)果圖如下:
?
評(píng)分卡的精髓是將復(fù)雜的比較難理解的一些模型權(quán)重用符合業(yè)務(wù)標(biāo)準(zhǔn)的分?jǐn)?shù)表示。
- intercepy表示的是截距
- Unscaled是原始的權(quán)重值
- Scaled是分?jǐn)?shù)更改指標(biāo),比如對(duì)于pay_0這個(gè)特征,如果特征落在(-1,0]之間分?jǐn)?shù)就減29,如果特征落在(0,1]之間分?jǐn)?shù)就加上27.
- importance表示每個(gè)特征對(duì)于結(jié)果的影響大小,數(shù)值越大表示影響越大
(5)評(píng)分卡預(yù)測(cè)
展示每個(gè)預(yù)測(cè)結(jié)果的最終評(píng)分,在本案例中表示的是每個(gè)用戶的信用評(píng)分。
?
結(jié)論總結(jié)
基于用戶的信用卡消費(fèi)記錄,最終通過(guò)評(píng)分卡模型的訓(xùn)練,我們?cè)谠u(píng)分卡預(yù)測(cè)中可以拿到每個(gè)用戶的最終信用評(píng)分,這個(gè)評(píng)分可以應(yīng)用到其它的各種貸款或者金融相關(guān)的征信領(lǐng)域中去。評(píng)分卡相對(duì)于其他的模型的預(yù)測(cè)的優(yōu)勢(shì)是將計(jì)算結(jié)果權(quán)重直接沉淀成直觀的分?jǐn)?shù),通過(guò)這樣的評(píng)分看模型,可以快速的了解每個(gè)用戶的信用分,每個(gè)客服人員的服務(wù)評(píng)分,每個(gè)手機(jī)的測(cè)評(píng)分?jǐn)?shù)等等。
總結(jié)
以上是生活随笔為你收集整理的【采用】信用风险模型(申请评分、行为评分)与数据准备(违约期限、WOE转化)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【采用】风控模型评估方法以及大数据风控模
- 下一篇: 【采用】百度大规模知识图谱构建及智能应用