评分卡实战中的几个问题
? 最近在做催收評(píng)分卡中的滾動(dòng)率模型,在變量篩選這一步遇到了一些困惑,思考了很多覺得很有意義,有必要分享一下。如有理解不當(dāng)之處還望多多指正。
? 第一個(gè)問題是關(guān)于邏輯回歸中系數(shù)為正的檢驗(yàn)。先附上代碼:
? 是不是一定要做這一步檢驗(yàn)?zāi)?#xff1f;經(jīng)過一下午的思考和排查發(fā)現(xiàn)還是必須要的,下面慢慢解釋原因。
? 首先回到WOE的計(jì)算上面,看一下bad_rate和WOE值的關(guān)系。
? 結(jié)論就是某一箱的bad_rate越高,相應(yīng)的WOE值也就越大。我觀察了下所有箱的bad_rate和woe值確實(shí)是單調(diào)的。
然后再看一下每一箱的評(píng)分映射邏輯:
? 簡(jiǎn)單說,就是每一箱的得分等于,
scorei=?B?C?WOEiscore_i=-B*C*WOE_iscorei?=?B?C?WOEi?
? 這里的B在評(píng)分卡映射中提到過,等于PDO/log(2),所以是個(gè)正數(shù)。
再回到每一個(gè)變量,解釋一下每個(gè)變量的得分情況:一個(gè)變量各個(gè)分箱的bad_rate越高,相應(yīng)的WOE就越大,對(duì)應(yīng)的分?jǐn)?shù)應(yīng)該越低。也就是?B?C?WOEi-B*C*WOE_i?B?C?WOEi?越低。那么C乘B的符號(hào)就需要為正,否則就會(huì)出現(xiàn)bad_rate越高,分?jǐn)?shù)也越高的情況。所以C的符號(hào)應(yīng)為正。
? 這里的前提是以分?jǐn)?shù)越高,違約概率越低來考量的。
? 所以結(jié)論就是,之所以要求系數(shù)為正,是為了便于解釋評(píng)分卡單變量的得分。只有系數(shù)為正,才能對(duì)壞樣本率高的箱賦予較低的得分。
? 第二個(gè)問題就是評(píng)分卡變量的顯著性檢驗(yàn)。附上代碼。
# 顯著性篩選,在篩選前需要做woe轉(zhuǎn)換 def forward_delete_pvalue(x_train,y_train):"""x_train -- x訓(xùn)練集y_train -- y訓(xùn)練集return :顯著性篩選后的變量"""col_list = list(x_train.columns)pvalues_col=[]for col in col_list:pvalues_col.append(col)x_train2 = sm.add_constant(x_train.loc[:,pvalues_col])sm_lr = sm.Logit(y_train,x_train2)sm_lr = sm_lr.fit()for i,j in zip(sm_lr.pvalues.index[1:],sm_lr.pvalues.values[1:]): if j>=0.05:pvalues_col.remove(i)x_new_train = x_train.loc[:,pvalues_col]x_new_train2 = sm.add_constant(x_new_train)lr = sm.Logit(y_train,x_new_train2)lr = lr.fit()print(lr.summary2())return pvalues_col? 特意去翻了一下筆記,關(guān)于一元線性回歸的顯著性檢驗(yàn)。
? 分為F檢驗(yàn)和T檢驗(yàn)。F檢驗(yàn)用來檢驗(yàn)總體回歸關(guān)系的顯著性,T檢驗(yàn)用來檢驗(yàn)各個(gè)回歸系數(shù)的顯著性。
? 在變量篩選中,相關(guān)性剔除是一定要做的,相關(guān)性的檢驗(yàn)就是去除變量之間的線性相關(guān)關(guān)系。相關(guān)系數(shù)小,只能說明變量之間無線性相關(guān)關(guān)系,但是仍有可能存在非線性相關(guān)的關(guān)系。
? 所以,是不是一定要進(jìn)行顯著性檢驗(yàn),并不是。但是相關(guān)性檢驗(yàn)一定是需要的。
第三個(gè)問題就是強(qiáng)變量是否應(yīng)該入模。
? 以評(píng)分卡為例,強(qiáng)變量的意思就是IV值很高,單箱的WOE值也很高。這種情況下其實(shí)可以將這一箱單獨(dú)作為一條策略。當(dāng)單箱的WOE值大于1的時(shí)候,可以推導(dǎo)一下壞樣本率。
? WOE值大于1的時(shí)候,壞樣本率大于12.4%。之前看到說應(yīng)該是65%,這里留下疑問。如果有錯(cuò)誤歡迎私信我。
再附上一個(gè)關(guān)于強(qiáng)變量是否應(yīng)該作為入模變量的文章,可以思考一下。
評(píng)分卡強(qiáng)變量是否應(yīng)該入模
【作者】:Labryant
【原創(chuàng)公眾號(hào)】:風(fēng)控獵人
【簡(jiǎn)介】:某創(chuàng)業(yè)公司策略分析師,積極上進(jìn),努力提升。乾坤未定,你我都是黑馬。
【轉(zhuǎn)載說明】:轉(zhuǎn)載請(qǐng)說明出處,謝謝合作!~
總結(jié)
以上是生活随笔為你收集整理的评分卡实战中的几个问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从0到1建立一张评分卡之模型建立
- 下一篇: Xgboost简易入门教程