评分卡中的一些理论知识
? ? ? ?寫文章也一年多了,這一年的時(shí)間里一直在學(xué)習(xí)、總結(jié)、思考不停地反復(fù),逐漸從一個(gè)菜鳥到對(duì)這門技術(shù)慢慢有了自己的認(rèn)知。但是即便如此,我內(nèi)心還是深知自己不明白的東西有很多,依然有許多需要實(shí)踐和積累的。最近又回頭去看求是汪的文章,很多東西看一遍很容易遺忘,需要不停地反復(fù)閱讀、思考和總結(jié)。所以突然就有了寫這篇文章的想法,將評(píng)分卡中理論的東西整理一下,具體順序全憑自己的記憶和思路。目的也是為了重新夯實(shí)一下基礎(chǔ),讓自己的內(nèi)心感到更加踏實(shí)和安全。
?
一、評(píng)分卡的映射邏輯
? ? ? ?這個(gè)之前寫過(guò)邏輯回歸評(píng)分卡映射,具體細(xì)節(jié)不展開。一些重要的公式如下,這幾個(gè)公式是評(píng)分卡映射中的核心公式,后面會(huì)重復(fù)提到。
? ? ? 評(píng)分卡映射的邏輯中,需要對(duì)θ0(初始違約概率)、P0(初始分?jǐn)?shù))、PDO(翻番倍數(shù))作出假設(shè),這三個(gè)數(shù)值決定了評(píng)分轉(zhuǎn)化中的A和B的值。由此衍生出幾個(gè)問(wèn)題:
1.邏輯回歸輸出的y為什么可以表示違約概率?
? ? ? ?由上式4可以知道,邏輯回歸輸出的y就是p,這是表面上的原因。深層原因是,第4步的步驟其實(shí)是一個(gè)普拉托平滑,可以使輸出概率的分布是正態(tài)分布,這在評(píng)分卡校準(zhǔn)的時(shí)候會(huì)用到。而像xgb這些模型由于沒有做相關(guān)性篩選,入模變量相關(guān)性比較高,因此輸出概率分布一般服從長(zhǎng)尾分布(各種因素對(duì)結(jié)果的影響不是相加,而是相乘,那么最終結(jié)果不是正態(tài)分布,而是對(duì)數(shù)正態(tài)分布)。
?
2.邏輯回歸的系數(shù)的絕對(duì)值是否可以認(rèn)為是特征的重要性?
? ? ? 邏輯回歸系數(shù)的絕對(duì)值越大,說(shuō)明對(duì)分類效果的影響越顯著。但是因?yàn)楦淖冏兞康某叨染蜁?huì)改變系數(shù)的絕對(duì)值,而且如果特征之間是線性相關(guān)的,則系數(shù)可以從一個(gè)特征轉(zhuǎn)移到另一個(gè)特征。特征間相關(guān)性越高,用系數(shù)解釋變量的重要性就越不可靠。
?
3.不同客群的評(píng)分卡(邏輯回歸)為什么不用進(jìn)行校準(zhǔn)?
? ? ? 評(píng)分卡背后的實(shí)質(zhì)是score、ln(odds)、p之間的映射關(guān)系。如果同樣一個(gè)score對(duì)應(yīng)的p不一致時(shí),則需要對(duì)評(píng)分進(jìn)行校準(zhǔn)。而由(2)式可知,確定score和ln(odds)關(guān)系的是A和B。因此只需要θ0(初始違約概率)、P0(初始分?jǐn)?shù))、PDO(翻番倍數(shù))這三個(gè)值一致,那么評(píng)分卡分?jǐn)?shù)的尺度則是一樣的,無(wú)需進(jìn)行任何校準(zhǔn)。
? ? ? ?如果兩個(gè)邏輯回歸的分?jǐn)?shù)已經(jīng)采用了不同的θ0、P0、PDO,則需要再對(duì)這兩個(gè)分?jǐn)?shù)分別再進(jìn)行一次普拉托變換,則可以將分?jǐn)?shù)校準(zhǔn)至同一水平。
?
4.為什么邏輯回歸擬合出來(lái)的截距等于ln(odds)?
這個(gè)問(wèn)題在求是汪的文章中有給過(guò)推導(dǎo):
? ? ? 大致思路是ln(odds)是先驗(yàn)信息,隨著觀察信息的不斷加入,引起后驗(yàn)信息的變化,最終對(duì)群體的好壞評(píng)價(jià)越來(lái)越客觀。這種樸素貝葉斯的假設(shè)思想很重要,也就是上面第一步到第二步。為了解釋第一步到第二步的變化,可以看下面的例子:
? ? ? 以x為自有住房為例,f(x|G)表示在好人情況下x為自有住房的概率,也被稱為似然函數(shù),描述屬性向量有多大可能性落在好和壞的群體中。f(x|G)=570/900。
p(G|x)是條件概率,p(G|x)=570/600;
f(x)是x出現(xiàn)的概率,f(x)=600/1000;
p(G)是整體概率,p(G)=900/1000。
? ? ? 將上面四個(gè)值兩兩相乘,得到下式:
? ? ? ?對(duì)應(yīng)上面的公式則是:
f(x|G)*p(G)=p(G|x)*f(x)
f(x|B)*p(B)=p(B|x)*f(x)
? ? ? ?兩式相除得到:
? ? ? ?左邊的式子就是ln(odds),也就是上式中第一步到第二步的由來(lái)。
二、WOE與IV值的理解
? ? ? 可以參看WOE與IV指標(biāo)的深入理解應(yīng)用。
? ? ? WOE的兩種寫法可以對(duì)應(yīng)兩種理解:
? ? ? ?代表每個(gè)分箱里的壞人分布相對(duì)于好人分布之間的差異性;
? ? ? ?代表每個(gè)分箱里的壞好比(Odds)相對(duì)于總體的壞好比之間的差異性。
? ? ? 依然從樸素貝葉斯的角度來(lái)理解WOE,其中l(wèi)n(BadT/GoodT)表示先驗(yàn)項(xiàng),ln(Badi/Goodi)是后驗(yàn)項(xiàng),WOE表示根據(jù)觀測(cè)數(shù)據(jù)更新信息,這也是WOE叫作證據(jù)權(quán)重的原因,幫助修正先驗(yàn)知識(shí)的證據(jù)。
具體的推導(dǎo)過(guò)程如下:
關(guān)于WOE可以思考兩個(gè)問(wèn)題:
1.WOE曲線越陡是否越好?
? ? ? ?WOE曲線越陡,說(shuō)明變量?jī)上渲g的WOE差值越大。w是常數(shù),因此兩箱之間的ln(odds)之差也越大,相應(yīng)的兩箱之間的分差越大,也就是該變量的區(qū)分度很好。
?
2.WOE計(jì)算方法與邏輯回歸系數(shù)一致性的關(guān)系?
? ? ? 先說(shuō)結(jié)論:WOE用壞好比時(shí),要求邏輯回歸系數(shù)為正;WOE用好壞比時(shí),邏輯回歸系數(shù)為負(fù)。對(duì)邏輯回歸系數(shù)正負(fù)性要求是為了保證壞賬率與分?jǐn)?shù)之間的單調(diào)性關(guān)系。
? ? ? ?每個(gè)變量的分?jǐn)?shù)為-B*β*WOE,當(dāng)WOE用壞好比時(shí),壞樣本率越高,WOE值越大,而想要分?jǐn)?shù)越低,需要保證β為正數(shù);當(dāng)WOE為好壞比時(shí)正好相反。
?
3.IV值為什么具有預(yù)測(cè)能力?
? ? ? IV值的本質(zhì)是K-L距離,衡量好人分布與壞人分布的差異,IV值越大說(shuō)明好人分布與壞人分布的差異越大,因此IV值越大預(yù)測(cè)能力越強(qiáng)。
? ? ? ?類似的PSI也是K-L距離,衡量的是預(yù)期分布與實(shí)際分布之間的差異,PSI越大說(shuō)明實(shí)際分布與預(yù)期分布差異越大,變量越不穩(wěn)定。具體內(nèi)容可見相對(duì)熵與IV、PSI的關(guān)系
?
三、KS值的理解
? ? ? ?KS的公式為max(累計(jì)壞樣本比率-累計(jì)好樣本比率),可以理解為好壞距離或區(qū)分度的上限。比如KS為30%,其含義是在誤殺35%的好客戶的情況下攔截住65%的壞客戶。關(guān)于KS可以思考的問(wèn)題如下:
?
1.KS越高說(shuō)明模型越好嗎?
? ? ? 不是,KS值的高低與建模樣本中的壞樣本濃占比相關(guān),想提升KS的方法有很多,最直觀的一個(gè)就是增大Y樣本中的濃度,比如選取不同的Y,壞樣本的濃度就會(huì)不一樣。此外,KS的高低與策略的松緊有關(guān),策略比較松,放進(jìn)來(lái)的壞客戶就較多,KS就會(huì)高。
?
2.在不同cutoff內(nèi)取到max時(shí),模型性能有什么差異?
? ? ? 假設(shè)KS值都為30%,也就是誤殺35%的好客戶的情況下攔截住65%的壞客戶。不同的cutoff內(nèi)取到max說(shuō)明達(dá)到同樣的攔截效果,通過(guò)率不同,通俗地說(shuō),一個(gè)可能在80%通過(guò)率的時(shí)候就達(dá)到攔截效果,而另一個(gè)在50%通過(guò)率才達(dá)到同樣的效果。高通過(guò)率的說(shuō)明模型低分段的濃度很高比低通過(guò)率時(shí)要高,即低分段的識(shí)別能力更強(qiáng)。
?
3.模型上線后的KS不斷衰減的原因?
? ? ? 模型訓(xùn)練時(shí)的KS是基于全量通過(guò)樣本的,上線后會(huì)切一刀,高于一定分?jǐn)?shù)的樣本才能進(jìn)來(lái),因此上線后的KS一般是會(huì)比訓(xùn)練時(shí)的KS低。此外,策略調(diào)整、客群變化都會(huì)導(dǎo)致KS的衰減。
? ? ? ?關(guān)于評(píng)分卡中常用到的理論推導(dǎo),大概就想到了這么多,理論終究是理論,還有很多東西需要在業(yè)務(wù)實(shí)踐中去驗(yàn)證和領(lǐng)悟,繼續(xù)堅(jiān)持學(xué)習(xí)、積累、成長(zhǎng)。
"那些波瀾不驚的日復(fù)一日,總有一天會(huì)讓你看到堅(jiān)持的意義"
【作者】:Labryant
【原創(chuàng)公眾號(hào)】:風(fēng)控獵人
【簡(jiǎn)介】:做一個(gè)有規(guī)劃的長(zhǎng)期主義者。
【轉(zhuǎn)載說(shuō)明】:轉(zhuǎn)載請(qǐng)說(shuō)明出處,謝謝合作!~
?
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的评分卡中的一些理论知识的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。