逻辑回归评分卡分数映射
本文轉自https://github.com/xsj0609/data_science/tree/master/ScoreCard
一、評分卡邏輯
? 信貸業務評估的是客戶的客戶違約率(Percent of Default)即PD,是[0,1]的概率,比如2%即100個客戶中有2個違約,簡稱為p。
? 評分卡中不直接用客戶違約率p,而是用違約概率與正常概率的比值,稱為Odds,即
Odds=p1?pOdds=\frac{p}{1-p}Odds=1?pp?
p=Odds1+Oddsp=\frac{Odds}{1+Odds}p=1+OddsOdds?
? 評分卡的背后邏輯是Odds的變動與評分變動的映射(把Odds映射為評分),分值是根據Odds的前提條件算出來的,不是人工取的。以單個客戶在整張評分卡的得分的變動(比如評分從50分上升到70分)來反映Odds的變動(比如Odds從5%下降至1.25%),以及背后相對應的客戶違約率PD的變動(比如從4.8%下降到1.2%)。違約率PD不直觀、業務看起來不方便、不便計算,而評分就很直觀、便于計算。如圖所示。
二、評分映射公式
? Odds映射為評分的公式為:
Score=A?Blog(p1?p)Score=A-Blog(\frac{p}{1-p})Score=A?Blog(1?pp?)
<1> 預設條件
? 要算出系數A、B的話,需要從業務角度先預設兩個前提條件:
解釋:
<2> 求解A、B
? 設定好θ0θ_0θ0?、P0P_0P0?、PDO后,聯動變化為:Odds(θ0θ_0θ0?)對應的分值為P0P_0P0?,且翻番的Odds(2θ02θ_02θ0?)對應的分值為P0P_0P0?+PDO。則有以下兩式:
P0=A?Blog(θ0)P_0=A-Blog(θ_0)P0?=A?Blog(θ0?)
P0+PDO=A?Blog(2θ0)P_0+PDO=A-Blog(2θ_0)P0?+PDO=A?Blog(2θ0?)
解出A、B為:
B=PDOlog(2)B=\frac{PDO}{log(2)}B=log(2)PDO?
A=P0+Blog(θ0)A=P_0+Blog(θ_0)A=P0?+Blog(θ0?)
按上面的解釋舉個例子:
設θ_0、P_0、PDO為5%、50分、10分,則
B=10ln(2)=14.43B=\frac{10}{ln(2)}=14.43B=ln(2)10?=14.43
A=50+14.43?ln(0.05)=6.78A=50+14.43*ln(0.05)=6.78A=50+14.43?ln(0.05)=6.78
則
Score=6.78?14.43?log(p1?p)Score=6.78-14.43*log(\frac{p}{1-p})Score=6.78?14.43?log(1?pp?)
<3> 完整的對應關系表
? 按照公式,可以把所有Odds(p1?p\frac{p}{1-p}1?pp?)和客戶評分、客戶違約概率(PD)的對應關系算出來
? 該關系對應表應該算信用評分卡的核心思想了,評分是外層表現,客戶違約率是內層核心,Odds是中間層轉換計算
三、Odds映射X變量
log(p1?p)=β0+β1x1+β2x2+...++βnxnlog(\frac{p}{1-p})=β_0+β_1x_1+β_2x_2+...++β_nx_nlog(1?pp?)=β0?+β1?x1?+β2?x2?+...++βn?xn?
即
p=11+e?βTxp=\frac{1}{1+e^-β^Tx}p=1+e?βTx1?
? 這樣就可以根據變量x和系數的的值計算出違約概率p了。
四、X變量細分到分組
? 我們要做的是分組評分卡,X是要對應到每個分組,得到各變量分組的評分然后相加得到客戶總評分的,那就還需要將X打散到各分類(用離散型數據入邏輯回歸模型)。因此這里的輸入X就不能是原始變量,而是原始變量分箱并算WOE后的woe值(類似離散變量中各類別的數值化),即:
Score=A?B[β0+β1(δ11w11+δ12w12+δ13w13)+β2(δ21w21+δ22w22+δ23w23+δ24w24)+...+βn(δn1wn1+δn2wn2]Score=A-B[β_0+β_1(δ_{11}w_{11}+δ_{12}w_{12}+δ_{13}w_{13})+β_2(δ_{21}w_{21}+δ_{22}w_{22}+δ_{23}w_{23}+δ_{24}w_{24})+...+β_n(δ_{n1}w_{n1}+δ_{n2}w_{n2}]Score=A?B[β0?+β1?(δ11?w11?+δ12?w12?+δ13?w13?)+β2?(δ21?w21?+δ22?w22?+δ23?w23?+δ24?w24?)+...+βn?(δn1?wn1?+δn2?wn2?]
? 假設類別型變量x1x_1x1?、x2x_2x2?、x3x_3x3?分別有3、4、2個分類(數值型變量先分箱成類別型變量) δijδ_{ij}δij?代表第i個變量的第j個分類,客戶數據參與評分時,某個變量x只會有1個數,只會對應一個分類。比如,變量x1x_1x1?的取值是第2個分類的話,那δ12δ_{12}δ12?為1,則第二個分類的woew12w_12w1?2值生效,x1x_1x1?的其他兩個δδδ則為0,對應的其他兩個分類的woe值無效不參與計算。
五、生成評分卡
? 將上面的公式變下形式,變成最終可以組成評分卡的樣式
? A、B已經算出,βββ是邏輯回歸模型的輸出系數,β0β_0β0?是邏輯回歸模型的輸出截距項,w是分箱后的woe值。至此評分卡就可以生成了。
【作者】:Labryant
【原創公眾號】:風控獵人
【簡介】:某創業公司策略分析師,積極上進,努力提升。乾坤未定,你我都是黑馬。
【轉載說明】:轉載請說明出處,謝謝合作!~
總結
以上是生活随笔為你收集整理的逻辑回归评分卡分数映射的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 逻辑回归评分卡实现和评估
- 下一篇: 特征工程(上)