信贷评分卡
信貸評分卡
eryesanye 關注 2017.09.07 13:51* 字數 1858 閱讀 960評論 2喜歡 10年初的時候,我參考SAS評分卡指南整理了一份如何設計評分卡的文檔,后來請同事用 R語言重新寫了一遍。評分卡還有一個很高大上的名字,叫規則引擎。按說規則引擎要復雜得多,至少還要有模型性能評估與監測、模型管理等內容,但在國內,無論是監管部門還是信貸機構,對風控模型的管理要求都不高,所以很多信貸機構、特別是非銀信貸機構的規則引擎里,除了評分卡之外,就沒有其他內容了。
評分卡是什么樣子的?
摘自:http://www.sas.com/technologies/analytics/datamining/miner/trial/,下同 上圖是一個典型的貸前審批評分卡。
有三個特征:年齡、居住情況、收入。每個特征又分為若干個屬性,例如,居住情況有兩個屬性,自有房或租房。
如果一名新用戶來申請貸款,年齡35歲,收入38K,有房,對應的信用分數分別是210、225、225,加起來等于660。該信貸機構定義600以上授信,600以下不授信,因此該機構會給這名用戶授信。
那么,問題來了。。。
所以,評分卡設計圍繞三個問題開展:
- Attributes : 如何對年齡、收入這樣的連續變量進行分組?
- Score Points :有了分組的結果后,每個分組應該給多少信用分?
- Cut-off : 如何定義一個合適的授信門檻分數?
如何對變量進行分組?
這個問題有點難,為什么這么說呢?不同的分組方法會影響評分卡的性能,其中最重要的一個性能是,評分卡可以盡可能地拒絕潛在的違約申請者。
SAS 給變量分組起了一個很好聽的名字:Interactive Grouping Node (IGN),交互式分組節點。
在沒有科學分組之前,“機械式”分組方法是比較常用的做法,例如,年齡每隔10年分一組,收入每兩萬元為一組等等。但這種分組并沒有考慮對評分卡性能的影響。實際上,有些分組是可以合并的,而有些分組又必須得拆開。
例如,假設15歲~25歲區間的違約率和26歲~35歲區間的違約率相同,那為什么不合并為一個區間呢?收入1萬~3萬區間違約率在2萬5有一個突然的下降,那是不是在2萬5這個點重新分組比較合理呢?
于是,人們開始尋找解決辦法,設法建立變量分組和評分卡性能之間的關系。變量分組可以有無數種方案,哪一種方案最能改善評分卡性能呢?也就是說我們需要一種測量工具,幫助我們對每一種方案進行評估,然后確定最好的分組方案。
好在信息論領域給我們提供了一些很好的測量工具。例如:
- WOE:Weight of Evidence 證據權重值
- IV:Information Value 信息價值
- GINI:基尼系數
還有很多工具,例如熵指數等等。這里只講 WOE 和 IV,這也是 SAS 進行變量分組的默認工具。
WOE 公式、IV 公式舉例說明 WOE 和 IV 的計算:
21歲~24歲區間,有 82 個好用戶,在全部好用戶中占 82/700 = 0.11714,有 52 個壞用戶,在全部壞用戶中占 52/300 = 0.17333,那么WOE = ln (0.11714/0.17333) x 100 = -39.18,WOE 越小越好,表明這個分組可以更有效地識別出壞用戶。年齡的 IV 等于 0.089。IV 的標準如下:
IV 的標準并非絕對的計算 IV 的目的是保留對性能提升有幫助的變量,刪除影響較小的變量。如下圖所示。
然后才到了對變量進行分組的步驟,如下圖所示。
經過反復的精細分組,得到單調的WOE曲線,如下圖所示。
如何給變量分組賦分?
截止到變量分組,所有的工作都還是數據預處理,包括數據清洗、變量分組、特征工程等等,這些工作是極其重要的工作,SAS 的評分卡指南有41頁,其中27頁是描述數據預處理的,差不多占了67%的篇幅。
變量分組和信用分數之間是靠模型聯系在一起的,SAS 使用的是 Logistic 回歸模型,這是工業界常用的一種算法。以某信貸機構評分卡為例。
WOE、模型系數、Score之間的關系 我們千辛萬苦搞定變量分組,引入了能夠和評分卡性能提升扯上關系的 WOE,但我們發現這還不夠,還得引入模型,而模型的好壞又間接地影響了評分卡性能。
怎么評價模型好壞呢? 有很多工具可以評價模型好壞。例如杠桿比。如下圖所示。
如果模型有效,排序后的申請者中,一定百分位應該包含大部分需要被拒絕的用戶 或者觀察odds和信用得分的關系,如下圖所示。
我們解釋了變量分組問題,引入了 WOE,然后通過建模,解決了變量分組轉化為信用分數的問題。里面有很多細節,需要用到不同的工具。這里只講了 SAS 的作法,其實還有很多方法。我們來解決最后一個問題:
授信門檻分數(Cutoff Score)是怎么算出來的?
Cut-off Score 與 KS 之間的關系,通常選擇曲線最高點對應的 Cutoff -Score關于評分卡的討論
評分卡是舶來品,對信用基礎數據有一定要求,國內信用基礎數據建設剛剛起步,開發出一個可以應用的評分卡,還有很多困難,但設計思路大體一致,都是設法對申請人的還款能力和還款意愿進行定量評估。除了上面提到的算法,非監督算法、貝葉斯算法、深度學習算法等都可以用來開發評分卡。
除了要關注算法,還要關注業務和產品。不同產品的風險是不同的,例如,1000元以下現金貸和6000元以下現金貸的違約風險是不同的,不同獲客渠道的申請人違約風險是不同的。評分卡和模型都是風險測量工具,整個風控體系是由數個評分卡及相應的策略(新產品設計、審批、賬戶管理、催收、核銷)組合而成,維持各個環節的平衡并不是一件很容易的事情。
參考
http://www.sas.com/technologies/analytics/datamining/miner/trial/
http://www.statsoft.com/Textbook/Credit-Scoring
L. C. Thomas, Jonathan Crook, David Edelman, Lyn Thomas (2002) Credit Scoring & Its Applications
Building Credit Scoring Models with SAS ? Enterprise Miner
Anderson, R. The Credit Scoring Toolkit. Oxford University Press, 2007
總結
- 上一篇: 他用几个公式解释了现金贷业务的风控与运营
- 下一篇: 《Science》杂志:机器学习究竟将如