【采用】风控模型评估方法以及大数据风控模型概念
更新一下有效性指標中的區分能力指標:
KS(Kolmogorov-Smirnov):KS用于模型風險區分能力進行評估,指標衡量的是好壞樣本累計分部之間的差值。好壞樣本累計差異越大,KS指標越大,那么模型的風險區分能力越強。
KS的計算步驟如下:
1. 計算每個評分區間的好壞賬戶數。
2. 計算每個評分區間的累計好賬戶數占總好賬戶數比率(good%)和累計壞賬戶數占總壞賬戶數比率(bad%)。
3. 計算每個評分區間累計壞賬戶占比與累計好賬戶占比差的絕對值(累計good%-累計bad%),然后對這些絕對值取最大值即得此評分卡的K-S值。
<img src="https://pic3.zhimg.com/50/v2-9ecc262b573c05e4e68dbc00596da79e_hd.png" data-rawwidth="457" data-rawheight="328" class="origin_image zh-lightbox-thumb" width="457" data-original="https://pic3.zhimg.com/v2-9ecc262b573c05e4e68dbc00596da79e_r.png"/</noscript alt="">
?
·GINI系數:也是用于模型風險區分能力進行評估。GINI統計值衡量壞賬戶數在好賬戶數上的的累積分布與隨機分布曲線之間的面積,好賬戶與壞賬戶分布之間的差異越大,GINI指標越高,表明模型的風險區分能力越強。
GINI系數的計算步驟如下:
1. 計算每個評分區間的好壞賬戶數。
2. 計算每個評分區間的累計好賬戶數占總好賬戶數比率(累計good%)和累計壞賬戶數占總壞賬戶數比率(累計bad%)。
3. 按照累計好賬戶占比和累計壞賬戶占比得出下圖所示曲線ADC。
4. 計算出圖中陰影部分面積,陰影面積占直角三角形ABC面積的百分比,即為GINI系數。
?
以下是原文
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
樓主范圍太廣。不同的行業有不同的風控目標,不同的風控過程和程度,也有不同的風控結果。其次同一行業風險也分多種風險,對不同的風險(信用風險,操作風險,市場風險)也有不同的應對辦法以及模型建設。
?
只講一講中國金融行業中的銀行的信用風控與大數據的淵源。
?
1,風控意義與大數據建模分析優點:中國的金融行業必定在金融全球化的洗禮下一步步找到更大市場,相比中國制造業有成長更快的趨勢。而此刻,風控就顯得尤為重要。都知道收益越大風險越大,當然而我們更想的如果是在中間找到一個平衡點讓收益大的情況下擁有盡可能小的風險。而大數據建模就可以盡可能實現這點:提高審批效率,降低人工成本,減少因非客觀判斷原因造成的失誤的風險。
?
2,大數據建模目標。第一點目標做信貸工廠的量化建設:清洗銀行歷史數據用于數據建模形成評分卡,再與規則結合對貸款生命周期三個階段(申請貸后催收)的好壞客戶提供決策建議的預測框架(自動通過,人工審核,審慎審核,還是建議拒絕)。第二點目標內評合規:背景是巴塞爾協議:衡量銀行的資本充足率和資本準備是符合巴塞爾協議的規定,如果不符合應該采取什么樣的措施。
?
3,關于建模:前:建模的變量以及數據都是通過層層原始分析,挖掘分析,變量分組,變量降維,過度擬合VIF檢測,以及業務邏輯選擇出來的。中:而模型的建設本來有方差分析,相關性分析,邏輯回歸,決策樹,神經網絡分析這幾種。但是由于Y變量都一般為非線性所以基本都用LOGISTIC邏輯回歸。后:模型建好后還需要用PSI檢驗模型客群的穩定性,用KS或者GINI函數檢驗模型的區分能力。(公式我就不給啦~感興趣的孩子肯定有自己學習的方式)如果不太理想就再改進,這是一個做循環的閉環式過程直到選到最佳的。(PS:建模工具:SAS,由于可以處理相當龐大的數據且在美國極其權威的認證而著稱的。別的我就不評價了嘿)
?
4,好的信用風控的評估效果一主要從準確性,穩定性,可解釋性三個方面來評估模型。其中準確性指標包括感受性曲線下面積(ROC_AUC)和區分度指標(Kolmogorov-Smirnov,KS),穩定性指標主要參考群體穩定指數(Population Shift Index,PSI)??山忉屝钥赏ㄟ^指標重要度來進行評估,其中指標重要度用于衡量各個解釋變量對算法預測結果影響的程度。注意:一定要將大數據建模與業務邏輯緊密聯系!
分割線----------------------------------------------------------當然,個人覺得知道模型背后的理論也是非常有必要的。讓我們順著邏輯回歸來講。一首先是假設檢驗中假設建立。什么是假設檢驗呢,假設檢驗背后的原理是什么呢,我們模型中具體的假設是什么呢。
假設檢驗分為原假設H和備擇假設H0,我們后面會推翻H來證明我們的H0是正確的。
假設檢驗的原理也就是我們要推翻的這個H的理由是:小概率事件不可能發生。(在此我舉一個經典的例子)
在模型中我們的假設便是我們邏輯回歸的因變量和自變量之間沒有線性關系。
也就是這里面的beta們都是0。
二,never say yes.在原假設正確的前提下,確定檢驗統計數并計算出統計數的估計值(即構造統計量并計算統計量的估計值)
一般我們會把統計量構造成符合正態分布、卡方分布、F分布的情況,由構造的統計量不同可分為u檢驗、卡方檢驗、F檢驗等。
這里我們以卡方分布統計量為例子:
在各種假設情形下,實際頻數與理論頻數偏離的總和即為卡方值,它近似服從卡方為V的卡方分布,因此可以用卡方分布的理論來進行假設檢驗。
?
三、計算P值,或確定臨界值,并比較臨界值與統計數值的大小,根據”小概率事件在一次實驗中幾乎是不可能發生的原理“得出結論統計結果分析
顯著性水平:這里的顯著是一個統計學的概念,是指原假設發生是一個小概率事件,統計學上用來確定或否定原假設為小概率事件的概率標準叫做顯著性水平。原假設發生的概率如果小于或等于5%,一般認為認為是小概率事件,這也是統計學上達到了”顯著“,這時的顯著性水平為5%。
拒絕域:當由樣本計算的統計量落入該區域內則拒絕原假設,接受備擇假設,拒絕域的邊界稱為臨界值。當原假設正確時,它被拒絕的概率不得超過給定的顯著性水平a(阿爾法),阿爾法通常取值為0.05,0.01,因此落在拒絕域內是一個小概率事件。
還是以卡方檢驗為例
以下是卡方分布的密度函數,X軸是卡方值,Y軸是發生的P概率。
換句簡單易懂的話就是,我們計算實際頻數與理論頻數的偏離程度即卡方值非常大的情況下概率是非常小的是不會發生的,當X2卡方值遠遠大于3.84,相應的我們X軸遠方對應的就是越來越小的P概率。那么也就是說我們的假設是不成立的,也就是說因變量和自變量之間他們是相關的。并且在原假設情況下卡方值越大也就代表越不可能不相關,也就是越可能相關。
當然在確定檢驗我們單個系數的時候會用來卡方檢驗,整個模型的檢驗的時候就會用到我們F檢驗,T檢驗,他們都和我們的卡方有一定的聯系。
?
?
Logistic制作評分卡模型的衡量標準是K-S值的大小,依據數據質量和建模能力在0-0.5之間,一般在0.3以上才可用,好的模型可以達到0.35。
芝麻分模型的K-S值在0.32左右。
總結
以上是生活随笔為你收集整理的【采用】风控模型评估方法以及大数据风控模型概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【采用】信用评分卡模型-数据缺失值处理
- 下一篇: 【采用】信用风险模型(申请评分、行为评分