【待继续研究】解析信用评分模型的开发流程及检验标准(晕乎乎,看不懂~)
評分模型的檢驗方法和標準通常有:K-S指標、交換曲線、AR值、Gini數等。例如,K-S指標是用來衡量驗證結果是否優于期望值,具體標準為:如果K-S大于40%,模型具有較好的預測功能,發展的模型具有成功的應用價值。K-S值越大,表示評分模型能夠將“好客戶”、“壞客戶”區分開來的程度越大。
評分模型的檢驗方法和標準通常有:K-S指標、交換曲線、AR值、Gini數等。例如,K-S指標是用來衡量驗證結果是否優于期望值,具體標準為:如果K-S大于40%,模型具有較好的預測功能,發展的模型具有成功的應用價值。K-S值越大,表示評分模型能夠將“好客戶”、“壞客戶”區分開來的程度越大。
例如,K-S指標是用來衡量驗證結果是否優于期望值,具體標準為:如果K-S大于40%,模型具有較好的預測功能,發展的模型具有成功的應用價值。K-S值越大,表示評分模型能夠將“好客戶”、“壞客戶”區分開來的程度越大。
信用評分模型介紹(一)
2016-08-28?蔣靚?Larry?Jiang?Larry的風險模型分享與探討
引言:對于信用評分模型,很多朋友或多或少有所了解,這里做一般性的介紹,并分享自己的多年從業經驗。這邊短文主要包括:信用評分模型,自變量的生成、篩選、分檔和轉換,及常用有監督學習模型。
信用評分模型
信用評分模型是一種有監督的學習模型(Supervised Learning),數據由一群自變量X和對應的因變量y構成。傳統零售信用模型中,X大致分為客戶的基本信息(年齡、性別、職業、學位等),財務信息(收入,每月生活消費,每月信貸還款額等),產品信息(LTV,信用卡類別,個人貸款用途等),征信信息(前6個月被查詢次數,前6個信用卡最大利用率,未結清貸款數等);而一般取值0-1因變量y可以定義為在未來12個月是否出現欠款90天等.
經驗備注:在大數據下,很多互聯網公司對個人的評估不再局限于以上幾種信息,而是根據更為廣泛的數據源對個人進行更全面的刻畫,故有稱之為客戶畫像。數據維度會考慮個人在社會上留下的任何數據,如手機使用行為,理財行為,社交圈,網購行為,旅游行為等等等等。大家的各方面數據其實都在被不同的公司和不同的APP收集。。。
自變量的生成
自變量是信用風險的來源,除了考慮直接收集的變量,信用評分建模過程中往往需要建模人員產生更多的衍生變量。這部分工作要分析人員的直覺、長期經驗的積累和數據挖掘技術的應用。大家可以通過京東和支付寶的評分一窺其自變量的維度:芝麻信用分為5個維度:身份特質,履約能力,信用歷史,人脈關系,行為偏好;小白信用分也分為5個維度:身份,資產,關系,履約,偏好。
經驗備注:現在越來越多的模型技術被應用于信用模型,但是個人覺得無論高級模型還是初級模型,最為重要的是更廣泛的數據和產生更多更具有預測能力的自變量。
自變量的篩選
自變量一旦豐富了起來,就涉及到有效變量的篩選,大致可根據一下幾個原則或方法:變量的直觀意義(是否跟y有關),變量的單調性或合理性,未來是否可以獲取以便模型可實施,變量的區分能力(IV),變量間相關性(變量聚類),變量缺失率,分檔之后的穩定性等等。
經驗備注:對于區分能力太強的變量,或缺失率很大的變量,不建議直接放入模型,可以考慮做成規則或者做成最后模型的調整。在大數據下,人們經常強調自變量與因變量的相關關系,應用于精準性要求不高的營銷模型問題不大。而對于精準度要求極高的信用評分模型,相關關系的應用值得推敲。?
自變量分檔和轉換
為了保持模型的穩定性,信用模型一般對自變量進行分檔,比如根據風險不同把年齡分成幾檔。這樣每檔需要一個值來代表這段的自變量輸入,這就是變量的轉換,常見的有WOE和Logit轉換。通過轉換后不僅實現了穩定性要求,也克服不同變量間刻度不統一的問題,還克服回歸中缺失值的填充問題。
經驗備注:如果分檔過粗糙,不但會降低單個變量的預測能力,也會造成最終評分集中度過高的問題。
解決方法:可以考慮每檔用線性插值來代替常數,也可以尋找更多能區分分數集中樣本的自變量放入模型。?
有監督學習模型介紹
目前比較流行的模型主要有以下幾種(以后分享會逐一介紹):
Logistic 回歸(Logistic Regression)
決策樹(Decision Tree)
支持向量機(Support Vector Machine)
人工神經網絡(Artificial Neural Network)?
生存分析模型(Survival Analysis Model)
經驗備注:除此上述之外,還有些高級方法或算法:集成方法(Ensemble Method)(例如隨機森林(Random Forrest),Boosting,AdaBoost),深度學習方法(Deep Learning),隨機梯度下降算法(Stochastic Gradient Descent)等。
?
信用評分及實現
1、何為信用評級?
首先,何為“信用”?俗話“有借有還”從道德上對信用進行了定義,然后銀行與其客戶之間“借貸”的關系,往往較為復雜。通常,銀行需要全方位、多角度地去評價客戶,確認客戶的“信用”,才能放心地把錢“借”出去。
我們都熟悉支付寶芝麻信用分,它是通過采集個人用戶信息,經過加工、計算得出用戶的信用得分,當然,分數越高代表信用越好。
?
這幾個維度包含了用戶個人基本信息、好友互動信息、信用賬戶情況及履約歷史、購物及理財等行為偏好等多項內容,通過大數據技術,最終以分數值的形式,形成對用戶信用的準確評價。這就是信用評級。
隨著數學和統計技術在傳統金融行業的廣泛應用和推廣,銀行業也采用了“定量”的形式,多角度分析、判斷不同客戶的不同的信用等級,從而來決定客戶可獲取的授信額度、首付額度或利率優惠程度等,以科學手段準確地計量客戶的“信用”,從而避免因借貸雙方信息不一致而引發的信用風險損失。
2、信用評級的基礎:數據
現如今,早已不是撥打算盤手工記賬的年代,社會上任何活動都拖離不了信息系統,當然,這些信息系統中,也無時不刻地記錄著你的所有行蹤,這就是所謂的“數據”。對這些數據的存儲、清洗、加工,都為銀行對客戶信用評級提供了健全、豐富的信息來源;基于此,銀行以大數據技術進行分析和計算,從而準確地對客戶進行信用評價。
銀行進行客戶信用評級的數據來源于銀行內部系統產生的數據或外部的數據,如圖示:
?
內部數據
從客戶的第一次開戶開始,其與銀行的每一次交互都將銀行的信息系統留存,例如存款、轉賬、還信用卡、還貸、銷戶或購買理財等,每一次活動的時間、方式、地點、賬戶、金額、交易對象等等,都完整的保存在銀行的數據庫中。這些積累的數據,是銀行非常寶貴的資產。與客戶評級相關的數據,通常包括以下幾個方面:
1)客戶基本數據:銀行通過不同形式、不同時間、不同地點所記錄的客戶名稱、證件編號、聯系方式、營收情況、學歷、就業情況、客戶關聯人信息等;
2)貸款或信用卡賬戶信息:包括賬戶號碼、余額、開銷戶時間、額度、額度調整歷史等;
3)交易歷史:即貸款放款、還款計劃及實際還款、現金提取、信用卡刷卡、還卡、換卡等各類事件的具體時間、地點、方式等詳細記錄;
4)擔保信息:即貸款抵押物基本信息、估值或評級信息,擔保人信息等。
除上述外,信用卡或貸款產品的營銷活動等數據,也與客戶評級有關。
外部數據
外部數據來源廣泛,以人行征信數據為例,其包含了客戶基本信息,如姓名、性別、證件編號、婚姻情況、聯系方式、住址等等;借款人的信用歷史,如逾期情況、貸款尚未結清信息、擔保信息、異常交易信息等;還有一些個人非銀行信息,如住房公積金信息、社保信息等。
目前,各家銀行都已經建立ODS或數據倉庫等數據平臺,其包含的信息能滿足銀行各條線的業務需要,為開展各類管理、經營決策的提供數據基礎。然而,客戶信用評級數據作為數據平臺的一部分,通常混合于其他數據之中,因此,有必要僅針對信用風險管理或信用評級的需要,面向信用風險管理應用開發,單獨建立信用風險數據集市。
?
數據來源于各類生產、業務系統,經由數據倉庫,進入信用風險數據集市中。風險數據集市則按照上層應用的需要,進行數據的整合和存儲。一般來說,信用風險相關的數據經過拆分、拼裝或重組,以主題的形式存儲在信用風險數據集市中。通常,包含以下幾個主題:
?
3、信用評分的實現:模型開發
數據挖掘是從大量的、有噪音的數據中,發現潛在的規律和價值,以輔助提高管理、決策能力。銀行通過對外部數據及信貸等業務中產生的數據進行提煉、分析,開發模型,對客戶進行信用評分,以服務于信貸管理,增強風險控制能力。
第一步:樣本抽取
銀行積累的客戶評級相關的數據量極其龐大,出于數據處理速度及模型開發效率的考慮,通常抽取一定量的數據作為樣本,開發模型。常用的樣本選擇方式有兩種,隨機抽樣和分類抽樣。隨機抽樣較為交單,即隨機選擇樣本,認為樣本可以代表整體情況。例如,總貸款賬戶數是5000,不良貸款賬戶數是100,占比1/50;那么隨機抽取100個貸款賬戶,其中包含2個不良貸款賬戶。而分類抽樣,則需要先分類,確認各類樣本的數據量,再分別進行隨機抽樣。例如上述例子中的賬戶樣本選擇,首先據擔保情況進行分類,有無擔保比例分別為3:2,則再分別隨機抽取60個有擔保的不良貸款賬戶和40個無擔保的不良貸款記錄。
當然,以上僅為示例,實際情況卻往往復雜很多。
第二步:變量選擇
明確因變量和自變量。其中因變量為表現變量,即模型的結果“客戶信用情況”;自變量為與之相關的因素,它的預測能力決定于它與因變量之間相關關系和邏輯因果關系。通常,與信用等級相關的因素包含客戶的學歷、工資、年齡、額度使用情況、現金提取次數、還款時間等。
第三步:模型分組
模型分組的意義在于區分不同行為模型和數理關系,以提高模型預測的精準度。例如,學生和在職人員的還款能力是有差異的,但是某類自變量和壞賬率的表現上,趨勢十分相似,所以講模型分組,將避免相互之間的模型因素的干擾和影響。
第四步:模型設計
影響模型結果的變量非常復雜,因此需要根據單個變量的實際預測能力進行篩選,剔除沒有預測能力的變量,以縮小變量的范圍。
常見的模型算法有線性回歸分析、非線性回歸分析、邏輯回歸模型、神經網絡模型、決策樹模型等。在實際的模型選擇過程中,需根據模型性質、分析人員經驗等多方面因素綜合考量。
第五步:模型檢驗
模型檢驗,在于衡量開發的信用評分模型能力。常用的檢驗報告有以下幾類:
其中,前三者表現的效果為:“評分越高,則好賬戶出現的越多”;而擬合度曲線,則用于對比預測情況與實際情況差異。
寫在最后
信用評分對銀行的經營效益有著重要的作用,信用評分模型應用效果,很大程度上也取決于銀行的內部管理及信貸政策。技術和管理相結合,雙管齊下,一定是控制客戶信用風險的最優方案。
總結
以上是生活随笔為你收集整理的【待继续研究】解析信用评分模型的开发流程及检验标准(晕乎乎,看不懂~)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 评分卡建模—拒绝推断
- 下一篇: 评分卡开发方法论scorecard