《大数据》2015年第2期“动态”——大数据发现银行贷款风险
大數據發現銀行貸款風險
曾偉1,孔新川2,陳威1,周濤1
1.電子科技大學 2.杭州邁寧數據科技有限公司
doi:10.11959/j.issn.2096-0271.2015024
Uncovering the Risk in Bank Loans by Big Data
最近幾年,大數據的商業化應用開始逐步落地[1],其中,金融方面的大數據應用是被投資人最看好的大數據產業化方向,在個人征信、企業征信、客戶畫像與精準營銷等方面都有成熟的應用。例如花旗銀行通過挖掘信用卡數據,實現交叉營銷。當客戶每次刷卡時,銀行根據時間、地點以及過往的購物記錄,篩選并推送給客戶周邊商店、餐廳的折扣優惠,從而獲得第二次交易價值。富國銀行運用大數據識別欺詐行為,通過研究客戶之間發生的歷史交易,檢測是否存在背離常規操作模式的資金異動,通過綜合觀察多個數據來源,總結出用戶典型的交易習慣,實現實時的可疑交易甄別。在國內,許多商業銀行也在大數據領域不斷地探索和嘗試,例如中國銀行的“中銀沃金融”利用大數據技術,整合電商平臺共享數據、征信數據以及客戶經理面談獲取的信息,利用授信審批模型實現自動審批。本文介紹大數據在金融風險管理方面的實際案例。對于以銀行為代表的金融機構而言,風險管理貫穿它們的全業務過程,越早發現風險越早采取措施,風險管理的成本越低,給金融機構帶來的損失越小。
貸款的風險管理對于傳統銀行業和新興的互聯網金融行業都起著至關重要的作用。不良資產問題長期困擾著國有銀行,成為國有銀行面臨的主要金融風險,直接威脅國有銀行的生存和發展。根據銀監會對外公開報告,為改善資產質量,我國政府于1999年和2000年為四大國有商業銀行分別成立資產管理公司,剝離不良資產1.3萬億元,使其不良貸款比率平均下降10個百分點。但是,進行資產剝離只能緩解已有不良貸款帶來的沖擊,剝離后的不良貸款比率仍然遠高于中國人民銀行的監管水平。對于互聯網金融企業,尤其是通過P2P或者分期付款等方式,以高息貸款為實質性業務的企業,風險的控制是成敗的關鍵。無論線上有多大流量,每月有多少流水,風險投資有多大規模,如果貸款違約率控制不了,最終都必然走向失敗[2]。因此,建立和完善風險管理體系,提高自身的風險管理水平和管理效率,是商業銀行和互聯網金融企業持續發展的重要基礎。
一方面隨著貸款客戶數量的增多(來源于個人信用貸款和中小微企業貸款數量的增長),傳統的人工管理手段(如業務經理管理自己的客戶)已經無法滿足目前風險管理在成本和效率上的需求;另一方面,銀行系統(數據庫)中包含了大量的客戶交易轉賬、存款取款、信用卡消費等多個維度的數據,同時隨著互聯網的普及,客戶在互聯網(如微信、QQ等)上會產生大量的外部數據,這為大數據在貸款風險管理方面發揮作用提供了基礎。目前,越來越多的銀行和互聯網金融機構開始探索如何利用大數據的方法進行風險預警的工作,并希望建立一個高度自動化、智能化與銀行其他系統密切配合的風險預警系統。
電子科技大學和杭州邁寧數據科技有限公司的聯合研究小組,基于銀行系統中客戶的貸款協議信息、交易流水信息等內部信息以及工商局、法院等外部信息來設計風險預警模型。這里主要針對已放貸款進行貸后風險的管理和預警。對于每筆已放貸款,銀行會要求客戶在每月或者每個季度(視貸款規定的還款間隔而定)規定的還款日期之前還款,若客戶在還款日期前沒有還款,則該客戶為逾期客戶(計算入違約率),否則為正常客戶。研究小組希望能夠利用客戶的當前數據,預測其下個月或者下個季度是否為逾期客戶。
客戶的貸款協議信息包含了每個客戶的基本信息,其中包括貸款筆數、貸款金額、還款卡號余額、本月應還金額等;另外,貸款協議信息還包含客戶所在的行業類別、注冊公司的規模等信息。客戶的交易流水信息包含每個客戶的交易對手、交易金額和交易時間等基本信息。另外,筆者團隊也計算了每個客戶每月交易金額的平均值、方差和交易時間間隔、收入和支出比例等,并將這些信息作為客戶的特征。
進一步地,通過網絡爬蟲爬取客戶的工商數據、法院訴訟和房產抵押等外部數據。工商數據包含了客戶實體企業的注冊資金、企業規模、法人代表等信息。法院訴訟數據包含了最近客戶是否存在訴訟記錄,房產抵押數據包含了客戶及配偶的房產信息。將這些外部數據也作為客戶的特征。
基于以上數據,利用機器學習的方法對客戶進行初篩選。采用了線性回歸、Logistic回歸、SVM、神經網絡、決策樹等分類器,將每一個單模型都看作一個弱分類器,然后再進行融合[3,4]。通過集成學習,獲得更好的分類效果。進一步地,利用復雜網絡方法和時間序列分析技術篩選剩下的客戶。不斷地迭代以上兩個步驟,直到算法達到最優,其整體思路如圖1所示。
圖1 貸后風險預警模型
以復雜網絡方法為例[5],如果有N個違約客戶,完全隨機抽樣N個節點所形成的網絡幾乎全都是孤立節點或者非常小的連通片,客戶之間基本沒有資金往來關系。但是所有違約客戶形成的網絡卻要比同規模的隨機抽樣網絡連邊密集得多。這說明違約是有網絡效應的:一方面金融風險本身具有傳遞性,客戶A如果資金出現問題,無法按時還款,則客戶A對應的應付客戶有可能因為沒有收到A的錢,導致資金鏈出現問題,從這個意義上講,如果上一個月A向B流入了資金,且上個月A出現了違約或者這個月預測A違約風險很高,都會提高B的預測風險;另一方面,違約還具有社會效應,譬如A違約之后,因為違約額度不高,銀行沒有及時處理,A就有可能將此消息傳播給自己的商業伙伴,從而使得其他人也出現違約的行為。從這個意義上講,只要A和B有資金關系,不管是流入或者流出,鑒于A的違約行為或者高違約風險,也會提高對B的風險預測。把“因為網絡效應而產生的違約風險”做成若干個特征,也放入了客戶特征庫中進行迭代學習。
主要通過兩個指標來刻畫預測的效果。一是用召回率(recall,可參考參考文獻[6])來度量準確性,即預測出來的高風險客戶能夠包含銀行真實違約客戶的比例,這個比例越高越好,最高是100%。二是用查找范圍,即預測的高風險客戶占整個客戶總量的比例,在相同準確性的情況下,查找范圍越小越好。如圖2所示,與合作銀行原有的方法相比(基于Logistic回歸和其他單一模型的機器學習方法,未進行特征挖掘和特征學習),研究小組采用的方法使準確性從46.7%上升到88.0%。而銀行原來的方法把大約20%的客戶判斷為高風險客戶,研究小組采用的方法則只需要篩查11.2%的客戶,相比銀行傳統的方法有了跨越性的提高。
圖2 風險模型預測能力對比結果
在中央大力建設信用社會的過程中,中國仍然有很大一段時間是一個信用成本很低的國家,大家不以違約為恥,反以違約不被追究為榮!在這種情況下,以信用為“擔保”的針對個人和中小微企業的貸款風險格外大——而這恰好是很多互聯網金融企業的主營業務。大數據的方法通過整合內外數據,并引入深度的特征挖掘和大規模的集成學習,有望在信用機制尚未健全的時候,為金融機構的風險管理提供一架高效的“預警機”。
參考文獻
[1] Schoenberg V M, Cukier K. 大數據時代:生活、工作、思維的大變革. 盛楊燕, 周濤譯. 杭州: 浙江人民出版社, 2013
Schoenberg V M, Cukier K. Big Data: A Revolutionthat Will Transform How We Live, Work, and Think. Translated by Sheng Y Y, ZhouT. Hangzhou: Zhejiang People’s Publishing House, 2013
[2] 李平, 陳林, 李強等.互聯網金融的發展與研究綜述. 電子科技大學學報, 2015, 44(2): 245~253
Li P, Chen L, Li Q, et al. Review of research and industry development of inter netfinance. Journal of University of Electronic Science and Technology of China,2015, 44(2): 245~253
[3] Friedman J. Greedyfunction approximation: agradient boosting machine. The Annals of Statistics,2001, 29(5): 1189~1232
[4] Ridgeway G. Generalized BoostedModels: A Guide to The GBMPackage, http://cran. r-project.org/web/packages/gbm/vignettes/gbm.pdf, 2007
[5] 汪小帆, 李翔, 陳關榮. 網絡科學導論. 北京: 高等教育出版社, 2012
Wang X F, Li X, Chen G R. Network Science: An Introduction.Beijing: Higher Education Press, 2012
[6] Lü L, Zhou T. Linkprediction in complex networks: a survey. Physica A Statistical Mechanics &Its Applications, 2011, 390(6): 1150 ~1170
總結
以上是生活随笔為你收集整理的《大数据》2015年第2期“动态”——大数据发现银行贷款风险的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Delphi 与C系列区别之已见(一)
- 下一篇: WebBrowser 操作(从网上收集)