【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分
背景
如果你是做互聯(lián)網(wǎng)金融的,那么一定聽說過評(píng)分卡。評(píng)分卡是信用風(fēng)險(xiǎn)評(píng)估領(lǐng)域常用的建模方法,評(píng)分卡并不簡單對(duì)應(yīng)于某一種機(jī)器學(xué)習(xí)算法,而是一種通用的建模框架,將原始數(shù)據(jù)通過分箱后進(jìn)行特征工程變換,繼而應(yīng)用于線性模型進(jìn)行建模的一種方法。
評(píng)分卡建模理論常被用于各種信用評(píng)估領(lǐng)域,比如信用卡風(fēng)險(xiǎn)評(píng)估、貸款發(fā)放等業(yè)務(wù)。另外,在其它領(lǐng)域評(píng)分卡常被用來作為分?jǐn)?shù)評(píng)估,比如常見的客服質(zhì)量打分、芝麻信用分打分等等。在本文中,我們將通過一個(gè)案例為大家講解如何通過PAI平臺(tái)的金融板塊組件,搭建出一套評(píng)分卡建模方案。
本實(shí)驗(yàn)案例可在機(jī)器學(xué)習(xí)PAI平臺(tái)使用,包含整個(gè)實(shí)驗(yàn)流程和數(shù)據(jù):
數(shù)據(jù)集介紹
這是一份國外某機(jī)構(gòu)開源的數(shù)據(jù)集,數(shù)據(jù)的內(nèi)容包括每個(gè)用戶的一些性別、教育、婚姻、年齡等屬性,同時(shí)也包含用戶過去一段時(shí)間的信用卡消費(fèi)情況和賬單情況。payment_next_month是目標(biāo)隊(duì)列,表示用戶是否償還信用卡賬單,1表示償還,0表示沒有償還。
數(shù)據(jù)供30000條。
數(shù)據(jù)集下載地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset
實(shí)驗(yàn)流程
先來看下實(shí)驗(yàn)圖:
現(xiàn)在對(duì)一些關(guān)鍵節(jié)點(diǎn)進(jìn)行介紹:
(1)拆分
將輸入數(shù)據(jù)集分為兩部分,一部分用來訓(xùn)練模型,另一部分用來預(yù)測(cè)評(píng)估。
(2)分箱
分箱組件類似于onehot編碼,可以將數(shù)據(jù)按照分布映射成更高維度的特征。我們以age這個(gè)字段為例,分箱組件可以按照數(shù)據(jù)在不同區(qū)間的分布進(jìn)行分享操作,分箱結(jié)果如圖:
最終分箱組件的輸出如圖,每個(gè)字段都被分箱到多個(gè)區(qū)間上:
(3)樣本穩(wěn)定指數(shù)PSI
樣本穩(wěn)定指數(shù)是衡量樣本變化所產(chǎn)生的偏移量的一種重要指標(biāo),通常用來衡量樣本的穩(wěn)定程度,比如樣本在兩個(gè)月份之間的變化是否穩(wěn)定。通常變量的PSI值在0.1以下表示變化不太顯著,在0.1到0.25之間表示有比較顯著的變化,大于0.25表示變量變化比較劇烈,需要特殊關(guān)注。
本案例中,可以綜合比較拆分前后以及分箱結(jié)果的樣本穩(wěn)定程度,返回每個(gè)特征的PSI數(shù)值:
(4)評(píng)分卡訓(xùn)練
評(píng)分卡訓(xùn)練的結(jié)果圖如下:
評(píng)分卡的精髓是將復(fù)雜的比較難理解的一些模型權(quán)重用符合業(yè)務(wù)標(biāo)準(zhǔn)的分?jǐn)?shù)表示。
- intercepy表示的是截距
- Unscaled是原始的權(quán)重值
- Scaled是分?jǐn)?shù)更改指標(biāo),比如對(duì)于pay_0這個(gè)特征,如果特征落在(-1,0]之間分?jǐn)?shù)就減29,如果特征落在(0,1]之間分?jǐn)?shù)就加上27.
- importance表示每個(gè)特征對(duì)于結(jié)果的影響大小,數(shù)值越大表示影響越大
(5)評(píng)分卡預(yù)測(cè)
展示每個(gè)預(yù)測(cè)結(jié)果的最終評(píng)分,在本案例中表示的是每個(gè)用戶的信用評(píng)分。
結(jié)論
基于用戶的信用卡消費(fèi)記錄,最終通過評(píng)分卡模型的訓(xùn)練,我們?cè)谠u(píng)分卡預(yù)測(cè)中可以拿到每個(gè)用戶的最終信用評(píng)分,這個(gè)評(píng)分可以應(yīng)用到其它的各種貸款或者金融相關(guān)的征信領(lǐng)域中去。
體驗(yàn)產(chǎn)品:阿里云數(shù)加機(jī)器學(xué)習(xí)平臺(tái)
作者微信公眾號(hào)(與作者討論):
總結(jié)
以上是生活随笔為你收集整理的【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 云端TensorFlow读取数据IO的高
- 下一篇: AI类人工智能产品经理的丛林法则