关于金融风险数据的ETL到分析(下)
距離上一份文章過去很久了,剛好碰到婚期和春節,希望環境快點好轉起來,大家也都要能在恐慌中穩定心態,快點恢復過來,雖然在環境的影響下取消了婚禮,但還是挺慶幸能在環境爆發前取消了計劃。借著這樣的機會,完成上次欠各位的幾項指標介紹,雖然寫了停停了寫,但還是完稿了
這里接著上次的文章繼續寫,如有新的讀者想了解,可見上一篇文章《關于金融風險數據的ETL到分析(上)》
二、指標之催回率
1.催回率是什么?
在金融行業中,資金的流程都需要被各項指標來衡量,上文所說的vintage和首逾都是說明資金風險,說明了一個公司風控能力、用戶管控能力,而催回率這個指標則是說明了資金在產生逾期后為了最小化公司損失而進行風控催收,對逾期資金催回的能力,從另一方面說明了公司的兜底能力。
2.口徑是什么?
催回的口徑準確來說就是逾期金額中催回占比,但是很多機構不會區分為逾期催回是機構催回還是用戶逾期主動還款,所以以下口徑主要說明后者,當然我們公司也是后者。
口徑如下:
催回率 = 催回金額(含曾經逾期)/逾期金額 (金額口徑)
催回率 = 催回筆數(含曾經逾期)/逾期筆數 (訂單筆數口徑)
具體維度可分:用戶畫像維度(地區、年齡、性別等等)、訂單維度(期數、利率等等)
當然還有用戶口徑,此處不一一列舉,但是另外需要說明的是,此處還可以分觀測時點和分放款月來取,邏輯方面來說,放款月邏輯會更復雜,所以這里主要講后者,前者可借鑒后者。
3.催回率的ETL過程(E過程同上)
(1)T
數據清洗常規步驟略,詳情見vintage,此處只說明核心邏輯:
同vintage相似,各公司數倉表設計都有所差異,本處只以自身所處公司為例說明,如下表都是為上述所例表
計劃表如下:
詳細表介紹及說明可見上篇,具體不再概述
還款表如下:
表介紹:
還款流水表,記錄每一筆還款流水
獲取率代催回率代碼(HQL):
create table default.repayment_payback1 as select -- 目前逾期金額day,business_type,over_status,sum(left_principal) left_principal fromdefault.vintage_test whereday(date_add(day,1))= 1and ord_stt in ()and order_status in ()and fst_its_dte >= '2016-06-01'and fst_its_dte <= day group by business_type,over_status,day;create table default.repayment_payback2 as select-- 曾經逾期(已還)day,business_type,ovd_stt,sum(repayment_prcinple) repayment_prcinple from (selectbusiness_type,repayment_prcinple,day,case when datediff(to_date(repayment_time),to_date(repayment_date)) >0 and datediff(to_date(repayment_time),to_date(repayment_date)) <=30 then 'M1'when datediff(to_date(repayment_time),to_date(repayment_date)) >31 and datediff(to_date(repayment_time),to_date(repayment_date)) <=60 then 'M2' when datediff(to_date(repayment_time),to_date(repayment_date)) >61 and datediff(to_date(repayment_time),to_date(repayment_date)) <=90 then 'M3' when datediff(to_date(repayment_time),to_date(repayment_date)) >91 and datediff(to_date(repayment_time),to_date(repayment_date)) <=120 then 'M4'when datediff(to_date(repayment_time),to_date(repayment_date)) >120 and datediff(to_date(repayment_time),to_date(repayment_date)) <=150 then 'M5'when datediff(to_date(repayment_time),to_date(repayment_date)) >150 and datediff(to_date(repayment_time),to_date(repayment_date)) <=180 then 'M6'else 'M7' end ovd_stt fromdefault.stage_repayment_test whereday(date_add(day,1)) = 1and substring(repayment_time,1,10) <= dayand business_type in ()and datediff(to_date(repayment_time),to_date(repayment_date)) > 0) a group by day,business_type,ovd_stt;select -- 摧回率 a.day, a.business_type, a.over_status, sum(b.repayment_prcinple) / sum(a.left_principal+b.repayment_prcinple) from default.repayment_payback1 a left join default.repayment_payback2 b on a.day = b.day and a.business_type = b.business_type and a.over_status =b.ovd_stt group by a.day, a.business_type, a.over_status以上是最簡單核心的代碼邏輯,具體可據此擴充各維度、對象等等
(2)L (load 加載,可視化)
(4)分析
以上數據為真實數據,主要口徑為by觀測月看全量資產M1-M7催回率,個人建議by放款月觀測催回更為合理,分析動態資產各逾期資產,會更有利于分析和管理;
分析點:
1.各逾期狀態催回率:主要看處于同一逾期狀態下資產催回情況,曲線波動情況能夠反映出催收手段強弱和市場情況;
2.各逾期狀態催回率差值:能夠直觀反映出資產變壞后的催回情況,主要一項指標壞賬(大部分公司定義為M3+)催回率,此項
此項指標可以取每月末觀測各到期月逾期率,結合vintage分析資產的整體回收情況
三、指標之截面逾期率
1.截面逾期率是什么?
在金融行業中,此項指標也非常重要,相比vintage/催回而言,此項指標數據較為簡單直接,整體概括而言,截面逾期率可拆分為截面和逾期率來理解,截面,可以通俗的理解為觀測點,觀測日;而逾期率就是逾期金額占比整體在貸比值;綜合來說,截面逾期率就是在不同觀測時點下逾期占比情況。
2.口徑是什么?
截面逾期率相比前面所述的幾個指標而言比較簡單,上面定義也很簡單明了。
口徑如下:
截面逾期率 = 逾期在貸金額 / 所有在貸金額
截面逾期率 = 逾期在貸筆數 / 所有在貸筆數
具體維度可分:用戶畫像維度(地區、年齡、性別等等)、訂單維度(期數、利率等等)
這里需要著重說明,逾期在貸不同口徑看也大不一樣,目前各個金融方向的公司看的也不太一樣,通俗和大家介紹下:
一般金融信貸會分期數還款,那么逾期之后會有公司著重關注到期逾期的那一期,也有會關注逾期以及剩余所有期,更有甚著會區分逾期是那一期,是總期數靠前還是靠后的那一期,關注點不一樣,那么逾期在貸金額的計算方式也不一樣,具體大家可做了解
3.催回率的ETL過程(E過程同上)
(1)T
如下表都是為上述所例表
create table default.vintage_test (order_number string comment '訂單號',uid string comment 'uid',create_order_date date comment '訂單創建日',principal decimal(20, 4) comment '訂單本金',fee decimal(20, 4) comment '訂單利息',over_status string comment '逾期狀態',left_principal decimal(20, 4) comment '剩余訂單本金',left_fee decimal(20, 4) comment '剩余訂單利息',order_status string comment '訂單狀態',business_type string comment '業務類型',bank string comment '資金方' ) comment '訂單表' partitioned by (day string) stored as orc
獲取率代催回率代碼(HQL):
以上是最簡單核心的代碼邏輯,具體可據此擴充各維度、對象等等
(2)L (load 加載,可視化)
截面逾期率具體視圖與分析和各逾期催回率類似,不再做一一介紹
四、指標之用戶畫像
1.用戶畫像是什么?
其實這個也不算指標吧,它更像用戶的代表,用戶的身份,從我自己的角度而言,這個指標是所有指標里最喜歡之一,緯度越細,我們對于用戶的掌握就越足,就更有利于我們給用戶推薦匹配的產品,對于系統開發層面來說,它更有利于在銷售界面上部署實時推薦系統,總之,這項指標代表的不僅僅是分析,就連我也不能說是完全掌握其中端倪,需要花費大量時間去研究。
2.口徑是什么?
用戶的全流程、借款、登陸等等各項指標分布,根據用戶的各個緯度分布,
用戶畫像沒有一個統一通用的指標,凡是能夠描述用戶的身份構成和行為構成的都算是用戶畫像的范疇,以下主要舉例用戶借款行為相關:
借款金額/筆數在全量用戶中地區/年齡/性別/學歷等緯度的占比
或者在借款利率/借款期數/借款金額范圍等緯度的占比
3.用戶畫像的ETL過程(E過程同上)
(1)T
數據清洗常規步驟略,詳情見vintage,此處只說明核心邏輯:
同vintage相似,各公司數倉表設計都有所差異,本處只以自身所處公司為例說明,如下表都是為上述所例表:
計劃表如下:
這里引進一張新的樣表-用戶表,表的設計較為簡單,只包含了基本信息,方便大家了解,當然除了這些還有很多關于用戶的信息,大家可自行擴充
詳細表介紹及說明可見上篇,具體不再概述
獲取率代催回率代碼(HQL):
selectb.sex,b.age,b.are,b.education,sum(a.principal) principal,count(a.order_number) order_number fromdefault.vintage_test a -- 這里訂單表中的相關條件可篩選出自己想要的有效訂單 left join default.user_test b on a.uid = b.uid group by b.sex,b.age,b.are,b.education以上是最簡單核心的代碼邏輯,具體可據此擴充各維度、對象等等
(2)L (load 加載,可視化)
用戶畫像的可視化很豐富,在此處我沒有取自己測試數據的樣表,在網上自己提取了比較經典的用戶畫像的可視化圖例:
還有最近使用比較多的因為環境而設計出的環境地圖,也是比較清晰的就能看的出環境分布:
(4) 分析
用戶畫像的使用五花八門,其作用也很廣,個人了解下來包含以下幾點,僅僅代表個人了解的幾點,絕不僅限這幾點,大家有興趣可以深入了解:
實時用戶推薦系統:根據用戶畫像,深入分析用戶行為和喜好,實時給用戶推薦喜歡的產品
定向獲客:這一點主要針對于市場部,我們可以從用戶畫像中獲得客群的主要分布,從而有針對性的制定獲客方案,讓費用投入獲取最大化
風險定位:各種客群的風險都是不一樣的,比如男性風險普遍會偏高于女性,學歷為專科的借款率會高于本科,但是其風險會高于本科,等等,做到客群的精確劃分,會更有利于我們對風險的把控
促動支/促申完的有效投入:我們會從同種用戶標簽和畫像中獲取到相同用戶的促動/申完方案,獲取促動/申完規律,節約人力成本/資金成本
除了上述所說的作用當然還遠遠不止這些。
以上主要說明了作用,那么其分析我舉例的也是主要針對以上作用說明,其實我給總結基本上會圍繞推薦算法的主要核心思想:
1.同種人群基本會有相同愛好;
2.相同愛好的基本都是同種人群;
3.對同種人群發生的相關行為帶來的效果基本類似;
對用戶畫像的分析個人了解這么多,描述不夠全面,有興趣可留言交流
至此,關于金融風險數據相關的介紹全部結束,很遺憾最后兩項大的指標滾動率和遷移率沒展開介紹,這兩項我了解的不是很深入只是最簡單的數據指標獲取,但是對于分析仍有欠缺,后面如果有深入的了解會更新到文章中,希望大家持續關注,謝謝
總結
以上是生活随笔為你收集整理的关于金融风险数据的ETL到分析(下)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机学院社会实践项目,社会实践-北京邮
- 下一篇: css的div,span,img,a,m