风控策略之黑名单
我們經常會聽到銀行的同事說征信報告發生了連三累六就不會下款了,這里大概就是一個黑名單的定義,它屬于一個風控規則,命中就會被決策引擎拒絕,那么這個連三累六是怎么定義的呢?隨著互聯網金融,大數據的崛起,黑名單的數據源和規則定義更加多元廣泛,產生了更多的風控黑名單規則因子,如何對黑名單更加深入的了解呢?
(尤其現在市場合規持牌銀行機構,持牌消費金融公司,保險公司,頭部p2p,小貸公司,大量不知名的游擊借貸公司 一同面向借款人,加之借款人信用意思,資金需求,政策導向,就業環境等導致借款人還款具有較大不穩定性:同一個人只還上征信的,不還p2p,小貸的。在p2p還款良好的個人聽聞p2p監管退出開始建群集體惡意逃廢債,顯然這里的一個人是相對的黑名單也是相對的非黑名單)
1、內部黑名單
企業通過客戶周期數據表現,建立自身的黑名單數據庫,一般不同的產品帶來的是不同的風險客群,數據表現也盡不相同,所以如果一個黑名單策略規則就相同的使用在不同的產品是不合理的。本人是一名數據分析師,遵守經驗主義更崇尚數據分析量化結果,因為一切的最后結果都在最后的收益量化上呈現。
定義:一般類似于風控建模中目標GB的確認可以利用滾動率、遷徙來定義黑名單。例如,像銀行通常為90天,也就是連續3次30天,銀行有銀監會下發的貸款指導分類原則指導。像本人之前從事的現金貸PDL短周期PD10就很難再有回款了,黑名單的規則定義逾期天數大于10,回款不到1%。更早的PDL一般是到PD7回款率就幾乎沒有了,這也是很多復借規則有一條策略規則(上一次訂單逾期天數)所在的原因,這個規則的閾值沒有設置為5,也沒有設置為13,而設置為7,從遷徙報表可以一眼看出,這就是量化的魅力。
維護:既然定義好了目標就一直不變了么。不是這樣的,像銀行體系雖然大周期,最近也看到很多微文說銀行部分也開始用M2了,說明整體資產惡化,任何事情都是永恒變化著的,隨著經濟結構發展的變化,人民信用意識形態遷移,市場金融產品布局滲透,政策監管對資金流向的影響,對產品的風險表現影響很大,所以這個黑名單的定義也要維護,如果我的客戶不斷下沉,上文說道的7天就要改變5天(舉例,需要通過數據分析),因為從數據上逾期6,7天的客戶我是損失的,給我不能帶來收益。復借我們就沒有在必要給他下款,如果我們風控部門還在悠閑的用著之前一套定義準則,那只有等著公司的錢流外人田了,或者更嚴重的就是風控走人,團隊換人,這個我說一點不嚴重,我之前呆的兩個公司都遇到了,一個是整體風控團隊走人,一個是負責人走人。
2、外部黑名單
三方黑名單的收集來源;
行業共享:典型的af就是合作了同業的p2p,進行共享,他會給你返回具體逾期天數等級,產品,風險等級等字段;
爬蟲收集:例如公檢法執行信息,很多公司會爬蟲的相關網站抓取數據產生規則;
公共庫直連:例如某公司產品宣傳的公安庫直連,近3個月到20年內的時間切片數據,類別有在逃、涉毒、吸毒、前科;
支付數據:近幾年興期的支付公司為主要數據對外提供風控解決方案,他們自身的黑名單就是通過對支付數據的挖掘進行定義的(怎么挖掘:簡單的就是某個客戶在三方支付扣款余額不足次數之類的統計)
設備數據:通過設備數據(短信,定位,設備指紋等)來定義好壞客戶,其中短信的挖掘廠商產品比較成熟,因為黑名單客戶都被短信催收過,而且從短信的內容你大致可以看出這個客戶是在入催,中期,處置的大概哪個階段。
其他:催收公司合作,數據交換(合不合規,反正是有的),這個肯定區分度很強哈,直接就是被催收的客戶,這是我兩年前接觸過得,不知道現在還有沒有。
就想到這些了,思路短缺,歡迎補充!
其實內部黑名單沒有什么好說的,外部黑名單就很有意思了,在北京工作這3年多,接觸了太多的三方數據,幾乎每家都有黑名單的輸出,短信的,支付的,人法公安的,設備的,銀行的等等,很多類別種類,很豐富。
面對這種黑名單,本人的經驗建議不要直接急于上規則,拿來就用,前幾年很多公司不太注意數據質量,我在的三家公司就是拿來就用,那時候也很少有專業的分析人員。懂數學的不懂業務,懂業務的不懂數學,大部門分析人員還在用excel,很難搞出令人開心的分析。原因主要:首先你不了解這個數據收集來源,底層數據,第二個不知道真實性,第三個也不知道在你的產品上是否有區分度。當然數據方會說的天花亂墜,這時候作為一名策略分析師是我最喜歡的事了,我們回溯下,或者最好我們線上跑一跑,就是那種空跑不決策,數據先調用著,然后等待有表現的時候我們在去分析。說的再天花亂墜,也要等效果出來,我們合同在走起。
效用評估
:三方的黑名單就不需要自己定義了,因為三方已經定義好了,大部分給的是字段,剩下的就是需要我們做的是評估,回溯測試也好,線上測試也罷,后續就是需要我們分析這個因子。那么這個因子命中多少的首逾,表現多少的壞賬,有多少的回款(其實這三指標相輔相成的)我們才會覺得合適作為黑名單規則呢。例如壞賬;100%沒得說必須用哈,60%呢,50%呢,其實我這個也有很多的思考疑慮,高了完美,低了不謹慎,其實還是從盈虧的角度或者風控kpi的角度來定義,我覺得沒問題的。假如我風控kpi的PD20 是15%。那么這個時候這個因子PD20的表現是30%,我覺得定義黑名單是沒問題的,大于15%也沒問題。記得之前接觸過r3的規則自定,就是是壞賬的2倍作為拒絕閾值。沒有作為黑名單定義但是有一定的區分度,也可用在模型中作為變量,就像模型中,我們通過的客戶最底分數段中的壞賬肯定比整體壞賬高很多的,但是我們并沒有拒絕這一部分人群。他考慮了通過率,成本,轉化,收益很多因素的。
總結我遇到的幾個有意思的東西
1:別認為黑名單就把人家黑了:記得第一份工作我們用是br,他們的名單叫特殊名單,然后里面有具體的原因。當時我們做的是醫美客戶,額度還比較大,也是由于當時技術的原因,這個規則沒有生效。然后我很好奇的等待著這幾個命中了特殊名單規則的客戶,結果他們表現的很好,這是我第一次開始懷疑黑名單,從那時候我經過的黑名單數據必須要在上線之前或者成為策略之前要測試一個周期。這個事件說明了,你的黑名單黑了我的白名單,呵呵呵呵呵。
有的三方做開發者推送服務的,在產品介紹中介紹黑名單的數據來源:基于歷史數據,近一年內存在大于90天的記錄,擁有千萬級黑名單用戶,千萬級哈哈,一個頭部的公司全部用戶又有多少哈,通過互金行為分析,關系挖掘,這些介紹都是值得懷疑的。不是借貸公司,千萬級黑名單,籠統的說明黑名單數據來源這些都是嚴重值得懷疑的,所以必須進行評估驗證。
2:關于命中率的問題:刨除集中攻擊,任何信貸產品的黑名單命中率都是有一定的區間范圍,這個范圍比規則,模型決絕的低。因為它要求穩準狠,所以一般黑名單的規則命中率在0-10%。在10%上下的,一般也就是客群最差的產品了,穩定的也在3-5之間。所以當你使用一個黑名單數據源規則時,如果命中率是15%了,或者更高,作為一個經驗的行家。這個命中率就是值得懷疑的,要不數據有問題。要不這根本就不是一個這正的黑名單規則。這個我遇到的也很多,一般這樣的效用也不大。不僅沒有效用,而且損失了很多用戶。往往被運營市場的同學追著問。如果你簡單的說這是我們接的三方,測試返回都沒問題。他們命中黑名單了,然后就拒絕了人家。我覺得作為一個風控是不合格的,你必須知道這個是有問題的。
3:關于成本問題:在風控流程中位置
我們看到太多的教學課件,太多的ppt,黑名單規則放哪里了:都在最前面的流程吧,肯定在反欺詐,模型前面。但是我想說。如果一個黑名單1元(幾乎都是查得收費),一個模型0.5,為什么不把黑名單放在最后呢。模型會拒絕大部分的人,黑名單會拒絕少部分的人。我們換個思路:通過的人成本都是0.5,因為這兩條數據都跑了且沒有命中黑名單,模型通過,但是拒絕的人呢,只選擇其中一個數據你會選擇哪個,我用0.5的成本就可以把一個人拒絕掉,而不需要使用1元的黑名單去拒絕,如果使用黑名單去拒絕則我的拒絕成本增加了3倍。我們之前都是結合通過率,收費方式,結合風控流程,然后設計最低的成本,之后計算下來真的可以節省一大筆哦。
綜上簡述:黑名單需要從從數據源、評估方法、成本優化、動態管理角度等進行細致的針對性的詳細了解和分析,達到最佳使用決策,以上只是本人這幾年經歷的工作的實戰片面經驗,希望給讀者貢獻一點源泉,謝謝。
?
總結