【采用】智能反欺诈算法概览及典型应用案例
自20世紀末開始,由于反欺詐領域的數據量大和時效性高的要求,機器學習技術逐步實現應用。
1997年,弗拉基米爾·科基納基(vladimir Kokkinaki)提出了一種基于決策樹的模型,其子節點代表不同變量,分叉路徑代表不同的條件。
2000年,喬恩·本特利(Jon Bentley)使用基因算法搭建了一套邏輯規則,它可以根據最大發生概率將交易行為劃分為可疑交易和非可疑交易。
2002年,理查德·博爾頓(Richard Bolton)和戴維·漢德(David Hand)利用對等組分析和斷點分析,從賬戶和個體角度判斷行為鏈上的欺詐。
1997年,何塞·多隆索羅(José Dorronsoro)基于神經網絡算法設計了一套在線欺詐跟蹤系統。
2002年,山姆·梅斯(Sam Maes)將貝葉斯網絡應用到信用卡領域。
以上發現都屬于有監督機器學習(Supervised Machine Learning),需要大量帶有標簽的歷史數據來訓練模型。
但是,每一個標簽都代表已經發生過的欺詐事件,在實際應用中,銀行往往沒有足夠的標簽。
目前,風控領域使用的反欺詐手段主要是規則系統,基于業務專家經驗以及過去發生的欺詐事件建立規則。
然而,這種方法建立的規則系統通常無法做到及時更新,因此誤報率較高,同時,維護費用高昂,因此,金融領域迫切需要應用先進技術構建新的智能反欺詐模型。
目前,適用于銀行反欺詐的機器學習和深度學習算法主要包括有監督機器學習和無監督機器學習兩個方面。
?
SKM算法
種子k均值聚類算法(Seeded k-means Clustering Algorithm),簡稱SKM,是利用好壞用戶人群區分度較高的特點,將用戶人群分為兩類,使同一類中的用戶相似度較高,而不同類間用戶的相似度較低。
選取用戶數量少的類作為異常客戶,將每個異常用戶到正常用戶類中心點的距離記作“用戶異常評分”,評分越高,用戶越可疑。
聚類分析擅長從多個維度綜合分析用戶之間的差異,分布在極值兩端的變量對模型結果的影響大,運算效率高,結果可解釋性好,但是容易忽略單個指標的決定性作用,且劃分結果不夠精確。
SKM算法原理圖
?
孤立森林
孤立森林(Isolation Forest)用于挖掘異常數據的無監督模型,利用壞用戶與規律相比的差異來劃分。每次隨機選取一定數量的樣本訓練一棵iTree樹,任選特征順序與分割值,重復多次得到iForest森林。將全量樣本沿著每棵iTree達到葉子節點,每個用戶在iForest上距離根節點的平均路徑長度作為客戶異常評分,路徑長度越短越可疑。
孤立森林擅長分析每個維度對異常用戶劃分的影響,極值單側分布的變量更容易區分異常用戶,使結果更加精確。
但是,孤立森林無法從整體上分析好壞用戶的差異,且算法復雜度較高,結果解釋性較低。
?
孤立森林原理圖
?
自編碼網絡
自編碼網絡(Auto Encoder)是一種適用于無監督場景下的深度學習網絡模型,其主要用途是將數據壓縮,在需要的時候用損失盡量小的方式恢復數據。
在自編碼網絡中,輸出層神經元的數量與輸入層神經元的數量完全相等,通過控制隱藏神經元的數量達到壓縮數據的目的。
在反欺詐場景中,由于欺詐用戶與正常用戶在行為上存在較大差異,對于整個數據集來說是冗余信息。自編碼網絡目前還沒有在銀行反欺詐領域中大規模應用,但是對數據量和計算環境的高要求有待進一步探索。
自編碼網絡原理圖
?
卷積神經網絡
卷積神經網絡(Convolutional Neural Network)最早被用于圖像處理和識別的場景中,主要由卷積層和池化層構成。
卷積層是卷積神經網絡的核心,通過固定大小的卷積核的移動構造局部連接,利用參數共享大小減小網絡模型;池化層通常夾雜在卷積層之間或者之后,通過池化操作提取變量特征,提高計算效率的同事防止過擬合。
在用戶交易分析中,由于交易鏈與圖都具有相關性,并且距離越近相關性越大,因此可以通過選取相關交易行為的辦法,將某一時刻的一維交易鏈轉化為二維交易鏈圖,再利用卷積神經網絡訓練找出異常用戶行為。
卷積神經網絡交易鏈轉換原理圖
?
長短期記憶網絡
長短期記憶網絡(Long Short Term Memory,LSTM)是基于循環神經網絡(Recurrent Neural Network,RNN)的一種優化神經網絡模型,其優勢是可以處理一些依賴長期歷史記憶的場景,這是傳統的RNN模型不具備的學習能力。
LSTM的核心是在RNN中加入了一個判斷信息是否有用的處理器,包括輸入門、遺忘門、和輸出門,符合模型條件的信息會被留下,其他信息被遺忘門略去。
把LSTM網絡應用于交易鏈場景中可以更好地處理并記錄交易行為在時間軸上的關聯,有效區分異常的交易行為。
LSTM網絡算法原理圖
?
CBiForest反欺詐算法
通過需求調研和數據采集,針對數據特性提出了一套基于聚類的孤立森林算法模型(CBiForest)。在無監督條件下,結合SKM和iForest兩者的優勢,CBiForest可以全方位、多層次地判斷和追蹤欺詐用戶。
CBiForest的建模過程如下:
挖掘交易流水和登錄數據,從交易金額、交易次數、交易時間、交易類型和交易地址等多方面構造反欺詐模型的特征;
基于關聯矩陣、模型驗證、業務經驗等方法,篩選出重要變臉23個,按照變量分布特征將15個U型變量運用到SKM模型,將8個長尾型變量運用到iForest模型;
首先利用SKM將所有客戶聚成兩類,其中數量較少的類被標記為異常用戶群體,定義每個點到正常類中心的距離作為SKM異常分值,距離越大異常度越高;
對于兩類用戶群體,分別訓練iForest模型,每個點到iTree根節點的平均距離作為iForest異常分數,平均距離越近異常度越高;
對于每個點,將SKM和iForest模型計算得到的異常分數加權相加,得到CBiForest的最終結果。
?
根據CBiForest模型的計算結果,將用戶異常分值從高到低排列,分數越高,存在欺詐的可能性越大。
目前利用深度學習技術進行銀行反欺詐探索的案例相對較少。以DanskeBank的應用項目為例,介紹一下國際上銀行反欺詐項目的領先成果。
基于DanskeBank每秒60筆交易的實時數據,首先嘗試利用決策樹和邏輯回歸的聚合模型,與傳統規則引擎相比,誤報率降低了25~30%,準確率提高了35%。利用CNN、LSTM等多種深度學習模型進行檢測時,測試集的AUC提高到了0.9。
隨著國內銀行數據環境的優化和硬件系統的升級,這些深度學習算法也可以應用于國內銀行場景,以便進一步提高對欺詐行為的主動預警能力。
對于銀行反欺詐場景而言,從專家經驗到規則系統,再到智能化模型預測,這是反欺詐技術的不斷升級,也是銀行數字化轉型過程中的重要一環。
欺詐行為變化多端,欺詐與反欺詐從根本上是人與人之間的較量。由于欺詐方也是業務專家,并配備了技術手段,因此在實際反欺詐應用中,我們需要將更多的精力放在對業務和數據的理解上,并針對不同場景選擇適當的技術方法。
————————————————
版權聲明:本文為CSDN博主「慧安金科」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/hajk2017/article/details/81382387
總結
以上是生活随笔為你收集整理的【采用】智能反欺诈算法概览及典型应用案例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2018智能反欺诈洞察报告:黑中介、黑产
- 下一篇: 【采用】概率图模型在反欺诈的应用(无监督