图数据库应用:金融反欺诈实践
?
?
1 背景介紹
1.1 傳統反欺詐技術面臨挑戰
數字技術與金融業的融合發展,也伴隨著金融欺詐風險不斷擴大,反欺詐形勢嚴峻。數字金融欺詐逐漸表現出專業化、產業化、隱蔽化、場景化的特征,同傳統的詐騙相比,數字金融詐騙往往是有組織,成規模的,他們分工明確、合作緊密、協同作案,形成一條完整的犯罪產業鏈。傳統反欺詐技術面臨的三大挑戰:維度單一、效率低下、范圍受限。(引用自《數字金融反欺詐白皮書》)
1.2 圖數據庫技術應運而生
面對復雜的大數據,如何高效的從大規模數據中獲取有價值的信息,傳統技術面臨巨大挑戰。
圖數據庫這項新興技術正是反欺詐的一把利劍,基于圖數據庫技術構建的關系圖譜可用于深度數據挖掘,包括:關系推理、關聯度檢測、集中度測量、語義分析、團伙發現、可視化展示等。
本質上反欺詐面臨的核心問題就是如何處理海量的用戶關聯關系。傳統關系型數據庫在處理海量關系上做得并不好,面對復雜關系網絡的處理存在如下問題:數據規模大難以存儲、計算效率低、關系建模難、維護性/易用性/擴展性差等。與傳統關系型數據庫不同的是,圖數據庫在處理關聯關系上具有天生的優勢,這些問題都能很好的一一化解。根據DB-Engines報告,從最近十年的表現來看圖數據庫已經成為關注度最高,發展趨勢最明顯的數據庫類型。
HugeGraph圖數據庫就是在這個需求背景下應運而生的。HugeGraph是百度安全面對反欺詐、威脅情報、黑產打擊等業務自研的一款圖數據庫。HugeGraph通過多維度的特征檢測(屬性特征、關系特征)、關聯度檢測、團伙檢測等技術來識別欺詐風險,提供了由點及面的反欺詐解決方案。
2 欺詐特征檢測
根據用戶的特征檢測分析,我們可以對其進行風險度評分,特征檢測主要包括如下幾方面:
2.1 屬性特征檢測
· 信用記錄(貸款、還款、逾期記錄等)
· 匹配電話黑名單(公檢法公開名單、數據聯盟不良名單)
· 匹配詐騙地理位置(如詐騙中介、代辦機構)
· 匹配代理服務器名單
· 檢測信息造假或隱瞞:如學歷、年齡、地址、公開簡歷、IP定位等。
?
2.2 關系特征檢測
· 大量賬戶同時擁有同一個手機號
· 大量用戶同時使用同一個手機或WiFi網絡
· 同一個賬號或設備在多平臺申請借貸
· 自相矛盾關系檢測,包括:用戶填寫的關系自相矛盾、用戶公司地址自相矛盾、通話記錄與職業自相矛盾等等
· 關系環路檢測(比如檢測是否有循環擔保)
· 多層關系高度聚集性檢測,比如大量賬號通過大量虛假設備接入同一個網絡
?
2.3 關聯度檢測
近朱者赤近墨者黑,通過用戶的關系網絡來檢測其與風險節點的關聯度,可識別出其風險程度并作為一個參考指標,比如某用戶3度關系之內是否觸黑。這個過程我們稱之為關聯度檢測。
關聯度檢測的典型技術包括:
· 檢測用戶的多層社會關系是否符合正常的圖譜特征,比如若是孤立的子圖則可能是假造的關系網絡,該用戶存在高風險
· 檢測多層關系網絡中是否包含高風險節點,比如二度觸黑
· 通過PersonalRank、PageRank等算法計算關系網絡中節點的風險評分
其中高風險節點包括黑/灰名單、高風險評分節點等;關系網絡是指實體(用戶ID、賬戶、手機號、設備、地點)與各種關系(如通訊錄、通話記錄、轉賬交易、登錄地點)之間的相互關聯組成的網絡。
3 欺詐團伙檢測
3.1 使用社區發現算法檢測欺詐團伙
用戶的關聯關系是一個復雜的網絡,對復雜網絡的研究一直是許多領域的研究熱點,其中社區結構是復雜網絡中的一個普遍特征,同一個社區內的節點之間的連接緊密,而社區與社區之間的連接則比較稀疏。正如《數字金融反欺詐白皮書》所述,數字金融詐騙往往是有組織成規模的,如何找出這些組織本質上就是從復雜網絡中找到一個一個的團伙并加以分析。
檢測欺詐團伙的算法我們稱之為社區發現算法(或者說社區聚類算法),社區發現是一個復雜而有意義的過程,近幾年來,分析復雜網絡中的社區結構得到了許多學者的關注,同時也出現了很多社區發現算法(如LPA、SCAN、Louvain等)。
在金融關系網絡里面往往社交屬性比較弱,大部分用戶的社交關系很稀疏,找到關系緊密的社區就是發現欺詐團伙的關鍵,當然并不是所有的團伙都是欺詐團伙,因此有必要根據一個閾值來進行評判,比如根據前述欺詐特征檢測出來各成員的風險評分,如果大于0.7分的用戶在某團伙占比達到60%則判為欺詐團伙。
HugeGraph圖數據庫目前提供了兩種社區發現算法:簡單高效的標簽傳播算法LPA,以及基于模塊度優化迭代算法Louvain。通過圖的社區發現算法將用戶劃分為一個一個的群體(我們稱之為團伙),然后根據團伙中各成員的風險評分綜合計算整個團伙的風險程度,從而識別出高風險的欺詐團伙。
3.2 社區發現算法簡介
LPA 算法簡介
第一步:為所有節點指定一個唯一的標簽;
第二步:逐輪刷新所有節點的標簽,直到達到收斂要求為止。對于每一輪刷新,節點標簽刷新的規則如下:對于某一個節點,考察其所有鄰居節點的標簽,并進行統計,將出現個數最多的那個標簽賦給當前節點。當個數最多的標簽不唯一時,隨機選一個。
Louvain 算法簡介
第一個階段:首先將每個節點指定到唯一的一個社區,然后按順序將節點在這些社區間進行移動。分別嘗試將節點移動到相鄰節點所在的社區,并計算相應的模塊度變化值,哪個移動變化最大就將節點移動到相應的社區中去。按照這個方法反復迭代,直到網絡中任何節點的移動都不能再改善總體模塊度值為止。
第二個階段:將第一個階段得到的社區視為新的“節點”(一個社區對應一個),重新構造子圖,兩個新“節點”之間邊的權值為相應兩個社區之間各邊的權值的總和,原社區內部邊的權值之和作為新“節點”的權值。簡單來說如果社區內部權值越大、社區之間權值越小,那么總體模塊度就越大。
Louvain算法包含了一種層次結構,正如對一個學校的所有初中生進行聚合一樣,首先我們可以將他們按照班級來聚合,進一步還可以在此基礎上按照年級來聚合,兩次聚合都可以看做是一個社區發現結果,就看想要聚合到什么層次與程度。
社區發現算法總結
LPA算法優勢是算法簡單,效率高;Louvain的優勢是支持多層聚類,可以先把所有用戶劃分為小組,然后以小組為單位進一步聚類,劃分為大組,以此類推,這樣可以發現更大或者更為隱蔽的詐騙團伙。
?
未來,我們也將持續利用各種新技術、新手段、新模型,結合互聯網業務風控場景的典型特征,探索更多行之有效的方法,應用到金融反欺詐中,相信很快,圖數據庫技術會發揮出更大的價值。
總結
以上是生活随笔為你收集整理的图数据库应用:金融反欺诈实践的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一个非典型产品经理的创业心得
- 下一篇: sklearn-GridSearchCV