當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

图模型在欺诈检测应用一点看法

發布時間：2023/12/20 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了图模型在欺诈检测应用一点看法小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

在三十而立的日子，把很久之前寫的東西發出來，以紀念這個特殊的日子。因為研究生研究經歷，以及工作經歷中前前后后涉及過這塊，之前也和很多人私下探討過這個領域問題，現在把里面一些關鍵點寫出來，算拋磚引玉吧。范濤發表于2017/12/07 -------------------------------------------------------------------------------------------------------------- 背景 為什么是圖模型？ （1）現實世界，實體之間本身就是存在自然關聯的。（2）欺詐者容易改變自身欺詐手法，逃避風控規則，但是他難以改變的全部關聯關系，以及難以掌握全局視圖，難以讓他所在網絡群體同步執行相同操作來躲避風控。還有一句話"天網恢恢，疏而不漏"，當關聯網絡覆蓋到一個很大范圍時候，欺詐者即使再小心，可能也會無意中暴露出一點蛛絲馬跡。在一個大型關聯網絡中，是十分容易發現邏輯不一致的地方（當一個人用一個謊言彌補自己的的過錯時候，未來他會用更多的謊言去圓當初的謊言，這個時候是十分容易出現邏輯悖論）。 圖模型挑戰： （1）標記數據獲取難度大，效果評估難度大；（2）工業界關聯網絡規模巨大，要求算法不僅識別精度高，在時間和空間上能scalable。 (3) 如何對模型進行解釋
技術方案 一：Structure based 1.1 Feature based 1.1.1 構建分類模型計算節點的入度，出度，聚類系數，節點介數，node2vec（節點向量表現形式）等，利用這些feature，以及節點本身具備的額外屬性特征構建分類器，識別是否欺詐。這種監督方法也比較主流，效果還是不錯的（螞蟻金服人工智能部對外技術分享提到過他們把node2vec，融入到風控模型中，帶來不錯的效果提升[1]）。風險點：把圖模型的特征融合到樣本特征體系中，需要考慮覆蓋情況，當你的關聯數據不夠龐大時候，圖模型特征可以覆蓋的樣本可能不足，這在訓練和應用監督模型時候可能是個問題。
1.1.2 挖掘異常subgraph 在網絡結構，比如某些subgraph在某些feature上（如平均degree值）遠高于其他，那這種結構在我們定義的網絡關系中是否合理？當我們根據歷史欺詐case發現某種欺詐場景的關聯網絡subgraph基本呈現特定結構，那我們可以在全局的關聯網絡圖中把符合這個特定結構的subgraph都找出來。

1.2Influence Propagation based 1.2.1 半監督方法 標記一些黑信息種子節點，通過網絡信息傳播算法對節點黑信息進行擴算，發現更多的黑信息節點。常見的信息傳播方法有personal pagerank，trust rank，anti-trust rank等[4][5][6]。但這幾種算法基本都是基于有向圖的傳播，同時傳播過程都有自己的假設前提。以網頁連接圖為例，有這樣的假設條件：好的網頁一般會連接好的網頁，極少會連接到惡意網頁，惡意的網頁一般只會被惡意網頁連接，但是惡意網頁連接的網頁未必是惡意的，因為他們通過連接一些好的網頁來提高自己影響力。所以trust rank 算法進行信任節點傳播時候，是沿著節點的出節點信任傳播，執行personalpagerank。但是anti-trust rank 算法對惡意信息進行傳播時候則不能這樣進行，不能沿著出節點對惡意值進行傳播，而是如假設所說，應該沿著這個節點入節點對惡意信息進行反向傳播。這種情況，可以把原來網絡圖連接關系進行反轉（入鏈變成出鏈，出鏈變成入鏈），然后執行personalpagerank，得到每個節點惡意得分。值得思考和深入研究的是，很多欺詐網絡是無向圖，利用上面的傳播方式是否合理？或者如何把無向圖轉成有向圖，再執行上述算法？同時即使是有向圖，實際場景是否滿足這個anti-trust算法假設呢？以支付交易為例，支付轉賬交易本身是有向圖，一般欺詐節點就是轉賬接收方，但是轉賬發起方卻未必是欺詐（如被騙交易），如果這對這種case一般就不能直接應用anti-trust進行惡意信息正向傳播，反而應該進行類似trust-rank那樣沿著出節點進行正向傳播惡意度。但是對盜卡的轉賬交易，這種基本是滿足anti-trust假設條件的。總的來說，應該根據實際業務場景去定制你的算法模型。
1.2.2 無監督方法 “CatchSync”[7]算法是用來捕獲大規模有向圖中同步行為，利用HITS算法，計算節點的hub值，authoritativeness值。構建節點出度-hubness 分布圖，入度-authoritativeness分布圖。通過對這兩個分布圖分析，可以發現節點異常行為。當一個節點的鄰居節點大多屬于這個分布圖同一個區域，那說明節點的鄰居具有同步行為。也可以通過衡量節點的鄰居節點和網絡其他節點在這些分布圖區域一致性占比，來衡量節點的正常性。

二： Community based methods 2.1 介紹幾個經典在工業界應用不錯的community detection 算法 2.1.1label propagation algorithms （LPA）[8] 這個方法是每次用戶獲取鄰居中出現頻次最高的社區標簽作為自己的標簽，反復迭代，直到收斂。這個算法一般使用異步更新節點社區標簽，因為如果網絡出現局部二部圖結構，會出現震蕩。他這個不是直接優化模塊度的，時間很快，線性時間復雜度，但是經常出現不收斂情況，同時因為引入了隨機性，容易導致每次結果不一致。
2.1.2 LabelRank[9] A Stabilized Label Propagation Algorithm for Community Detection in Networks. LabelRank 主要解決LPA算法的不收斂，結果不穩定問題，同時保持同樣的時間復雜度，這個對大規模數據很重要。 a. Propagation
每個節點的初始化如下：
b. Inflation 概率膨脹操作，提高每個節點高概率的社團概率，降低低概率社團概率

c. Cutoff 設置比率r 取值范圍(0，1), 對每個節點過濾掉低概率社團。可方法可以有效的降低存儲空間。 d. Explicit Conditional Update 在a,b,c 后，依然不能保證好的識別效果。最高的模塊度值可能在算法收斂前達到。所以，引入該步操作。每一輪迭代，只有滿足一定條件才更新節點的社團分布。這個條件背后的含義是當一個節點的最大概率社團和大多鄰居的最大概率社團一致時候，則不再更新。

e. Stop criterion 什么時候算法收斂？正常情況可以跟其他算法一樣，算前后兩次迭代分布差異，如果小于一定閾值的時候，則表明算法收斂。但是，LabelRank 采用不同的機制。可以利用“Explicit Conditional Update” 規則，記錄每次迭代中更新的節點數numChange。同時迭代過程中累計計算count(numChange)，當任何一個numChange 的次數超過事先設定的閾值或者當本次迭代沒有任何節點更新時候，則算法停止迭代。
2.1.3Fast unfoldingalgorithms[10] 這個算法速度也很快，效率很高，處理的節點的規模可以很大。這個方法分兩步：（1）從節點合并開始，構建第一步社團劃分結果。每個節點根據模塊度增益決定是否加入到鄰居節點的社團中和到底加入到哪個鄰居節點的社團中。每個節點按序執行該過程。（2）重新構建網絡。把第一步每個社團單做一個節點，邊是原來社團之間鏈接邊權的和。迭代(1), (2)，直到收斂。其中模塊度增益如下:

算法過程的圖例如下：

2.2 介紹了3中community detection 算法后，那如何應用到欺詐檢測上？ 工業界常用的做法：（1）半監督算法。標記一些種子節點，比如標記一些欺詐用戶，黑產設備等。基于這些種子節點開始擴散建立網絡圖，再利用community detection算法識別里面的團伙，這些能形成團伙的社團則被認為是欺詐社團。另外還有種思路就是不用從這些種子節點去擴散建立網絡，而是通過某種定義，建立一個大的關聯網絡，對這個大的關聯網絡進行community detection，看然后查看每個社團中包含種子節點的比率，以及種子節點在該社團和其他節點的緊密關聯程度等。（2）無監督方法。沒有標記的種子節點，這種情況，是沒法僅僅通過community detection來識別欺詐的。比如支付，登錄場景中，如果只要有關聯，就建立一條邊，比如用戶和用戶轉賬，用戶和手機號，用戶和設備關聯，這樣就會成成一個巨大關聯網絡，這樣劃分出來的社團很多都不會是欺詐的？那如何做？這種情況就需要從構建網絡的機制出發，比如構建邊時候只有當有惡意情況下才建立邊，后者大概率異常關聯時候才開始建立邊。這種假設前提保證了劃分出的社團大概率是欺詐團伙，單個節點某些惡意關聯可能出錯，但是當一個群體出現類似惡意情況，那這種大概率是欺詐。也是社團識別方法的一大優勢點，可以發現群體規律，利用群體規律去定義和發現問題。
2.3 識別community中overlap節點 比如互聯網金融里面很多黃牛，貸款中介可能是處于團伙這的橋接節點（bridge node），比如下圖的節點t，t的鄰居屬于多個不同社團，這些橋接點很有可能是欺詐節點。
“Neighborhood Formation and Anomaly Detection in Bipartite Graphs” [11] 這個算法回到了兩個問題: a）Neighborhood Formation ：給定一個V1中節點a, 如何在V1中找到相似節點b？ b) Anomaly Detection：如何利用相似性，找到V2中橋接節點t？ a）節點相似性，通過類似personal pagerank思路，從節點開始進行隨機游走，計算節點間的可達概率，來衡量節點間相似值。 b）Anomaly Detection是通過定義節點"normality scores"來衡量節點是否是橋接節點，進而被定義為異常點。節點的“normality scores”是指節點鄰居節點間的兩兩間相似度平均值，當“normality scores”比較低時候說明節點鄰居節點是在不同社團。
值得注意的是，這個算法的假設前提是網絡中連接多個社團的橋接節點是異常節點。如果把這個應用在欺詐檢測上，那就必須滿足這個前提，否則算法就會失效。比如以一個人為中心的egonet網絡，可能有多個社團，比如大學，高中，工作社團，這個人是這個網絡橋接節點，但是這個人卻不是欺詐節點。所以，需要在構建網絡時候需要注意，比如利用貸款用戶，貸款中介構建某種關聯網絡時候，需要滿足當一個節點屬于多個社團時候，那他極可能是欺詐節點的假設前提，否則是不可以直接應用這個算法的。
3 圖模型效果解釋性和評估 欺詐節點識別出來了，那如何解釋這些節點？如何量化評估你算法識別效果？（1）解釋性：圖模型效果解釋性一直是個難點。這里面說下一些業界目前比較常用的做法。比如識別的惡意社團, 我們可以利用已有節點屬性特征（如年齡，學歷，收入水平，歷史變動頻率）來查看這個社團是否普遍一致具備某幾種惡意特性。利用結構化信息識別惡意節點，我們不僅可以觀察他的feature特性，也可以刻畫出這些惡意節點間連接subgraph，輔助可視化手段去分析。（曾經看過一個案例，黑時時彩線下賭博，整個轉賬關系網絡是呈現樹狀結構，并且層次化的。網絡最上面莊家節點在香港，他有幾個代理下家分別內地幾個城市，這些下家負責和內地用戶進行轉賬交易，最上面的莊家基本只和幾個內地代理下家有現金交易，并且這些下家彼此負責的用戶彼此交集很小。當我們利用圖的方法挖掘出來這些節點，利用網絡可視化將會很容易發現這些節點的異常。） (2) 評估：圖模型相對監督模型如分類器，評估難度很大，可能很難給出特別精準的評估效果，但是依然可以找到方法進行部分評估。評估分離線評估和在線評估。離線評估方法有 a) 交叉驗證，評估歷史一段時間壞樣本的覆蓋率，好樣本的誤傷率 b) 利用其它模型交互驗證。在線評估：主要是A/B Test ，設計線上評估指標，如登錄成功率，交易成功率，驗證成功率等等，評估這些欺詐節點在在這些評估指標上的量化效果。
參考文獻 [1]https://mp.weixin.qq.com/s/TJ6Xr6-Tv9bTtWTP-SOB0w [2] Akoglu L, Tong H, Koutra D. Graph based anomaly detection and description: a survey[J]. Data Mining and Knowledge Discovery, 2015, 29(3): 626-688. [3] Sensarma D, Sarma S S. A survey on different graph based anomaly detection techniques[J]. Indian Journal of Science and Technology, 2015, 8(31). [4]Aktas M S, Nacar M A, Menczer F. Personalizing pagerank based on domain profiles[C]//Proc. of WebKDD. 2004: 22-25. [5] Krishnan V, Raj R. Web spam detection with anti-trust rank[C]//AIRWeb. 2006, 6: 37-40. [6] Gy?ngyi Z, Garcia-Molina H, Pedersen J. Combating web spam with trustrank[C]//Proceedings of the Thirtieth international conference on Very large data bases-Volume 30. VLDB Endowment, 2004: 576-587. [7]Jiang M, Cui P, Beutel A, et al. Catchsync: catching synchronized behavior in large directed graphs[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 941-950. [8]Raghavan U N, Albert R, Kumara S. Near linear time algorithm to detect community structures in large-scale networks[J]. Physical review E, 2007, 76(3): 036106. [9]Xie J, Szymanski B K. Labelrank: A stabilized label propagation algorithm for community detection in networks[C]//Network Science Workshop (NSW), 2013 IEEE 2nd. IEEE, 2013: 138-143. [10]Blondel V D, Guillaume J L, Lambiotte R, et al. Fast unfolding of communities in large networks[J]. Journal of statistical mechanics: theory and experiment, 2008, 2008(10): P10008. [11]Sun J, Qu H, Chakrabarti D, et al. Neighborhood formation and anomaly detection in bipartite graphs[C]//Data Mining, Fifth IEEE International Conference on. IEEE, 2005: 8 pp. [12] http://blog.csdn.net/hero_fantao/article/details/38929803

總結

以上是生活随笔為你收集整理的图模型在欺诈检测应用一点看法的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java f5 f6 f7_ACCA考试
下一篇： cancel事件

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

图模型在欺诈检测应用一点看法

總結