重磅风控干货:如何用数据分析监测交易欺诈
重磅風(fēng)控干貨:如何用數(shù)據(jù)分析監(jiān)測(cè)交易欺詐
2015-12-15 ?Purefact ?來(lái)源??閱?2157??轉(zhuǎn)?20 轉(zhuǎn)藏到我的圖書(shū)館微信分享:QQ空間QQ好友新浪微博推薦給朋友論壇君 本文作者厚龍,曾參與了“每天一個(gè)數(shù)據(jù)分析師”采訪(詳情請(qǐng)點(diǎn)擊“閱讀原文”),現(xiàn)在互聯(lián)網(wǎng)金融風(fēng)控行業(yè)工作。他學(xué)以致用,將數(shù)據(jù)分析應(yīng)用于交易欺詐,全文干貨滿滿,對(duì)于數(shù)據(jù)分析愛(ài)好者是不可多得的一篇好文。 作者:厚龍 本文為CDA數(shù)據(jù)分析師約稿,如需轉(zhuǎn)載,請(qǐng)標(biāo)明來(lái)源,否則視為侵權(quán)。 交易欺詐一般是指第三方欺詐,即所發(fā)生的交易非持卡人本人意愿的交易。通常是不法分子利用各種渠道竊取卡信息,進(jìn)行偽造卡作案。 一個(gè)從盜取信息到套現(xiàn)的整個(gè)流程 第三方交易欺詐的特點(diǎn):使用他卡;在最短時(shí)間內(nèi)大量用卡;一定以獲利為目的;一般有區(qū)域集中性。 交易反欺詐模型的特點(diǎn)和難點(diǎn):海量數(shù)據(jù)計(jì)算、小概率事件、欺詐模式變化快、數(shù)據(jù)一般是割裂的。 交易識(shí)別方法,主要有風(fēng)控規(guī)則引擎、異常檢測(cè)、機(jī)器學(xué)習(xí)方法等。
以上方法建立的前提都是欺詐分子可以盜用客戶信息,也可以偽造客戶卡片,但是無(wú)法復(fù)制客戶的交易行為模式。因此客戶交易行為特征檔案是以上規(guī)則建立的基礎(chǔ)。 檔案要求:客戶投資行為和交易模式從各個(gè)維度刻畫(huà)客戶的行為;隨交易活動(dòng)實(shí)時(shí)更新;每個(gè)客戶需有唯一檔案。 ——以上假設(shè)對(duì)于互聯(lián)網(wǎng)金融P2P投資而言,難度更大,原因:投資金額的不確定性、投資產(chǎn)品較少,客戶交易行為特征歸納難度大。 (1)風(fēng)控規(guī)則引擎 風(fēng)控組合規(guī)則一般是通過(guò)業(yè)務(wù)經(jīng)驗(yàn)及對(duì)歷史風(fēng)險(xiǎn)事件的總結(jié)形成的反欺詐規(guī)則,可以理解為多維組合分析,一般需根據(jù)業(yè)務(wù)成本、對(duì)風(fēng)險(xiǎn)的容忍度設(shè)置關(guān)鍵變量的閾值。 (2)異??梢山灰讬z測(cè) 異常值模型是用于從大量數(shù)據(jù)構(gòu)成的樣本群體中識(shí)別出與該群體有顯著差異或者異常情況的樣本的過(guò)程。在反欺詐領(lǐng)域,欺詐交易和正常交易有顯著差異,可以用異常模型進(jìn)行補(bǔ)充,一般是以距離為測(cè)量尺度,把樣本關(guān)鍵信息標(biāo)準(zhǔn)化為可測(cè)信息,進(jìn)行聚類,聚類中樣本較小的簇確定是否為異常樣本,常用在探索性分析階段。異常樣本與統(tǒng)計(jì)學(xué)中的離群值概念相似。 (3)機(jī)器學(xué)習(xí)的方法 常用的分類算法都可以應(yīng)用在此類場(chǎng)景中,比如:神經(jīng)網(wǎng)絡(luò)、貝葉斯方法、決策樹(shù)、支持向量機(jī)等。不同于一般分類問(wèn)題的是:“欺詐”這種異常模式(類別)的占比可能非常小(不超過(guò)5%,一般低于1%),為保證訓(xùn)練和測(cè)試樣本中包含一定數(shù)量的此異常模式記錄,在準(zhǔn)備數(shù)據(jù)時(shí)可能需要分層抽樣。 不同于信用評(píng)分模型(使用logistic回歸較多),在反欺詐領(lǐng)域,普遍使用神經(jīng)網(wǎng)絡(luò)模型技術(shù),該技術(shù)模擬人腦功能的基本特征,適合處理需同時(shí)考慮許多因素和條件的非線性問(wèn)題。神經(jīng)網(wǎng)絡(luò)模型具有識(shí)別率高、穩(wěn)定性強(qiáng)且易于系統(tǒng)落地實(shí)施等優(yōu)點(diǎn)。 網(wǎng)絡(luò)一般包含三或更多層,其至少包含的有輸入層、隱含層及輸出層。 比如輸入信息可能為:輸入變量1交易金額、輸入變量2交易時(shí)間、輸入變量3產(chǎn)品類型、輸入變量4用戶年齡、輸入變量4近一周交易特定類型失敗交易失敗筆數(shù)、本次金額與歷史N次最大交易金額相比、是否歷史常用設(shè)備等。 輸出信息為交易評(píng)分。可以發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)中間是個(gè)黑箱,它的缺點(diǎn)為業(yè)務(wù)解釋困難,這要求特征工程提取有較高質(zhì)量。 建模流程 詳細(xì)說(shuō)明建模過(guò)程如下: (1)數(shù)據(jù)準(zhǔn)備方面 一般需考慮現(xiàn)有的數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市系統(tǒng)或交易系統(tǒng)、存在于其他外部的數(shù)據(jù)等。需充分考慮現(xiàn)有數(shù)據(jù)結(jié)構(gòu)如何、是否具備該數(shù)據(jù)、當(dāng)前數(shù)據(jù)信息量是否足夠、壞樣本是否足夠建模等等,總之,做好數(shù)據(jù)準(zhǔn)備是影響問(wèn)題解決效率的重要前提。 舉例一般的欺詐交易模型所需數(shù)據(jù)可能包括:
(2)特征工程方面 a.目標(biāo)定義:將欺詐數(shù)據(jù)與交易數(shù)據(jù)相匹配,欺詐賬戶在欺詐窗口(第一次欺詐日到被發(fā)現(xiàn)之日)之間的所有交易即為欺詐性交易; 對(duì)非欺詐賬戶,其所有交易即為非欺詐性交易。欺詐賬戶在第一次欺詐日之前的正常交易只為欺詐賬戶建立檔案,但這些正常交易本身并不作為非欺詐性交易進(jìn)入建模樣本。 b.變量設(shè)計(jì):包括原始變量和衍生變量?jī)煞N。
過(guò)去10分鐘,30分鐘,1小時(shí),2小時(shí)…半天,1天,2天…1周…1月等時(shí)間段交易的次數(shù)或平均金額;當(dāng)前交易金額與過(guò)去若干時(shí)間段的交易金額的均值和標(biāo)準(zhǔn)差的對(duì)比等等;
賬戶設(shè)備號(hào)是否為常用設(shè)備;賬戶敏感信息有沒(méi)有發(fā)生過(guò)修改;賬戶歷史失敗交易占比等;過(guò)去過(guò)去2次,3次…10次…N次交易的平均金額;過(guò)去2次,3次…10次…N次交易的最大金額;當(dāng)前交易金額與過(guò)去若干次的交易金額的均值,標(biāo)準(zhǔn)差和最大值的對(duì)比等等。(衍生變量一般是歷史數(shù)據(jù)的匯聚,從客戶檔案中提取)。 c.數(shù)據(jù)處理注意點(diǎn):WOE代替(分類型變量定量化);時(shí)間可劃分為7*24小時(shí)建立二維向量。通過(guò)這些復(fù)雜的變量,可以捕捉到每個(gè)賬戶的歷史行為模式,當(dāng)前交易行為與歷史行為模式的差距,交易發(fā)生的速率和動(dòng)態(tài)等等。產(chǎn)生上述變量需要一定時(shí)間的交易歷史(6—12月),涉及的交易量龐大,每筆交易的數(shù)據(jù)量也不小,如何有效地保存,清理,加工這些數(shù)據(jù)并在此基礎(chǔ)上快速計(jì)算所需變量是一個(gè)技術(shù)關(guān)鍵。一般這步之后,有較多的變量,那接下的工作就是變量選擇。 d.變量選擇:由于建模需要構(gòu)建出大量的變量,有些變量預(yù)測(cè)能力強(qiáng),有些變量預(yù)測(cè)能力弱,不篩選會(huì)影響效率。此外,變量的子集很可能高度相關(guān),造成“過(guò)擬和”,模型的準(zhǔn)確性和可靠性將受到損害。 注:過(guò)擬合是指在測(cè)試樣本效果佳但由于訓(xùn)練過(guò)度推廣至新樣本效果反而不佳。 以神經(jīng)網(wǎng)絡(luò)模型為例,神經(jīng)網(wǎng)絡(luò)BP算法訓(xùn)練過(guò)程中,不能自動(dòng)篩選變量(回歸可以,有向前、向后等)。為了找到一組預(yù)測(cè)能力強(qiáng)、變量之間的相關(guān)性弱的變量,不影響模型準(zhǔn)確性,增加模型穩(wěn)定性。變量篩選的方法主要如下:單變量預(yù)測(cè)能力篩選:靈敏度分析、變量相關(guān)性檢查。一般而言,交易反欺詐模型需要輸入變量數(shù)遠(yuǎn)多于信用評(píng)分模型。 (3)模型訓(xùn)練 按以下步驟訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,直至模型效果最佳。 a.對(duì)所有設(shè)計(jì)產(chǎn)生的自變量先進(jìn)行初步篩選,排除明顯無(wú)預(yù)測(cè)能力的變量,剩余變量在神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中再進(jìn)行精選。 b.根據(jù)輸入變量的數(shù)目,設(shè)計(jì)合理的網(wǎng)絡(luò)結(jié)構(gòu)和隱節(jié)點(diǎn)數(shù)(關(guān)鍵)。一般交易欺詐模型有上百個(gè)變量,一層隱含層,十幾個(gè)隱含節(jié)點(diǎn)。 c.根據(jù)設(shè)計(jì)好的網(wǎng)絡(luò)結(jié)構(gòu),選取合適的訓(xùn)練參數(shù)和收斂條件,在上述第一步數(shù)據(jù)進(jìn)一步劃分后的純訓(xùn)練數(shù)據(jù)上訓(xùn)練模型,在測(cè)試數(shù)據(jù)上測(cè)試模型效果。 d.在有了初步訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型后,可用靈敏度分析等手段進(jìn)一步篩選變量。 e.對(duì)每個(gè)分段(segment),步驟3到步驟5都要重復(fù)多次,調(diào)整輸入變量,調(diào)整隱節(jié)點(diǎn)數(shù),調(diào)整訓(xùn)練參數(shù),最后選出一個(gè)在測(cè)試數(shù)據(jù)上表現(xiàn)最好的模型作為該分段的最終模型。相對(duì)邏輯回歸來(lái)說(shuō),神經(jīng)網(wǎng)絡(luò)的訓(xùn)練更加于經(jīng)驗(yàn),如何設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)、各個(gè)參數(shù)大小等很重要。 (4)模型驗(yàn)證及評(píng)估 交易驗(yàn)證及精準(zhǔn)率和召回率評(píng)估(見(jiàn)下文案例部分介紹)。 交易反欺詐策略:
一個(gè)簡(jiǎn)單的欺詐監(jiān)測(cè)案例 [ 案例及代碼來(lái)源:“Data Mining with R: Learning with Case Studies”] 應(yīng)用思路 欺詐模型相關(guān)的案例較少,考慮商業(yè)數(shù)據(jù)的敏感性,采用案例數(shù)據(jù)來(lái)自“Data Mining with R: Learning with Case Studies”一書(shū),請(qǐng)大家自行百度,理解掌握本案例對(duì)有志于從事反欺詐、風(fēng)險(xiǎn)數(shù)據(jù)分析相關(guān)領(lǐng)域的數(shù)據(jù)分析新手有很大的幫助。另外,R內(nèi)置此數(shù)據(jù)大家可以完全可以拿來(lái)練手。 具體如下:某公司的銷售員所報(bào)告的交易數(shù)據(jù)。這些銷售員負(fù)責(zé)銷售該公司的產(chǎn)品并定期報(bào)告銷售情況。銷售員可以按照自己的策略和市場(chǎng)情況來(lái)自由設(shè)置銷售價(jià)格。月末,向公司報(bào)告銷售情況。數(shù)據(jù)挖掘應(yīng)用的目的是根據(jù)公司過(guò)去發(fā)現(xiàn)的交易報(bào)告中的錯(cuò)誤和欺詐企圖,幫助公司完成核實(shí)這些銷售報(bào)告的真實(shí)性的工作。提供一份欺詐率排名報(bào)告,這個(gè)欺詐率排名將允許公司把有限的檢驗(yàn)資源分配給系統(tǒng)提示的更“可疑”的那些報(bào)告。 案例數(shù)據(jù)共401146行,每一行包括來(lái)自銷售員報(bào)告的信息。包括:
(1)了解數(shù)據(jù)概況 a.顯示前幾行數(shù)據(jù),如下: b.初步了解數(shù)據(jù)特征發(fā)現(xiàn),數(shù)據(jù)集中有大量的產(chǎn)品和銷售人員信息;同時(shí)數(shù)據(jù)缺失問(wèn)題存在。 c.觀察下有多少不同的產(chǎn)品和銷售人員:
d.繼續(xù)往下看: 下圖各銷售人員交易量波動(dòng)性很強(qiáng)且不同產(chǎn)品可能有較大差異,但我們還沒(méi)有考慮產(chǎn)品數(shù)量的影響。
說(shuō)明:現(xiàn)在我們要做一個(gè)假設(shè),短時(shí)期內(nèi)同一產(chǎn)品單位交易價(jià)格應(yīng)該是相對(duì)穩(wěn)定的。產(chǎn)品單價(jià)不應(yīng)該出現(xiàn)巨大變化?!覀儌蓽y(cè)欺詐交易的業(yè)務(wù)邏輯前提,有這個(gè)前提,我們需要對(duì)每個(gè)產(chǎn)品的交易進(jìn)行分析,找出每個(gè)產(chǎn)品的可疑交易。同時(shí)我們需要考慮交易量少于20的產(chǎn)品(982種)。 e.下面看看最貴的和最便宜的單位價(jià)格對(duì)比。 注:我們上圖已經(jīng)對(duì)價(jià)格做了對(duì)數(shù)處理,這是常用的方法,當(dāng)數(shù)據(jù)量級(jí)不在同一水平時(shí)。 f.類似價(jià)格,我想看看哪些給公司帶來(lái)給多貢獻(xiàn)的銷售人員。 以上數(shù)據(jù)結(jié)果說(shuō)明:銷售金額前100(不到2%)的銷售人員銷售收入占比超過(guò)40%,而近三分之一的銷售人員只貢獻(xiàn)了約2%;而產(chǎn)品方面差異更為顯著,后90%的產(chǎn)品僅貢獻(xiàn)了少于10%的銷量。這個(gè)信息對(duì)生產(chǎn)十分有用,但并不意味著公司應(yīng)該停止該產(chǎn)品生產(chǎn),因?yàn)槲覀儧](méi)有生產(chǎn)成本的信息,這些產(chǎn)品有邊際利潤(rùn)存在的可能,同時(shí)也不是本案例的目的。 g.下面進(jìn)行初步異常偵測(cè),看大概異常比例。 假設(shè):所有產(chǎn)品的單價(jià)接近正態(tài)分布,即同一產(chǎn)品價(jià)格大致相同,它們之間的變化可能是某些銷售人員為了達(dá)到他們商業(yè)目的而采取的策略。此次先采取箱線圖規(guī)則,定義:如果一個(gè)觀測(cè)值高于上須或低于下須,將其觀測(cè)值標(biāo)記為異常高(低)。上下須定義Q3 1.5*四分位距、Q1-1.5*四分位數(shù),IQR=Q3-Q1。Q3、Q1分別代表75%、25%處的總體水平。對(duì)單變量,在有少數(shù)離群值時(shí)此規(guī)則是有效的。經(jīng)計(jì)算約有7%的交易被認(rèn)為是離群值(異常價(jià)格)的交易。 但是我們利用的數(shù)據(jù)可能本身是有噪聲的,有的數(shù)據(jù)是缺失的、有的數(shù)據(jù)尚未進(jìn)行檢查且占比高,這部分?jǐn)?shù)據(jù)需要拿來(lái)檢驗(yàn)異常是危險(xiǎn)的,因此,我們需要對(duì)數(shù)據(jù)進(jìn)行處理,同時(shí)考慮更科學(xué)的偵測(cè)方法。 (2)處理缺失值和少量交易產(chǎn)品的問(wèn)題 缺失值處理過(guò)程略去(不代表不重要),但說(shuō)明主要采用的方法,對(duì)于銷售總價(jià)和數(shù)量都不存在的樣本進(jìn)行剔除;而對(duì)于僅缺失數(shù)量或銷售總價(jià)的樣本采用價(jià)格中位數(shù)進(jìn)行填補(bǔ)缺失值并重新計(jì)算另一變量的方式處理。 (3)處理少量交易的產(chǎn)品 思路:歸入其他產(chǎn)品類。 具體為:嘗試觀測(cè)產(chǎn)品單價(jià)分布的相似性來(lái)推斷其中的一些關(guān)系。如果發(fā)現(xiàn)有類似價(jià)格的產(chǎn)品考慮合并相應(yīng)交易進(jìn)行分析,從而尋找異常值。前文講到交易樣本小于20的產(chǎn)品共982種。而比較分布的方法有數(shù)據(jù)可視化和統(tǒng)計(jì)檢驗(yàn),鑒于產(chǎn)品種類多,采用統(tǒng)計(jì)檢驗(yàn)方法,考察數(shù)據(jù)分布的統(tǒng)計(jì)特性(集中趨勢(shì)和離散程度)離散程度使用中位數(shù)、離散程度采用四分位差。采用這兩個(gè)指標(biāo)的原因在于中位數(shù)和四分位差較于均值和標(biāo)準(zhǔn)差而言受異常值影響小(大家可以思考為什么?),指標(biāo)更穩(wěn)健。
數(shù)據(jù)顯示如下:許多少數(shù)產(chǎn)品的中位數(shù)和IQR和其他產(chǎn)品非常相似。然而也有幾種產(chǎn)品不僅交易少,而且價(jià)格分布也有較大差異。為了更有效的比較分布我們使用K-S檢驗(yàn)分布是否來(lái)自相同分布,顯著性水平定義為10%。
結(jié)果顯示,10%的顯著性水平下,只有117個(gè)產(chǎn)品我們可以找到類似產(chǎn)品。 至此數(shù)據(jù)預(yù)處理結(jié)束。 目的:運(yùn)用數(shù)據(jù)科學(xué)方法為確定是否核實(shí)這些交易提供指導(dǎo),對(duì)交易欺詐率進(jìn)行排名,僅處理檢查資源有限范圍內(nèi)的欺詐交易(排名靠前的若干可疑交易)。解決建模目標(biāo)的方法是前面所介紹的無(wú)監(jiān)督、有監(jiān)督、半監(jiān)督方法,分別介紹其思路如下。在這之前先說(shuō)下數(shù)據(jù)現(xiàn)狀:數(shù)據(jù)Insp列有兩種類型的觀測(cè)值,有標(biāo)記和無(wú)標(biāo)記,而有標(biāo)記比例不足4%。 我們采用Holdout方法進(jìn)行抽樣,即將已有數(shù)據(jù)即分成兩部分,通常比例是70%、30%。一部分用于建模,一部分用于測(cè)試并選擇重復(fù)多次,選擇3次,保障結(jié)果是可靠的。。 但由于樣本特殊性給建模造成了一定困難,即數(shù)據(jù)不平衡問(wèn)題,不同類型樣本之間的分布不均衡,即在標(biāo)記個(gè)案上是不平衡的。正常抽樣策略可能導(dǎo)致一個(gè)測(cè)試集的正常報(bào)告與欺詐報(bào)告比例不同,這需要采用分層抽樣方法解決,即從不同類型觀測(cè)袋子中隨機(jī)抽樣,以確保抽取的樣本遵守初始數(shù)據(jù)的分布。Holdout方法是類似于交叉驗(yàn)證和蒙特卡羅實(shí)驗(yàn)的另一種實(shí)驗(yàn)控制方法。 模型評(píng)級(jí)準(zhǔn)則:決策精確度(Precision)與召回率(Recall)。 對(duì)于我們的案例而言,一個(gè)成功模型應(yīng)得到一個(gè)交易排序,其中已知的欺詐交易在頂部,給定一個(gè)我們的資源允許檢驗(yàn)的報(bào)告?zhèn)€數(shù)K,我們希望在排序的頂部k個(gè)位置中,或者只有欺詐交易的報(bào)告或者只有未檢驗(yàn)的報(bào)告,同時(shí)我們希望所有已知的欺騙報(bào)告出現(xiàn)在這k個(gè)位置中。但考慮我們目標(biāo)的特殊性,我們預(yù)測(cè)的是一個(gè)小概率的罕見(jiàn)事件,精確度與召回率是合適的評(píng)級(jí)指標(biāo)。給定檢驗(yàn)限制k,我們可以計(jì)算排序的最頂端k個(gè)位置的決策精確度與召回率。這個(gè)限定值k決定了模型哪些報(bào)告應(yīng)該被檢驗(yàn)。從監(jiān)督學(xué)習(xí)分類的角度去看,我們相當(dāng)于預(yù)測(cè)頂端的k個(gè)位置預(yù)測(cè)為fraud類,其余為正常報(bào)告。精確度告訴我們頂端k個(gè)值多大比例事實(shí)上是標(biāo)記為欺詐的報(bào)告。而召回率的值告訴我們k個(gè)位置所包含的測(cè)試集的欺詐行為比例。同時(shí)我們采用悲觀計(jì)算的方式,因?yàn)榍発個(gè)樣本中未標(biāo)記的報(bào)告很可能是fraud交易但我們計(jì)算精確度和召回是沒(méi)有考慮他們的。 同時(shí)如果算法沒(méi)有顯著提升的情況下,精確度與召回率之間是需要權(quán)衡的。因?yàn)橐话愣呤秦?fù)相關(guān)的,給定用于檢驗(yàn)行為的資源約束條件,我們真正想要的是最大限度的利用資源。這意味著我們可以用x小時(shí)檢查報(bào)告,并能夠在這x小時(shí)捕捉到所有欺詐行為,及時(shí)有一定的正常交易我們也不care,因?yàn)槟康倪_(dá)到了,即我們需要的是使用現(xiàn)有資源達(dá)到100%的召回率。而精確度與召回率趨勢(shì)是模型性能的可視化表現(xiàn)。通過(guò)不同的工作點(diǎn)得到上面統(tǒng)計(jì)量的插值,得到該曲線。這些工作點(diǎn)由模型感興趣的類別排序中斷點(diǎn)給出。在我們案例中,這將對(duì)于應(yīng)用在模型所產(chǎn)生的離群值排序上的不同資源限制。對(duì)不同的限制水平(即檢驗(yàn)更少或更多的樣本)進(jìn)行迭代,得到不同的決策精確度和召回率。--PR圖。 提升圖:x軸模型預(yù)測(cè)陽(yáng)性的概率;y軸是召回率比上陽(yáng)性預(yù)測(cè)率的商;同時(shí)還有累計(jì)召回度圖形,該模型曲線余越靠近上方,模型越好;此外,考慮模型排名前面可能包含未標(biāo)記的樣本,我們要檢驗(yàn)排序質(zhì)量的另外方法就是計(jì)算評(píng)估樣本單位價(jià)格和相應(yīng)產(chǎn)品的標(biāo)準(zhǔn)價(jià)格聚類,衡量異常值排名質(zhì)量。 即我們通過(guò)PR圖和lift圖和標(biāo)準(zhǔn)價(jià)格距離衡量各建模效果。 (1)無(wú)監(jiān)督方法
局部離群因子系統(tǒng)(LOF):通過(guò)估計(jì)個(gè)案和局部領(lǐng)域的分離程度來(lái)得到個(gè)案離群值分?jǐn)?shù)。在低密度區(qū)域的個(gè)案被視為離群值。個(gè)案的離群估計(jì)值是通過(guò)個(gè)案之間的距離來(lái)獲得的。 對(duì)比兩種方法的結(jié)果: 對(duì)于較低的檢驗(yàn)限值,LOF是優(yōu)于Bprule的,同時(shí)對(duì)于10%的檢驗(yàn)限值,LOF方法的標(biāo)準(zhǔn)距離明細(xì)高于BPrule方法。
(2)有監(jiān)督方法 類失衡問(wèn)題解決,采用欠抽樣的方法。如下: 解決類失衡后,分別采用簡(jiǎn)單bayes和簡(jiǎn)單bayesSmote版本和orh算法解決進(jìn)行建模結(jié)果對(duì)比如下:可見(jiàn)兩種方法與聚類方法相比均是令人失望的。 Adaboost方法,組合學(xué)習(xí)方法,預(yù)測(cè)值是通過(guò)對(duì)一組基本模型的預(yù)測(cè)值進(jìn)行某種形式的組合形成的,該方法應(yīng)用一種自適應(yīng)增強(qiáng)的方法來(lái)得到一組基本模型,是一種常見(jiàn)的提高基本性能的方法。它通過(guò)一種加權(quán)方式提高性能:增加被前一個(gè)模型誤分類的個(gè)案的權(quán)重。經(jīng)過(guò)迭代結(jié)果是一組在不同訓(xùn)練集數(shù)據(jù)上的基本模型。加權(quán)方式應(yīng)對(duì)類失衡問(wèn)題對(duì)學(xué)習(xí)算法很有意義,即使在初始迭代中有少數(shù)個(gè)案被模型忽略,它們的權(quán)重將會(huì)增加,模型被迫學(xué)習(xí)它們。理論上著將導(dǎo)致得到的組合模型能更精確的預(yù)測(cè)這些稀有的個(gè)案。 Adaboost.M1是其中一種有效算法。建模效果如下: PR曲線而言,對(duì)低水平的召回值,精確度明細(xì)低于ORh方法,但對(duì)本案,累計(jì)召回度,與ORh效果接近,說(shuō)明Adaboost在對(duì)類失衡問(wèn)題下仍有較好的性能。 (3)半監(jiān)督方法 同時(shí)使用檢驗(yàn)的和沒(méi)有檢驗(yàn)的報(bào)告來(lái)得到偵測(cè)欺詐報(bào)告的分類模型。采用自我訓(xùn)練模型,該方法先用給定標(biāo)記的個(gè)案建立一個(gè)初始的分類器,然后應(yīng)用這個(gè)分類器來(lái)預(yù)測(cè)給定訓(xùn)練集中未標(biāo)記的個(gè)案,將分類器中有較高置信度的預(yù)測(cè)標(biāo)簽所對(duì)應(yīng)的個(gè)案和預(yù)測(cè)的標(biāo)簽一起加入有標(biāo)記的數(shù)據(jù)集中。繼續(xù)迭代新分類器,直至收斂。三個(gè)重要參數(shù),基本訓(xùn)練模型、分類置信度閾值、收斂準(zhǔn)則。我們采用基本訓(xùn)練模型為簡(jiǎn)單Adaboost.M1方法進(jìn)行自我訓(xùn)練。 建模效果如下: 在以上嘗試的所有模型中,累計(jì)召回曲線最好的明顯哦是自我訓(xùn)練AdaBoost.M1模型。15%-20%的檢驗(yàn)限值比例可以確定80%以上的累計(jì)召回率。它明細(xì)好于其他模型,雖然就精確度而言并不出色,但本案重要的是在有限資源找出欺詐案例。因此該模型式最優(yōu)的對(duì)于我們的建模任務(wù)。 |
總結(jié)
以上是生活随笔為你收集整理的重磅风控干货:如何用数据分析监测交易欺诈的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 柳青:2017,滴滴实现规模增长和修炼内
- 下一篇: 区块链即数字生产关系