反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片(2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型分类: 风控 文章来源:网络(经整合梳理
反欺詐技術(shù)揭秘-設(shè)備指紋VS關(guān)系網(wǎng)絡(luò)模型
? (2017-05-12 10:23:52) 轉(zhuǎn)載▼ 標(biāo)簽:? 設(shè)備指紋?關(guān)系網(wǎng)絡(luò)?反欺詐?神經(jīng)網(wǎng)絡(luò)模型 | 分類:?風(fēng)控 |
?????
?????從互聯(lián)網(wǎng)金融誕生之日起,騙貸者便如影隨形。
坊間傳說(shuō),2016年,至少有3家互聯(lián)網(wǎng)金融領(lǐng)域的創(chuàng)業(yè)公司,被騙貸者“擼”垮。
小平臺(tái)深受其害,大平臺(tái)同樣也躲不過(guò)。作為一家已經(jīng)在美國(guó)上市的P2P公司,宜人貸在2016年三季報(bào)坦誠(chéng),由于旗下產(chǎn)品遭遇“有組織的欺詐事件”,公司損失了8130萬(wàn)元的風(fēng)險(xiǎn)準(zhǔn)備金。
那么問(wèn)題來(lái)了,作為一個(gè)騙貸者,他究竟是如何騙到錢(qián)的呢?
??????線上招收學(xué)員
?????????由于互聯(lián)網(wǎng)金融行業(yè)的無(wú)序發(fā)展,大多數(shù)平臺(tái)的風(fēng)控能力相對(duì)薄弱,騙貸者便利用“口子”(平臺(tái)的風(fēng)控漏洞),設(shè)法把錢(qián)騙到手。
????????一般來(lái)說(shuō),要想成為騙貸者,必須先找到人教,弄清楚平臺(tái)的漏洞究竟是什么。
????????在這一過(guò)程中,互聯(lián)網(wǎng)成了最為便利的工具。只要你每天在騙貸者聚集的論壇或貼吧發(fā)帖,就會(huì)引起中介的注意。
????????發(fā)帖的內(nèi)容頗有講究,騙貸者一定要注明是兼職的需求,只有這樣,中介才會(huì)在收取一筆費(fèi)用后,將騙貸者介紹進(jìn)入他們的體系。
???????當(dāng)然,中介也會(huì)核查騙貸者的身份,確保不是記者或金融機(jī)構(gòu)的人。核查方法很簡(jiǎn)單,查看騙貸者的朋友圈——如果朋友圈里都是些吃吃喝喝的內(nèi)容,更容易獲得中介的信任。
???????在取得中介信任后,騙貸者就有可能獲得各互聯(lián)網(wǎng)平臺(tái)的規(guī)則漏洞,以及騙貸攻略,并據(jù)此開(kāi)始騙貸。
???????上述過(guò)程中,找到一個(gè)靠譜的中介至關(guān)重要,騙貸者被中介“黑吃黑”,損失數(shù)百元中介費(fèi)的情況,極為常見(jiàn)。
線下購(gòu)買身份
???????如果說(shuō)線上的騙貸者,更多是單打獨(dú)斗的話,線下的騙貸者,組織更為嚴(yán)密。
???????有的騙貸組織,會(huì)專門(mén)去偏遠(yuǎn)農(nóng)村,去購(gòu)買大批留守老人的身份信息——酬勞往往非常廉價(jià),可能是一籃子雞蛋,也可能是100元錢(qián)。
???????拿到真實(shí)的身份信息后,這些組織要么立即去攻破一些風(fēng)控極為簡(jiǎn)陋的平臺(tái),每個(gè)身份騙一筆小錢(qián);要么花時(shí)間精力把信用記錄養(yǎng)起來(lái),然后再去騙貸,騙更多的錢(qián)。
???????此前還有媒體報(bào)道過(guò)這樣一種線下騙貸手法:騙貸組織先在某社區(qū)租一個(gè)商鋪,簡(jiǎn)單裝修后謊稱是茶莊生意,然后再將某偏遠(yuǎn)村的村民都接過(guò)來(lái),統(tǒng)一教村民各種應(yīng)對(duì)互金風(fēng)控人員的話術(shù)。
??????準(zhǔn)備工作完成后,騙貸組織讓村民們分別去向數(shù)十家信貸機(jī)構(gòu)申請(qǐng)貸款,一輪下來(lái),一個(gè)人能獲利數(shù)百萬(wàn)元。騙貸組織在付給村民一定酬勞后,將村民送回老家,自己也拿著錢(qián)人去樓空。
與平臺(tái)“斗法”
?????????????對(duì)于騙貸者的存在,各互聯(lián)網(wǎng)金融平臺(tái)也心知肚明,并開(kāi)始與騙貸者“斗法”。
????????各互聯(lián)網(wǎng)金融平臺(tái)的措施各不相同,為了防范騙貸者,大家也都不愿細(xì)說(shuō)。
???????一般來(lái)說(shuō),平臺(tái)的反制措施,一是通過(guò)輿情監(jiān)測(cè)機(jī)器人進(jìn)行檢測(cè)預(yù)警,二是人工核驗(yàn)身份,三是利用大數(shù)據(jù)進(jìn)行識(shí)別。
???????值得一提的是,雖然目前已經(jīng)有第三方公司提供行業(yè)黑名單,但各平臺(tái)卻并不將其作為主要的防范手段,因?yàn)橐话闱闆r下,如果一個(gè)人的身份信息能被黑名單查到,往往意味著行騙的過(guò)程已經(jīng)結(jié)束了。
????????????對(duì)于平臺(tái)來(lái)說(shuō),最令他們感到頭疼的是,對(duì)于騙貸者的懲罰實(shí)在是太過(guò)輕微。騙貸者在網(wǎng)絡(luò)借貸中發(fā)生的逾期或騙貸行為,目前是無(wú)法納入央行的個(gè)人征信系統(tǒng)的。
??????正因如此,騙貸者才能有底氣喊出這樣一句話:“憑自己本事騙來(lái)的錢(qián),為什么要還?”
????????????整治騙貸者究竟有何妙藥?目前比較有效的方式有兩種:一是設(shè)備指紋,二是關(guān)系網(wǎng)絡(luò)模型。聽(tīng)起來(lái)都好高大上的樣子。
????????????先來(lái)說(shuō)說(shuō)設(shè)備指紋,故名思議,就是給每臺(tái)設(shè)備頒發(fā)一個(gè)類似人類指紋一樣的唯一身份證。
????????????移動(dòng)互聯(lián)網(wǎng)時(shí)代,隨著cookie的逐漸失效,新一代設(shè)備識(shí)別方法—設(shè)備指紋,近兩年可以說(shuō)是大紅大紫。
相對(duì)于cookie,設(shè)備指紋具備不受瀏覽器兼容性限制、用戶無(wú)法修改、不會(huì)被瀏覽器清除、可跨應(yīng)用追蹤等諸多優(yōu)點(diǎn),可謂集美貌與智慧于一身,在網(wǎng)絡(luò)營(yíng)銷、反欺詐等領(lǐng)域應(yīng)用廣泛,也難怪眾多企業(yè)為它爭(zhēng)得頭破血流。
設(shè)備指紋也有門(mén)派之分,其中主動(dòng)式發(fā)展最早、技術(shù)門(mén)檻相對(duì)較低,因而目前應(yīng)用比被動(dòng)式和混合式兩種更為廣泛。
但即便如此,主動(dòng)式設(shè)備指紋的應(yīng)用也十分復(fù)雜,需要收集諸多信息才能保證設(shè)備識(shí)別的準(zhǔn)確性,如MAC地址、設(shè)備IMEI號(hào)、廣告跟蹤ID、設(shè)備唯一序列號(hào)、地理位置等等。
此外,還要突破瀏覽器兼容性、千變?nèi)f化的設(shè)備型號(hào)、代理、軟件篡改設(shè)備信息等重重難關(guān)。
傳說(shuō)中的主動(dòng)式設(shè)備指紋技術(shù)究竟怎么用。
Step 1:請(qǐng)準(zhǔn)備好已聯(lián)網(wǎng)的電腦一臺(tái)
Step 2:打開(kāi)以下網(wǎng)站https://github.com/Valve/fingerprintjs2
Step 3:加載fingerprintjs2
(點(diǎn)擊可查看大圖)
Step 4:接著在頁(yè)面中加入以下代碼就可以輕松獲得設(shè)備指紋啦
(點(diǎn)擊可查看大圖)
Step 5:沒(méi)有了
No,小編是認(rèn)真的。
???????????這種主動(dòng)式設(shè)備指紋技術(shù)有其特有的優(yōu)點(diǎn)和適用場(chǎng)景,但其缺陷也相當(dāng)突出。
?
???????????首先,存在明顯的用戶隱私侵犯,并因此可能導(dǎo)致被Google和蘋(píng)果Apple Store下架。?舉個(gè)例子,金融、支付行業(yè)中有很多業(yè)務(wù)場(chǎng)景對(duì)于用戶隱私的保護(hù)要求很高,就無(wú)法使用主動(dòng)式設(shè)備指紋做設(shè)備識(shí)別。?????????
????????????其次,主動(dòng)式指紋不能實(shí)現(xiàn)App和mobile web間,不同瀏覽器間的設(shè)備識(shí)別。主動(dòng)式設(shè)備指紋對(duì)于需要跨網(wǎng)頁(yè)/應(yīng)用追蹤用戶行為的場(chǎng)景,比如追蹤App安裝究竟來(lái)自哪個(gè)廣告渠道,就無(wú)能為力。
???????????另外,主動(dòng)式設(shè)備指紋所取特征均暴露于客戶端,欺詐者可輕易通過(guò)一些一鍵新機(jī)等工具篡改相應(yīng)特征信息,從而使指紋無(wú)效。
這些場(chǎng)景就需要相對(duì)技術(shù)門(mén)檻更高的被動(dòng)式設(shè)備指紋技術(shù)來(lái)解決了。
???????????最新的被動(dòng)式設(shè)備指紋技術(shù),從數(shù)據(jù)包的OSI七層協(xié)議中,提取出這臺(tái)設(shè)備的操作系統(tǒng)、協(xié)議棧和網(wǎng)絡(luò)狀態(tài)相關(guān)的特征,并結(jié)合機(jī)器學(xué)習(xí)算法以標(biāo)識(shí)和跟蹤具體的移動(dòng)設(shè)備。相比于主動(dòng)式設(shè)備指紋技術(shù),被動(dòng)式設(shè)備指紋技術(shù)在適用范圍和靈活性上,有著不可比擬的優(yōu)勢(shì):
1)更大的適用范圍,由于被動(dòng)式設(shè)備指紋技術(shù)完全工作在服務(wù)器側(cè),一些無(wú)法植入SDK或JS的場(chǎng)景也可使用;
2)跨Web/App,跨瀏覽器的識(shí)別;
3)完全不侵犯用戶隱私,避免了被AppStore下架的風(fēng)險(xiǎn)。
??????????接下來(lái),重點(diǎn)說(shuō)說(shuō)牛逼哄哄的關(guān)系網(wǎng)絡(luò)反欺詐技術(shù)。內(nèi)容有點(diǎn)燒腦,燒死腦細(xì)胞后果自負(fù)~~~~下面就來(lái)看看在大數(shù)據(jù)角度怎么利用關(guān)系網(wǎng)絡(luò),通過(guò)無(wú)監(jiān)督學(xué)習(xí)算法,挖掘詐騙團(tuán)伙的特征,從而識(shí)別詐騙團(tuán)伙的反欺詐技術(shù)。
從常見(jiàn)的兩種反欺詐模型說(shuō)起
金融欺詐,一般是指采用虛構(gòu)事實(shí)或者隱瞞事實(shí)真相的方法,騙取公私財(cái)物或者金融機(jī)構(gòu)信用的犯罪形式。幾乎所有涉及金錢(qián)和服務(wù)的商業(yè)模式都會(huì)受到欺詐的攻擊。通信、保險(xiǎn)、貸款和信用卡申請(qǐng)是一些最容易出現(xiàn)金融欺詐的領(lǐng)域。
目前并沒(méi)有一個(gè)通用的反欺詐框架可以識(shí)別并防范所有形式的欺詐。在每一個(gè)領(lǐng)域,金融欺詐都有不同的形式和特征,比如,一個(gè)應(yīng)用于信用卡申請(qǐng)的反欺詐模型并不能直接應(yīng)用于保險(xiǎn)領(lǐng)域,亦無(wú)法直接應(yīng)用于信貸領(lǐng)域。
一種最常用的反欺詐模型,是通過(guò)建立一個(gè)規(guī)則引擎或者機(jī)器學(xué)習(xí)模型來(lái)描述欺詐行為的特征,從而將欺詐行為從正常操作中區(qū)別開(kāi)來(lái)。在反欺詐規(guī)則引擎中,這些甄別欺詐行為的規(guī)則依賴于從大量歷史案例中總結(jié)出來(lái)的“專家知識(shí)”。例如,如果一個(gè)人申請(qǐng)貸款所用的手機(jī)號(hào)與其常用的手機(jī)號(hào)不一致,則這筆申請(qǐng)的欺詐風(fēng)險(xiǎn)就被認(rèn)定稍高一些。
另一種則是反欺詐機(jī)器學(xué)習(xí)模型,它指的是采用數(shù)據(jù)挖掘方法,基于歷史數(shù)據(jù)(即,已知的欺詐申請(qǐng)和正常申請(qǐng)的數(shù)據(jù))而建立的分類模型。這類模型的訓(xùn)練往往需要大量數(shù)據(jù)。
兩者有何區(qū)別?上面提到的規(guī)則引擎可以看作是一種特殊的最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型:決策樹(shù)模型。決策樹(shù)模型具有極好的可解釋性,因而,即使數(shù)據(jù)量不足,也可以通過(guò)專家知識(shí)來(lái)補(bǔ)全規(guī)則集。而廣義上的反欺詐機(jī)器學(xué)習(xí)模型往往指的是采用更復(fù)雜的算法建立的模型(如隨即森林、深度學(xué)習(xí)等)。這些模型的訓(xùn)練需要大量的歷史數(shù)據(jù)并且其結(jié)果通常很難解讀。
不論是規(guī)則引擎還是機(jī)器學(xué)習(xí)模型,都是從歷史案例中發(fā)現(xiàn)金融欺詐時(shí)重復(fù)出現(xiàn)的個(gè)體行為模式。這個(gè)方法在很多領(lǐng)域被證明為有效(例如,用于審核個(gè)人還款能力意愿的信用評(píng)分模型),然而在解決金融欺詐問(wèn)題時(shí)表現(xiàn)一般,?原因有兩個(gè):
其一,金融欺詐的模式隨時(shí)間不斷演化和發(fā)展,而不僅僅是重復(fù)出現(xiàn)在歷史案例中的個(gè)體行為模式;
其二,隨著反欺詐技術(shù)的進(jìn)步,金融欺詐越來(lái)越難以由個(gè)體完成,而是需要通過(guò)團(tuán)伙有組織的進(jìn)行。
關(guān)系網(wǎng)絡(luò)提供了全新的反欺詐分析角度
基于上述金融欺詐發(fā)生的兩個(gè)特點(diǎn),采用關(guān)系網(wǎng)絡(luò)進(jìn)行反欺詐檢測(cè)變得越來(lái)越重要。關(guān)系網(wǎng)據(jù)指的是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)和邊組成,如下圖1所示。每個(gè)節(jié)點(diǎn)代表一個(gè)個(gè)體,每條邊為個(gè)體與個(gè)體之間的關(guān)系。關(guān)系網(wǎng)絡(luò)把不同的個(gè)體按照其關(guān)系連接在一起,從而提供了從“關(guān)系”的角度分析問(wèn)題的能力。這更有利于從正常行為中識(shí)別出到異常的團(tuán)伙欺詐行為。
圖1
關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)取決于如何定義個(gè)體與個(gè)體之間的關(guān)系。如果人與人存在“關(guān)系”指的是彼此認(rèn)識(shí),那么最終的網(wǎng)絡(luò)結(jié)構(gòu)將是一個(gè)無(wú)標(biāo)度網(wǎng)絡(luò),其典型特征是在網(wǎng)絡(luò)中的大部分節(jié)點(diǎn)只和很少節(jié)點(diǎn)連接,而有極少的節(jié)點(diǎn)與非常多的節(jié)點(diǎn)連接。如果將“關(guān)系”定義為親屬關(guān)系,則最終的網(wǎng)絡(luò)結(jié)構(gòu)將是一個(gè)個(gè)非連通的子圖,每個(gè)子圖代表一個(gè)家族。
在解決實(shí)際問(wèn)題的時(shí)候,關(guān)系的定義需要依據(jù)業(yè)務(wù)需求并且常常極為復(fù)雜。例如,某市公安局為了摸清犯罪嫌疑人的團(tuán)伙,定義了24種人與人之間的關(guān)系。在反欺詐領(lǐng)域,如何定義“關(guān)系”更是需要保密,這是為了避免欺詐團(tuán)伙采取針對(duì)性地防范策略,本文對(duì)這部分內(nèi)容就不做過(guò)多的說(shuō)明了。
圖2展示了由從某一線城市抽樣的20,000余條貸款申請(qǐng)數(shù)據(jù)所構(gòu)成的關(guān)系網(wǎng)絡(luò)。因?yàn)樗x的“關(guān)系”均為強(qiáng)關(guān)系,所以圖的結(jié)構(gòu)不是一個(gè)連通的無(wú)標(biāo)度網(wǎng)絡(luò),而是由一個(gè)個(gè)孤立的“團(tuán)”組成的網(wǎng)絡(luò)。其中,大部分的“團(tuán)”由兩個(gè)個(gè)體組成,他們之間通過(guò)某種關(guān)系相連。個(gè)別的“團(tuán)”是由幾十甚至上百個(gè)體組成的具有復(fù)雜結(jié)構(gòu)的網(wǎng)絡(luò)。
圖2
網(wǎng)絡(luò)分析在反欺詐中的獨(dú)道運(yùn)用
接下來(lái),我們來(lái)討論關(guān)系網(wǎng)絡(luò)在反欺詐中的應(yīng)用場(chǎng)景,主要分為監(jiān)督模型和無(wú)監(jiān)督模型兩種情況。所謂的監(jiān)督模型,指的是在已知“好”和“壞”標(biāo)簽的前提下,嘗試從歷史數(shù)據(jù)中,挖掘出欺詐團(tuán)伙的典型特征和行為模式,從而能夠有效的識(shí)別出金融欺詐團(tuán)伙。監(jiān)督模型雖然在預(yù)測(cè)準(zhǔn)確性上有不錯(cuò)的表現(xiàn),但是,實(shí)際情況中,“好”和“壞”的標(biāo)簽往往很難得到。因此,在沒(méi)有標(biāo)簽信息時(shí),無(wú)監(jiān)督模型分析也變得尤為重要。當(dāng)然,本文提到的分析方法只是關(guān)系網(wǎng)絡(luò)在反欺詐場(chǎng)景中的冰山一角,更多的算法模型需要結(jié)合實(shí)際業(yè)務(wù)需求進(jìn)行設(shè)計(jì)和開(kāi)發(fā)。
典型運(yùn)用一:異常檢測(cè)
異常檢測(cè)是在無(wú)監(jiān)督模型學(xué)習(xí)中比較有代表性的方法,即在數(shù)據(jù)中找出具有異常性質(zhì)的點(diǎn)或團(tuán)體。在檢測(cè)欺詐團(tuán)體的情況下,異常檢測(cè)被認(rèn)為是比較有效果的。以貸款申請(qǐng)為例,許多團(tuán)伙會(huì)選擇共享一些申請(qǐng)信息,如提供同一個(gè)皮包公司的地址作為公司信息,或者聯(lián)系人電話重合程度高。因此,在關(guān)系網(wǎng)絡(luò)中,大多數(shù)的正常的個(gè)體應(yīng)該是獨(dú)立的節(jié)點(diǎn),或者與另一個(gè)節(jié)點(diǎn)組成規(guī)模為二的團(tuán)體(在這種情況下,多數(shù)可能為家人或親友關(guān)系)。若出現(xiàn)三個(gè)點(diǎn)以上甚至十幾個(gè)點(diǎn)關(guān)系密切時(shí),則這些團(tuán)體可被歸為異常。上文中的20,000筆貸款申請(qǐng)組成的關(guān)系網(wǎng)絡(luò)中含有300多個(gè)團(tuán)體,團(tuán)體規(guī)模分布由下圖所示,其中大部分團(tuán)體的規(guī)模較小,當(dāng)團(tuán)體規(guī)模超過(guò)某一閾值時(shí),其可被認(rèn)為異常。
圖3
我們對(duì)團(tuán)體規(guī)模大小和欺詐度的相關(guān)性進(jìn)行了分析。其中,欺詐度的定義為:欺詐度=團(tuán)體中欺詐申請(qǐng)者的數(shù)目/團(tuán)體中申請(qǐng)者總數(shù)。我們通過(guò)行業(yè)內(nèi)的網(wǎng)貸黑名單數(shù)據(jù)來(lái)判定某一個(gè)體是否為欺詐申請(qǐng)者。相關(guān)性結(jié)果如下圖所示,其中,橫坐標(biāo)表示團(tuán)體規(guī)模大小,縱坐標(biāo)表示欺詐度。可以看出,當(dāng)團(tuán)伙只有兩個(gè)人時(shí),欺詐度的中位數(shù)是0,而當(dāng)規(guī)模變大時(shí),欺詐度陡然增加。當(dāng)團(tuán)體規(guī)模大小為三人時(shí),欺詐度最高,達(dá)到30%,其次為規(guī)模超過(guò)六人的團(tuán)體。
圖4
異常檢測(cè)并不能夠明確的給出一個(gè)團(tuán)體是否欺詐,但是可以通過(guò)這種方法排查出可疑的團(tuán)伙,從而進(jìn)行調(diào)查。該算法并不是基于歷史數(shù)據(jù)挖掘隱藏的欺詐模式,因而常常能夠有效地識(shí)別出新出現(xiàn)的未曾記錄的欺詐行為。
典型運(yùn)用二:團(tuán)體分群
分群是一種常常被用于客戶精準(zhǔn)營(yíng)銷的無(wú)監(jiān)督聚類算法,根據(jù)客戶各個(gè)維度的信息,將其歸并于某一特定群組,并對(duì)不同群組的客戶采取差異化的營(yíng)銷策略。除了用于精準(zhǔn)營(yíng)銷,分群算法還可以用于離群行為的檢測(cè),即,檢測(cè)哪些客戶的行為與同一群體的其他客戶不同。這些離群行為或是預(yù)示著這些客戶處于某些特殊事件情境中,或是預(yù)示著欺詐行為。這一部分主要和前文提到的異常檢測(cè)相關(guān),這里不再贅述。
與客戶分群不同,團(tuán)體分群不僅依賴于團(tuán)體中每個(gè)個(gè)體的特征,還依賴于整個(gè)團(tuán)體作為一個(gè)整體的特征。這一方面使得團(tuán)體分群擁有足夠豐富的數(shù)據(jù)維度,另一方面也增加了問(wèn)題的復(fù)雜性。一般來(lái)說(shuō),團(tuán)體的特征可以分為?(1)和網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的團(tuán)伙拓?fù)涮卣饕约?#xff08;2)和個(gè)體信息相關(guān)的團(tuán)伙實(shí)體特征這兩個(gè)大的維度。其中,團(tuán)體的拓?fù)涮卣靼▓F(tuán)的節(jié)點(diǎn)的數(shù)量、平均自由度、團(tuán)體中節(jié)點(diǎn)間最長(zhǎng)的最短路徑等;團(tuán)的實(shí)體特征包括團(tuán)中男女比例、最大年齡差,平均年齡、團(tuán)體總資產(chǎn)、團(tuán)體總負(fù)債等。
團(tuán)體分群即是對(duì)給定網(wǎng)絡(luò)中的團(tuán)體依據(jù)以上特征進(jìn)行區(qū)分,從而挖掘有潛在欺詐風(fēng)險(xiǎn)的團(tuán)體的方法。舉一個(gè)簡(jiǎn)單的例子,以團(tuán)體中的男性占比和年齡差者兩個(gè)特征來(lái)對(duì)網(wǎng)絡(luò)中的團(tuán)體進(jìn)行分群。作為以家人關(guān)系而形成的團(tuán)體,一般由三人形成,多為兩男一女或兩女一男,男性占比33%或67%,并且年齡差一般為20-30歲。具有這種性質(zhì)的團(tuán)體一般為家庭團(tuán)體,因而風(fēng)險(xiǎn)性較小。但對(duì)于人數(shù)較多,男性占比高,而且年齡差較小的團(tuán)體,則有可能是欺詐團(tuán)伙,需要進(jìn)一步調(diào)查。
實(shí)際問(wèn)題中,描述一個(gè)團(tuán)伙的數(shù)據(jù)維度非常豐富,有時(shí)可多達(dá)數(shù)十個(gè),這就對(duì)分群造成了困難(在高維空間中,尋找點(diǎn)的集群并不是一件容易的事,俗稱“維度災(zāi)難”)。一個(gè)常用的解決方法是先對(duì)高維數(shù)據(jù)進(jìn)行降維,然后再在低維空間中進(jìn)行聚類。圖5是對(duì)一組數(shù)據(jù)中由貸款申請(qǐng)構(gòu)成的300多個(gè)團(tuán)體進(jìn)行分群的結(jié)果。在這個(gè)分析中,我們用男女比例、最大年齡差、有車個(gè)體占比、有房個(gè)體占比、有貸款個(gè)體占比和買理財(cái)產(chǎn)品個(gè)體占比這六個(gè)維度對(duì)團(tuán)伙進(jìn)行描述。我們采用t-SNE(t-Distributed Stochastic Neighbor Embedding)算法對(duì)高維數(shù)據(jù)進(jìn)行降維和DBSCAN聚類算法對(duì)低維數(shù)據(jù)進(jìn)行分群。由圖5可見(jiàn),在低維空間中,確實(shí)存在明顯分隔的集群,這說(shuō)明團(tuán)體分群在實(shí)際操作中的可行性。
圖5
(每一個(gè)點(diǎn)代表一個(gè)團(tuán)體,上述數(shù)據(jù)可以分為八個(gè)集群)
我們對(duì)圖5中每一個(gè)集群進(jìn)行分析。集群1中的團(tuán)體男女比例1:1,年齡相差0-5歲,集群中無(wú)人有貸款或買理財(cái)產(chǎn)品。這個(gè)集群很可能描述了由年輕情侶構(gòu)成的團(tuán)體。對(duì)于集群2中的團(tuán)伙,男女比例2:1,年齡相差15-30歲,每個(gè)團(tuán)伙中平均有一人有車和房,并且背有貸款,這個(gè)集群很可能描述了由父母子女構(gòu)成的“團(tuán)伙”。按照同樣的方法可以對(duì)圖5每一個(gè)集群進(jìn)行分析,這里不一一贅述。盡管我們沒(méi)有“好”、“壞”標(biāo)簽,無(wú)法得知哪個(gè)集群含有大量欺詐團(tuán)伙,但是我們可以依據(jù)經(jīng)驗(yàn)和專家知識(shí)篩選出可疑的集群,為進(jìn)一步調(diào)查做好準(zhǔn)備。例如集群6中全部由男性“團(tuán)伙”構(gòu)成,年齡相差0-10歲,團(tuán)伙中大量個(gè)體都背有貸款。這個(gè)集群的欺詐嫌疑就比其他集群要高一些,下一步就可以繼續(xù)對(duì)其進(jìn)行進(jìn)一步的調(diào)查。
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的反欺诈技术揭秘-设备指纹VS关系网络模型 此博文包含图片(2017-05-12 10:23:52)转载▼ 标签: 设备指纹 关系网络 反欺诈 神经网络模型分类: 风控 文章来源:网络(经整合梳理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: https://wenku.baidu.
- 下一篇: 某银行信用卡中心——大数据反欺诈应用案例