基于知识图谱的小微企业贷款申请反欺诈方案
基于知識圖譜的小微企業貸款申請反欺詐方案
金磐石1, 萬光明2, 沈麗忠3
1 中國建設銀行股份有限公司,北京 100033
2 中國建設銀行金融科技部,北京 100032;
3 建信金融科技有限責任公司廈門事業群,福建 廈門 361008
摘要:近年來,在各大商業銀行競相開展小微企業信貸業務的同時,貸款欺詐風險也隨之產生。針對小微企業信貸業務的特點,提出了一種基于全方位企業畫像與企業關聯圖譜的貸前反欺詐模型。通過整合多源信息,形成完整的企業屬性特征,并結合從圖譜中提取的關系網絡結構特征,把特征共同輸入模型,以定量評估小微企業客戶的欺詐風險。實驗表明,使用隱含在關系圖譜中的信息比單純使用企業自身特征建模在測試集上的AUC提高了5%,有助于銀行機構準確地對企業申貸欺詐行為進行評估。關鍵詞:反欺詐 ; 企業畫像 ; 關聯圖譜
論文引用格式:
金磐石, 萬光明, 沈麗忠. 基于知識圖譜的小微企業貸款申請反欺詐方案. 大數據[J], 2019, 5(4):100-112
JIN P S, WAN G M, SHEN L Z.Knowledge graph-based fraud detection for small and micro enterprise loans. Big Data Research[J], 2019, 5(4):100-112
1 引言
隨著我國經濟發展步入新常態,小微企業快速發展,并逐漸成為我國市場經濟中較活躍的主體。據相關數據統計,目前我國約有近1億戶小微企業,這些小微企業廣泛分布于實體經濟的各行各業。作為經濟發展和社會穩定的重要支柱,小微企業在促進人才有序流動、維護市場活力、推動科技創新等方面發揮著不可或缺的作用。然而相對于大中型企業而言,小微企業在市場競爭中仍處于弱勢地位,融資問題導致其很難保證經營的穩定性與持續性。
銀行貸款是企業融資的重要手段,為緩解小微企業的經營壓力并滿足強烈的融資需求,商業銀行的小微貸款業務逐步擴張,各類信貸產品應運而生。截至2018年第三季度,小微企業在銀行機構的貸款總額達33.04萬億元,貸款授信戶數超過1 800萬戶。但由于小微企業在提供自身資訊上的天然弱勢,“不透明”“內部化”的非對稱數據信息使得銀行難以在業務申請階段把控小微客戶實質性的信貸風險,對小微企業信貸產品的管理比大型企業也困難得多。如今,欺詐風險已經成為消費金融業務面臨的主要風險之一,反欺詐也對銀行的風險控制技術提出了更高的要求。科學合理地進行小微企業貸款欺詐風險管理已經成為商業銀行亟須解決的問題。
小微企業貸款業務是近年來興起的一種貸款手段,由于其“新”的特征,在金融行業內對小微信貸欺詐尚沒有一個通用的定義。商業銀行在信貸申請欺詐風險的防范工作方面已經積累了很多經驗,但是當前的工作多為面向大中型企業或面向個人信貸的反欺詐方案。不論是較為原始的黑白名單甄別、實現自動決策的規則引擎,還是基于人工智能技術的風險量化與無監督的欺詐模式識別,反欺詐的分析和度量技術在小微企業領域仍在探索的過程中。
為解決以上難題,本文針對小微企業的信貸業務特點提出了一種基于全方位企業畫像與企業關聯圖譜的貸前反欺詐模型。該模型從企業自身、企業實控人、企業干系人以及企業網絡關系圖譜四大維度提取特征,然后在金融行業知識的輔助下,通過數據挖掘、特征篩選等方法定義多個欺詐場景,并利用LightGBM分類器對欺詐進行概率推斷。相比傳統的信貸欺詐分析模型,本文方案將關系型信息和企業節點自有屬性信息有機地結合,能夠有效地挖掘小微企業與欺詐目標的非線性關系,有助于全面、有效地在申請階段評估小微企業的欺詐風險狀況。相比于傳統的企業風控反欺詐,本文方案的創新點如下。
● 針對小微企業信息不對稱的特點,整合多源數據集,在提取企業自身特征的同時,利用其關聯實控人及相關干系人的基本信息與征信狀況生成全方位企業畫像,更加完善地刻畫小微企業可能存在的信貸風險。
● 結合圖知識和金融行業知識,挖掘欺詐場景,通過分析小微企業命中欺詐場景的情況,輸出欺詐概率。
● 挖掘并構建企業與企業間的關聯信息,建立企業關聯圖譜,有利于識別出異常的欺詐行為。
● 歸約掉圖譜中的非企業節點,將復雜、龐大的異構關系網絡折疊為僅保留小微企業實體的同構網絡。這既解決了網絡存儲的開銷問題和網絡特征提取的計算復雜度高的問題,又能夠隔離無關節點的干擾,直觀地呈現企業之間的聯系。
● 使用 LightGBM 分類框架,采用有監督學習模式在構建的關聯圖譜上進行基于節點自身屬性特征與網絡特征的欺詐概率預測,從關系和實體屬性兩個角度共同進行欺詐評估。
2 相關工作
2.1 企業傳統信貸反欺詐
商業銀行在貸款業務申請階段的反欺詐手段主要集中在配置規則引擎和建立機器學習模型上。規則引擎起源于基于規則的專家系統,用來模擬人的行為,以實現計算機自動決策。它是一種建立在對欺詐行為的特點與模式充分認知的基礎上,針對單一或組合欺詐行為設計的啟動和觸發機制。規則引擎主要用來核實信息的真實性,如是否存在不良征信記錄、是否命中風險名單等,但無法檢測復雜的欺詐模式。有監督學習是當下反欺詐檢測中應用廣泛的機器學習方法,能夠基于歷史數據(即已知的欺詐申請和正常申請)建立分類模型,輸出欺詐概率,更好地量化欺詐風險。該方法收集客戶申請信息并將其作為訓練集,訓練出的機器學習模型通過對用戶特征的抽象理解,分析特征間的隱藏關系,填補并增強規則引擎無法覆蓋的復雜欺詐行為。業界常用的模型算法包括邏輯回歸、決策樹、支持向量機、XGBoost和神經網絡等。
2.2 基于關聯圖譜的信貸反欺詐
在反欺詐場景中,除了考慮單一信息點的屬性,企業間的隱藏關聯往往包含更多未知的潛在信息。因此,企業信貸欺詐的識別問題也可以轉化為企業關系圖挖掘或社交網絡分析問題。基于知識圖譜的信貸反欺詐旨在將多源異構的數據整合成機器可以理解的知識,將“單點”的信息轉換成“平面”的相互關聯的圖譜,進行異常風險檢測,從而實現欺詐的識別與防御。
基于構建好的知識圖譜,可以使用半監督或無監督的方式進行異常子圖挖掘、社群發現或標簽染色。除此之外,對網絡特征(包括中心度、一度二度關聯特征)的直接提取也可以供各類有監督風險評估模型使用。另外,隨著深度學習算法的普及,知識圖譜的關聯分析引入了網絡嵌入這種圖表示學習的思想。在盡量保留網絡信息的前提下,根據圖譜中的拓撲關系,用低維向量表示每個節點與其周圍節點的關聯特性。作為一種表征學習的方法,圖嵌入可以解決圖數據的高維度、稀疏性等問題。經過向量的表征后,再利用大量算法進行邊的預測、分類、聚類。
2.3 小微企業信貸反欺詐的難點
盡管商業銀行在反欺詐方面已經展開了較多嘗試,但是針對小微企業貸前的欺詐識別仍處于探索階段。其難點主要集中在以下方面。
(1)小微企業信息透明性差
小微企業與傳統的銀行貸款業務有很大差異,如果采用無差異化的風控模型和放貸標準,絕大部分小微企業無法通過審核。具體地,對于傳統的中大型企業信貸業務,銀行通常采用申請評分卡(application score card)的方式決定是否放貸以及貸款額度。這樣的方式對企業申請貸款時提交信息的完整性和真實性有極高的要求,如果信息造假或者有缺值,評分卡方式很難準確判斷企業的信用情況。中大型企業通常采用標準的財務審計制度,經營信息也相對透明,是可以通過評分卡的方式授信放貸的。但是對于小微企業而言,其經營規范性差、信息透明度差,評分卡的方式在很大程度上并不適用于小微信貸業務。
(2)銀行與企業之間信息不對稱
銀行與企業之間的信息不對稱與欺詐標簽的定義對有監督學習提出了挑戰[1]。由于小微企業缺乏規范的財務報表和稅務審計信息,經營透明度差,銀行難以掌握小微企業的真實狀況,無法全面刻畫客戶特征,從而進行風險評估。此外,由于銀行針對小微企業推出的大多貸款業務開展時間不足一年,對于欺詐標簽的定義尚不明確,真實欺詐標簽的嚴重不足阻礙了模型對欺詐特征的學習與把控。
(3)圖嵌入模型可解釋性有限
基于知識圖譜的方法能夠捕捉到企業間的關聯,利用這些關聯,可以得到全新的反欺詐分析。金融反欺詐實踐中常用的圖譜均為異構圖譜,即網絡中的節點與邊涵蓋多種類型,這加大了圖特征提取以及圖嵌入方法選擇的難度。以某金融機構信用卡申請關系圖譜為例,個體類型包括申請人的IP地址、設備、賬戶聯系人等,個體之間也存在不同的關系,如IP登錄行為、設備登錄行為等。盡管一些網絡特征指標在實際反欺詐實踐中效果非常顯著,但由于反欺詐對實時決策的高需求,這些指標都需要迅速地計算提取。節點的中介中心性、集聚系數等指標存在較高的計算復雜度,如果不采取一些近似的算法并進行預計算,難以滿足實施決策的業務需求。基于深度學習的圖嵌入算法的選擇同樣受到異構網絡的局限,大多網絡嵌入方法(如Perozzi等人提出的DeepWalk、Grover等人提出的Node2vec、適用于大規模信息網絡的LINE)僅適用于同構網絡的表征學習。而2017年由Dong等人提出的Metapath2vec雖然對DeepWalk進行了擴展,使用基于元路徑的漫游捕獲不同類型節點之間的關系,進而解決異構網絡的學習問題,但其網絡嵌入可解釋性有限,無法對任務決策做出解釋。
(4)孤立企業信息難以利用
盡管現有的反欺詐方案可以分別從孤立的企業信息或整體的企業網絡結構來甄別欺詐,但是還沒有一種明確的方案同時從這兩種維度著手。如何有效地處理并綜合利用這兩種信息,使二者相互輔助共同發揮作用是當前小微企業反欺詐著重關注的問題。
3 小微企業貸款申請反欺詐方案
在有監督機器學習預測分析中,信貸反欺詐的目標變量是既定的欺詐標簽。在關系圖譜的學習中,目標是在給定的網絡中尋找高風險的欺詐模式。如果將二者結合,則需找出合適的方式在一組特征中概括網絡,然后將這些特征與非網絡(即節點屬性)特征相結合進行預測,從而得到特定節點的欺詐概率。本文提出了一種解決方案,采用有監督的學習方法,從構建企業關聯圖譜入手,整合多個數據源,全面捕獲企業的獨立屬性與企業間的隱藏聯系。在構建圖譜時,將多維度的企業特征作為節點屬性,并將復雜的異構網絡歸約為僅保留申請貸款企業的同構網絡,既使企業關系可以直觀展現,又能降低圖譜的存儲空間與網絡特征指標的計算成本。最終將節點屬性與網絡特征共同輸入LightGBM分類模型進行欺詐預測。方案整體模型架構如圖1所示。
圖1???模型架構
3.1 小微企業信貸欺詐的定義
與傳統銀行信貸不同,小微企業的信貸需求具有“短、小、頻、急”的特點,其小額、短期、分散的特征更類似于零售貸款。由于小微企業對資金流動性的要求更高,目前銀行機構對小微企業信貸業務通常采取定額循環貸款的方式,即小微企業在貸款審批通過后,可以在貸款周期內多次取出、還入貸款。這樣的靈活性適應了小微企業的信貸需求,但同時也極大地限制了傳統的信貸風控模型在小微企業信貸業務上的效用。近年來,受政策利好的影響,我國小微企業貸款業務蓬勃發展。但是由于小微信貸的業務特性以及當前絕大多數小微企業信貸仍未到還款期,很難直接獲取還款逾期名單,也很難采用一些傳統信貸欺詐判別規則來判定小微信貸欺詐。對于什么是小微信貸欺詐這個問題,業界目前沒有明確的定義,整個行業對這個問題的定義仍在不斷探索。但是,從業務角度出發,仍可以定義一些高置信度的小微企業信貸欺詐場景,例如:單日多次繳稅、資金出入差異過大、與涉及P2P業務的公司頻繁往來等。筆者基于企業畫像和關聯圖譜,在金融行業知識的輔助下,挖掘出數十種小微企業信貸欺詐場景,經過對關鍵信息的篩選和合并,最終保留了8種高置信度信貸欺詐場景,并對篩選后的欺詐場景進行了相關性排序。通過對當前圖譜中的節點進行分析,最終能夠獲得小微企業命中欺詐場景和小微信貸欺詐的概率分布。具體地,對于小微企業e以及欺詐場景集合S,如果該企業命中欺詐場景s1,s2,?,sn∈S,則可以給出該小微企業信貸欺詐概率 P(|s1,s2,?,sn),其中,代表該小微企業信貸欺詐。在實際應用中,通常設定概率閾值,若小微企業的信貸欺詐概率超過閾值,則認為該小微企業有欺詐風險。3.2 建模粒度與標簽定義
本方案以企業為粒度進行建模,后續網絡的構建與特征工程都將圍繞每一家待預測的小微企業展開。此外,由于反欺詐模型的構建仍采用有監督的學習模式,明確欺詐的定義是保證模型預測效果的前提。如第2.3節所述,由于歷史數據中缺少對企業欺詐的準確描述,本方案將根據銀行內部及相關部門披露的企業及企業干系人在2018年1月到2019年3月的嚴重違規記錄建立欺詐標簽,并將該標簽作為目標變量。相關企業和個人嚴重違規數據包括銀行內部欺詐系統中的名單以及行政違法記錄黑名單 。
3.3 圖譜構建與特征提取
3.3.1 數據準備
為獲取小微企業的全面信息,本方案用到的數據不僅來源于銀行提供的企業數據、個人客戶數據,還通過關聯外部第三方數據形成具體的企業畫像。數據的抽取可分為實體、屬性的抽取以及關系的抽取。抽取范圍確定在企業貸款申請時間處于2018年1月到2018年12月且有還款表現的企業中。
小微企業申請貸款的原始數據存在于多張數據表中,經過字段清洗、合并等預處理后,將數據存入SQL數據庫中。本文方案的輸入數據通過直接查詢數據庫獲得。數據準備完成之后,按照預定義的鍵值處理方法對不同的數據類型進行規范化處理,例如:對于個人信息中的身份信息,使用“01”代指企業實控人,使用“02”代指股東、高管等其他企業干系人 。
(1)實體和屬性抽取
以企業為粒度進行建模,即實體是企業。對企業及其主控人、干系人的數據信息進行屬性提取。
企業信息數據包括如下內容。
● 企業基礎信息:企業技術編號、注冊地址、行業分類、法人信息等。
● 企業工商類數據:企業注冊日期、工商信息變更次數、法人信息變更次數等。
● 企業存款數據:貸款余額、存款余額、存款月積數等。
● 轉賬數據:半年內轉出次數及金額、半年內轉入次數及金額等。
● 征信數據:企業黑名單、企業第三方征信等。
實控人與干系人信息數據包括如下內容。
● 個人基礎信息:年齡、學歷、職務、婚姻狀況、子女狀況等。
● 個人存款數據:存款時點余額、時點個人資產管理規模、一年內申請貸款的次數等。
● 征信數據:個人黑名單、個人征信等。
(2)關系抽取與實體歸約
構建知識圖譜的前提是建立節點間的關聯,而關聯的定義需要依據業務需求,并且極為復雜。本文結合業務邏輯,將企業間風險較高的關系進行羅列并匯總為5類:企業與個人的對應關系(如控股關系)、企業干系人與企業干系人的對應關系(如親屬關系)、企業與相關屬性的對應關系(如企業共同聯系方式)、企業干系人與相關屬性的對應關系(如干系人共同聯系方式)、企業與企業的對應關系(如企業擔保關系)。
具體關系見表1。表1中建立的原始企業關系涉及多個信息來源,不同的來源對節點和邊處理差異很大,由此導致了數據異構、碎片化問題,關系中包含多個實體類型。這些非企業實體在關系的構建中僅作為連接企業節點的媒介,而非網絡結構分析的主體。異構網絡信息種類敏繁雜,很難從中提取到有用的信息。因此,保證整體企業關系網絡同構,實體統一可使網絡特征的提取更高效。因此,本文在構建出以上所有關系后,將關系兩端的節點限定為企業,并將關系中與考察實體無關的其他類型節點(如干系人、聯系方式等節點)進行折疊歸約,減少無關節點的干擾,保證每條關系最終對應到企業本身。
3.3.2 同構網絡關系圖譜構建
基于實體和關系的提取,反欺詐知識圖譜的具體構建過程可總結為以下3步。● 以提交信貸申請的企業作為圖譜的節點實體。● 將企業之間的各種歸約關系作為圖譜的關系。● 刪除圖譜中存在的孤立節點。構建完成的圖譜由一個個非連通的子圖組成,這些子圖可能描述的是某家族企業、某同一控制企業、存在相同類型潛在風險的企業。圖2為放大后的子圖。?
圖2???企業關系圖譜子圖
?
3.3.3 節點屬性特征構建
企業節點的屬性特征來自于抽取的企業信息與干系人信息。由于企業相關信息涉及的數據范圍對企業風險的描述有限,為構造全面的企業畫像,同時為每個企業匹配實控人及其他干系人的相關信息,生成基于企業的多維特征,增強總體數據的表征能力。每個企業具有唯一實控人和多個其他干系人,而實控人與企業的關聯程度與其他干系人相比更為密切。本方案在處理這些特征時,單獨將企業實控人的信息與企業信息拼接,將企業其他實控人的信息進行聚合后對企業特征進一步擴展。在對企業其他干系人進行聚合時,對不同變量選用的聚合函數有最大值、加和、中位數、均值、眾數等。最終處理過的實控人特征與干系人聚合特征被關聯到企業上。通過異常值、缺失值、變量之間相關性的分析對特征進行篩選,將剩余的60余個變量作為企業節點的屬性特征。3.3.4 網絡特征構建
網絡中存在的關系數據為提高分類模型的效果提供了幫助。如果兩個實體相關,則一個實體的某些內容也可以幫助推斷另一個對象。具體到反欺詐的應用場景則可以解釋為,如果一個企業運營中有違法操作,那么與該企業相關的企業同樣存在違法風險。為充分利用關系信息,網絡特征的提取規則為計算每個企業關聯的一度鄰居企業中欺詐標簽的占比。3.4 圖數據的存儲和維護
原始數據經過預處理和圖關系的構建,最終獲得的圖包含約14萬個節點、20萬條邊。每個節點代表一個小微企業,有60種節點屬性。圖數據被存儲在Neo4j圖數據庫中,這樣能夠快速直觀地對圖數據進行可視化分析和展示。在應用階段,利用基于Python的igraph或NetworkX等工具包加載圖數據,能夠方便、快捷地實現模型訓練和服務部署。與中大型企業不同,小微企業的工商信息、經營情況變化快且情況復雜,小微信貸業務也因其靈活性而迭代頻繁。為了讓模型擁有良好的時效性,對圖數據進行定期更新和維護是很有必要的。在本文方案中,對圖數據的維護分為兩個模塊。● 圖中節點屬性信息的變更:每月進行小微企業工商信息的變更檢查,從而對節點的屬性進行更新。對由于節點屬性變更而產生的邊增加或減少情況進行更新。● 新入節點的預處理與載入:每日對新產生的小微貸款業務的數據進行預處理、節點屬性構建以及邊的構建,并存入當前圖數據庫。得益于本文方案采用的LightGBM算法較低的時空復雜度,每日新入節點更新完成后,能夠實現當日快速模型迭代,從而保證模型的時效性,提高小微貸款業務審批流程的效率。3.5 算法選擇
本方案整體將貸款反欺詐問題定義為對欺詐的二分類問題。以企業為粒度,以融合干系人信息的企業多維變量為企業自身的屬性特征,以基于關系圖譜提取的鄰居節點欺詐比例為企業的網絡特征,預測企業最終的欺詐標簽類型,同時輸出欺詐概率。大部分的機器學習模型,特別是金融行業普遍應用的邏輯回歸模型需要較長的訓練時間,難以應對變化多端的欺詐行為。除此之外,欺詐具有多樣性和復雜性,即使一些征信類數據具有較強的指示作用,但其在總體樣本上的高缺失率使得數據預處理的難度加大,最終能夠提供的信息增益微乎其微。一些與存款相關的數據之間有較高的線性關系,這違背了傳統回歸模型不存在多重共線性的假設,使得模型評估失真。真實的反欺詐業務場景更關注在保證泛化性、穩定性的前提下,模型可取得的最佳效果。為了能有效地利用這些大量類似的碎片化信息,本方案選用LightGBM算法進行建模。LightGBM于2016年被微軟亞洲研究院團隊在GitHub上開源,是一種基于梯度提升樹的算法框架。該算法采用基于直方圖的決策樹算法與帶深度限制的葉子生長(leaf-wise)策略,在預測精度與XGBoost相似的情況下,可大幅提升訓練速度,降低內存占用,更好地滿足大規模特征數據處理運算與銀行對于小微企業貸款“秒申、秒審和秒貸”的業務需求。對比其他分類模型,LightGBM能夠直接讀取類別特征,無須進行獨熱編碼處理,避免構建稀疏的特征空間。其對于缺省值的自動填充也極大地簡化了數據前期預處理和后續的建模流程。4 實驗及結果
實驗階段將分別建立兩種分類模型。模型1為基礎模型,單純使用節點屬性,不考慮網絡結構特征。模型2在使用節點屬性的基礎上,引入基于關聯圖譜提取的節點鄰居欺詐比例這一額外特征共同訓練。兩種模型均使用LightGBM算法框架在相同訓練集上進行模型訓練,并在相同測試集上進行評估,旨在探究融合網絡結構特征后的欺詐模型是否對單獨的節點自身屬性欺詐模型的預測效果有所提升。
4.1 實驗設定
4.1.1 數據集劃分
實驗將所有存在申請貸款行為的140 885家企業樣本作為總數據集,整體數據集按照4:1的比例劃分為訓練集和測試集,訓練集用于模型訓練,測試集用于模型驗證。其中,正樣本(欺詐用戶)共計389個,負樣本(正常用戶)共計140 496個。正負樣本比例約2.7‰,數據集存在不平衡現象。劃分后的數據集中,正負樣本的比例在訓練集與測試集中保持一致,整體樣本分布見表2。4.1.2 網絡特征處理
直接運用以上劃分方式對數據集進行切割并單純使用節點屬性建模,是符合邏輯的,但當加入圖譜網絡的特征時會出現一些問題。其中與傳統機器學習模型中經常做出的假設相違背的一點是數據特征的非獨立同分布(independently identically distribution,IID)特性。在關系圖譜中,節點之間的相關行為意味著一個節點的標簽信息可能會影響其相關節點的標簽信息。因此在對每個節點進行網絡特征提取時,模型訓練集和測試集的劃分勢必會因為整個網絡的互聯特性而受影響,難以實現完全獨立的分割。即使本文假定所構建圖譜中節點間的關系是全感知的,且在一定時間范圍內不會發生變化,圖譜中的每個節點的標簽在真實應用場景中也不一定都是已知的。因此,本文在劃分完訓練集與測試集后對節點周圍鄰居欺詐比例這一特征進行計算時,如果某節點的鄰居來自訓練集,那么其標簽被設為已知,直接加入特征計算過程中;如果來自測試集,那么標簽被設為未知(NA),以此避免關系型特征帶來的干擾。
4.2 模型訓練與參數選擇
為保證最優模型效果,兩組實驗在模型訓練時均采用貝葉斯自動化調參對模型參數進行調優。以優化受試者工作特征曲線下與坐標軸圍成的面積(AUC)為目標函數,對訓練集中的數據進行30輪訓練,每輪采用5折交叉驗證,并輸出平均AUC作為當前模型的表現。最終輸出AUC最大時選用的參數組合及訓練出的模型。4.3 評價指標
反欺詐的業務場景中數據的不平衡程度很高,因此應選擇對數據傾斜敏感度較低的指標對模型表現進行客觀評價。本文選擇AUC以及KS值對模型效果進行評價。AUC與KS值均基于真正率(TPR)和假正率(FPR)計算得出。AUC值表示用不同閾值下TPR與FPR連成的ROC曲線下方的面積。AUC值越高,模型對于正負樣本的區分能力越強,效果越好。KS值表示TPR和FPR的最大差值,反映的是模型的最優區分效果,KS值對應的閾值可作為區分好壞用戶的最優閾值。
4.4 實驗結果
第一組實驗將企業節點的自身屬性輸入模型并進行訓練,全部特征數目為60,涵蓋了篩選過后的企業自身屬性、企業唯一實控人屬性以及企業其他干系人屬性。第二組實驗除了用到以上60個全部特征,還加入了當前企業關聯周圍鄰居節點欺詐申請的比例,共計61維。比較兩個模型在測試集上的表現,模型效果對比如圖3所示,模型性能表現見表3。
圖3???模型效果對比灰色和黑色兩條曲線分別代表是否加入網絡特征的模型的表現。其中引入網絡特征的模型(AUC為0.844)對欺詐樣本的區分能力明顯好于僅使用節點屬性的模型(AUC為0.791)。其在測試集上的AUC值提升了6.7%,KS值提升了24.7%。
除了模型表現的比較,模型對結果的可解釋性同樣確保了整個銀行貸款業務的風險可控。由于LightGBM本質上采用基于決策樹算法的梯度提升框架,在模型訓練的過程中會根據特征的信息增益來分裂葉子節點。因此,可將其作為特征重要性信息,以評價不同特征對欺詐風險預測的貢獻程度。圖4列出了模型2中重要性排名靠前的特征。可以發現,企業鄰居的欺詐比例對模型判斷企業欺詐風險的影響最大,企業地理位置、企業存款信息位列其后。同時,在排名靠前的特征中出現了企業實控人與企業干系人的相關屬性,證明了建立完整的企業畫像在全面考量小微企業申貸風險時的重要性。
圖4???特征重要性排序5 結束語
本文針對當前小微企業信貸反欺詐的痛點,提出了一種基于企業畫像與企業關系圖譜的有監督學習解決方案,實現從孤立的企業實體欺詐風險到全局網絡風險的把控,為反欺詐實踐提供了新思路。通過對比傳統的信貸反欺詐風控方法,可以明顯地看到本文方法為孤立的企業畫像引入網絡特征的優勢,也能夠更準確地刻畫申貸小微企業與欺詐目標之間的非線性關系。在當前普惠金融的大市場環境下,該方法可在一定程度上解決小微企業貸前反欺詐的風控難題,幫助銀行提供更加高效、可靠的金融服務。
作者簡介
金磐石(1965- ),男,中國建設銀行股份有限公司信息總監,主要研究方向為數據處理領域技術研究與應用、人工智能領域技術研究與應用等。
萬光明(1974- ),男,中國建設銀行金融科技部高級工程師,主要研究方向為應用架構管理、人工智能方向架構管理等。
沈麗忠(1978- ),男,建信金融科技有限責任公司廈門事業群大數據平臺架構師,主要研究方向為數據挖掘、分布式存儲、分布式計算、流計算、數據分析等。
《大數據》期刊
《大數據(Big Data Research,BDR)》雙月刊是由中華人民共和國工業和信息化部主管,人民郵電出版社主辦,中國計算機學會大數據專家委員會學術指導,北京信通傳媒有限責任公司出版的中文科技核心期刊。
關注《大數據》期刊微信公眾號,獲取更多內容
往期文章回顧
總結
以上是生活随笔為你收集整理的基于知识图谱的小微企业贷款申请反欺诈方案的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 信息与数据科学国际会议征文通知
- 下一篇: 为什么说线索二叉树是一种物理结构