宜人蜂巢技术点解读
?YEP是致力于為中國金融科技行業提供信用評估、風險控制和精準獲客的金融科技能力共享平臺。
?宜人貸借款已使用YEP的智能分發平臺,為合作伙伴推薦更適合其產品的用戶。
?同時,YEP以宜人蜂巢為代表,從2017年開始為市場和行業賦能,以數據科學驅動風控。
?宜人蜂巢旨在通過數據科學驅動互聯網風控,讓信用釋放更多價值。宜人蜂巢提供基于獨創的非結構化解析引擎Nestor打造的多維多端實時保真數據獲取服務;結合大數據、機器學習技術構建的反欺詐服務;通過深度數據挖掘、特征化工程構建千余維度特征的用戶信用報告。
?宜人蜂巢于2013年由李善任先生(麥哥或Michael),在宜信宜人貸內部組建團隊并成功孵化的項目。通過8大維度:金融、電商、社交、保險、社保、行為、位置等約20種數據源,千余維度特征,億級關系網絡等,幫助企業做出更明智的信貸決策,以擴大公平和透明信貸的可用性。目前查詢量超過6000萬次,體驗用戶超過3000萬。通過宜人蜂巢科技平臺的促成的放款額已突破1200億;
?宜人蜂巢持續技術創新和精進運營,創造極致用戶體驗,引領互聯網風控技術發展。我們接下來從整體架構、數據獲取、反欺詐三個方面介紹宜人蜂巢的技術體系。
一、整體架構
先來看一下蜂巢的整體技術架構:
宜人蜂巢結合了大數據和機器學習的最新技術,組成完善的技術矩陣,構建智能、高效、穩定和安全的數據服務和風控服務:
二、獨創Nestor引擎 秒級保真數據獲取
宜人蜂巢基于用戶授權的數據獲取服務,涵蓋金融、電商、社交、保險、社保、行為、位置等8大維度,超過500個數據源站點。該業務場景的特點是:
1.???????? 時間長,用戶交互步驟多,頁面下載和解析量大
2.???????? 不穩定,500多個異構數據源,隨時都有數據源維護、停服、響應慢等現象,不可控因素多
3.? ? ? ??反機器人技術愈發成熟,數據獲取難度加大
宜人蜂巢獨創了Nestor引擎,通過實時調度、精細化采集、可熱部署升級、計算機視覺、無狀態彈性伸縮等技術手段,做到了秒級保真數據獲取,提供了極致用戶體驗,成為業內標桿。
1)???????? 實時調度
Nestor把單個用戶的單一數據源的授權獲取視為一個任務,任務被設計為異步執行、消息驅動、無狀態化的。Nestor將不同數據源的任務進行混編,通過獨創的資源共享和調度技術,最大化資源利用率。
利用消息驅動,使用消息隊列削峰填谷,將各數據獲取過程解耦,上下文信息以消息體現,業務流程無狀態。各業務線之間的消息傳遞均使用128位深度加密算法進行加密,最大程度上保證用戶數據安全
Nestor是通過Zookeeper進行集群協調,調度節點多主熱備,任務執行節點無狀態化彈性伸縮,系統無間斷穩定運行,吞吐量隨需應變。
?
2)???????? 可熱部署升級
宜人蜂巢通過獨創的受專利保護的Nestor模板技術,動態函數注入技術,把每個數據源的授權獲取和解析邏輯寫入標準的JSON文件,通過配置中心下發到任務執行服務器。任務執行服務器受消息驅動,根據最新的JSON配置執行數據的獲取與解析。
通過發布JSON文件,無需代碼的編譯打包和重新部署,即可完成數據源升級,該技術使得代碼量下降了60%,系統可用性達到99.9999%。
?
3)???????? 智能代理
反機器人技術里最常見的一個手段是進行IP訪問限制。蜂巢通過自建和外部合作等方式構建了強大的代理池網絡,覆蓋3大運營商,運行于多個公有云,滿足HTTP/HTTPS、SOCK4、SOCK5代理類型,動態撥號,任何時刻擁有上千個可用IP,蜂巢的代理可用性達到99.9%。
宜人蜂巢對數據源的代理表現進行實時監控,對代理進行評級和打分,結合自適應學習和規則動態決定任務所使用的代理及重新測量。
?
4)???????? 計算機視覺
宜人蜂巢采用OCR、卷積神經網絡技術,對驗證碼高效失敗,最小化用戶輸入和交互流程,大大縮短數據獲取時間;通過計算機視覺技術高效精確識別圖片化數據,提取成結構化數據,只要是用戶可見的信息均可成功獲取。
?
5)???????? 精細化采集
宜人蜂巢對每一個數據源進行了精細化采集,對頁面進行深度分析,消除冗余資源加載、合并數據請求、最少化請求數、最大化并發能力、無DOM化極速解析,確保數據獲取和解析的極致性能。
?
6)???????? APP端采集
移動互聯網飛速發展,越來越多的企業出于成本、用戶體驗等因素的考慮,只開發移動app,而放棄pc版站點,逐漸形成APP為主,PC站點為輔的布局形態,傳統的基于網頁的數據獲取技術已經不能完全滿足需要。蜂巢通過虛擬化技術,構建了大規模的虛擬Android集群,機型可以靈活配置,滿足復雜多變的APP運行需求。宜人蜂巢組合Android界面自動化技術、HTTP/HTTPS代理技術、計算機視覺技術實現了APP數據無縫獲取。
宜人蜂巢具備完整的PC、Web、APP三端數據獲取技術,在用戶授權提前下,可以實時保真獲取到用戶金融、電商、社交、保險、社保等5大維度數據。
三、多維交叉反欺詐
有金融的地方,有金錢的地方就一定會有欺詐發生。欺詐用戶會通過虛構信用卡賬單、虛假交易、團伙作案、多頭借貸等手段進行信用造價,騙取貸款,貸出超過自身償還能力的額度,給企業帶來損失。宜人蜂巢運用大數據、機器學習、社交關系圖譜、特征工程等技術,結合黑名單庫和聯盟數據進行多維交叉檢測反欺詐,鑒別攔截率成功高達98%。
1)???? 賬單反欺詐
基于海量用戶郵件頭信息,提取疑似欺詐特征,通過郵件路徑追蹤、黑白名單庫對比、 決策樹模型等方法,辨別可疑郵件來源
運用統計建模、邏輯回歸、SPF反查策略、文本挖掘分析、決策樹等技術,對賬單郵件內容進行深度分析,對欺詐賬單進行特征挖掘,精確識別郵件內容篡改。
截止目前,攔截疑似欺詐賬單超過1000萬封,疑似欺詐用戶80萬,規避違約貸款50億。
?
2)???? 欺詐團伙識別
基于宜人蜂巢8大維度的用戶數據,構建構建用戶社交關系圖譜,分析用戶與黑灰名單、欺詐團伙的碰觸路徑及黑灰度。通過關系圖譜,可以挖掘出用戶N度關系內逾期人數、放款人數、重復賬單數、涉黑聯系數,判別是否為欺詐團伙以及可疑程度。
??????宜人蜂巢社交關系圖譜累計4000萬+個節點,10億+關系連接,有效識別觸黑用戶、欺詐團伙,并可以進行貸后失聯修復。
?
3)???? 風險特征工程
宜人蜂巢通過特征對風險特征進行建模,對用戶進行畫像,通過隨機森林等大數據挖掘和機器學習技術提高模型預測精度。依托流式處理平臺,對數據源進行實時清洗、挖掘與計算,形成了包含電商、運營商、金融等強金融屬性、千余維度千余維度的強金融屬性風險因子。依據用戶授權的網銀、郵件賬單數據進行深度挖掘分析,生成能反應用戶信用歷史、消費還款等行為的報告。依據用戶授權的運營商數據進行深度挖掘分析,生成能反應用戶社交習慣、異常記錄等行為的報告。依據用戶授權的電商數據進行深度挖掘分析,生成能反應用戶網絡消費習慣、購物喜好等行為的報告。
?
4)???? 多頭借貸
客戶從多個平臺借貸,可能帶來超出用戶償還能力的違約風險,宜人蜂巢利用豐富的數據維度,結合大數據和機器學習技術,有效識別用戶是否存在多頭借貸行為。利用大數據技術分析用戶的交易記錄和賬單記錄,尋找放款和還款特征;利用獨創的檢測技術檢測用戶關聯屬性是否在其它借貸平臺有借貸行為,目前以覆蓋40多家主流借貸平臺;與業內公司聯盟,共建多頭借貸信息池;
?
? ? ? ? ? ?5)???? 情報監控
欺詐團伙搜集不同平臺的借貸條件、盯梢平臺漏洞、偽造用戶數據,進行有針對性的偽造信息,并在其網站、論壇和社交媒體進行傳播。宜人蜂巢情報監控實時采集行業網站、論壇和社交媒體數據,結合流失計算和語義分析技術,截獲欺詐營銷情報,第一時間發現欺詐團伙,并進行針對性風險防控。
?
6)???? 黑灰名單庫
宜人蜂巢利用宜信自有貸款的數據積累,結合合作伙伴數據,創建了包含手機號、×××、微信號、郵箱的黑/灰名單庫,收錄相關信息超過100萬條。宜人蜂巢在行業內推大力動違約用戶信息共享,蜂巢黑名單庫日漸完善。
四、優勢
宜人蜂巢能夠持續贏得客戶和合伙伙伴的肯定,是因為宜人蜂巢具備了四大核心優勢:
1.?? 智能
??? 構建信貸各環節信息的FinGraph,多維度特征交叉檢測,聯防監控,有效預防多頭借貸,精準識別欺詐用戶或團伙,從源頭阻斷風險行為,將欺詐行為的鑒別攔截率成功提高到98%以上,提升風控有效性。
2.?? 高效
??? 利用獨創的非結構化數據解析引擎Nestor,對多維多端授信源進行實時保真采集,結合先進的算法模型(計算機視覺、數據挖掘與機器學習等人工智能技術)形成精細化的數據整合應用,提升用戶轉化率。
3.?? 穩定
??? 通過服務無狀態化設計實現水平擴容,對依賴數據源、服務采用多鏈路多策略備份,結合全方位實時的系統、業務、數據源監控, 7*24小時運營支持,蜂巢服務可用性達到99.9999%。
4.?? 安全
? 采取三層防火墻、RSA加密技術、數據隔離、數據脫敏、分布式存儲等安全技術,結合運營安全制度和策略,通過多重防御布控保障系統安全。
????
? 數據為信,信用生金。宜人蜂巢期待與行業伙伴們攜手合作,共御風險,讓信用釋放更多價值。
?
轉載于:https://blog.51cto.com/honeycomb2017/2114461
總結
- 上一篇: Java生成Word文档
- 下一篇: Flutter Beta 3 新特性概览