风控建模 python 知乎_风控建模基本要求及面试问题小结
(本文是寫給風(fēng)控入門同學(xué)的建議!)
一 準(zhǔn)備工作
根據(jù)核心職業(yè)CD法則,找工作前,你得先清楚自己有什么,自己要什么;面試單位有什么,面試單位要什么。就筆者近一年的學(xué)習(xí)及工作經(jīng)驗總結(jié)而言:
科班同學(xué),最好直接從統(tǒng)計分析、應(yīng)用統(tǒng)計角度入手,從事金融、生物、醫(yī)藥等領(lǐng)域里的數(shù)據(jù)分析或數(shù)據(jù)挖掘相關(guān)工作;
非科班轉(zhuǎn)行來的,建議直接做金融,需要的專業(yè)知識不多,行業(yè)知識也易懂,而且信用中國還有很長的路要走,在這個領(lǐng)域扎根越久,收益越高,因為我們要學(xué)的這些知識首先是保值甚至是增值的。可掌握的技能基本可以選擇大數(shù)據(jù)、數(shù)據(jù)提取、處理、分析、建模這五大塊兒,內(nèi)容及要求總結(jié)如下:前搞MIS(報表分析):業(yè)務(wù)報表及報告的生產(chǎn),掌握excel手動報表匯總、透視等功能,tableaue等線上BI報表制作、分析。
后搭數(shù)倉(數(shù)據(jù)提取):數(shù)據(jù)倉庫,包括關(guān)系型、非關(guān)系型、大數(shù)據(jù)、圖數(shù)據(jù)等數(shù)據(jù)庫、數(shù)據(jù)表的設(shè)計(常為后端人員開發(fā),數(shù)據(jù)人員需要了解表結(jié)構(gòu)、字段類型等),數(shù)據(jù)存儲、提取、轉(zhuǎn)換、清洗、處理;需熟練掌握SQL、HQL、NQL等語言,可以做json、dict、frame、pkl等數(shù)據(jù)格式的轉(zhuǎn)換。
左建模型(模型開發(fā)):金融風(fēng)控模型,不單單指評分卡,而是針對產(chǎn)品營銷、定價、授信、管理、催收、監(jiān)測等業(yè)務(wù)流程開發(fā)的一系列策略、規(guī)則、評分卡的集合,通常我們認(rèn)為,利用有監(jiān)督、無監(jiān)督、半監(jiān)督、深度學(xué)習(xí)等算法開發(fā)的評分卡是風(fēng)控模型中卓有成效的技術(shù)。
右通算法(數(shù)據(jù)挖掘):LR、RF、XGBoost、SVM等常見算法。對跨領(lǐng)域轉(zhuǎn)行過來的同學(xué)來說,算法這塊,既有趣,又神秘,關(guān)鍵還難懂,讓人又愛又恨。好的算法工程師,需要扎實的計算機算法、算力、數(shù)據(jù)結(jié)構(gòu)等基礎(chǔ),需要扎實的概率、統(tǒng)計、多元回歸、矩陣等基礎(chǔ),我等渣渣勵志做算法的話,3~5年起步吧。
核心懂業(yè)務(wù):P2P、消費分期、現(xiàn)金貸、傳統(tǒng)金融、大額、小額、信用卡、車貸、抵押、資產(chǎn)、標(biāo)的等業(yè)態(tài);風(fēng)險定價、反欺詐、信用循環(huán)、信審、提額等環(huán)節(jié);滾動、遷徙、賬齡、遞延、回收、壞賬等指標(biāo)。要懂的東西,也多也不多。
所以,除非奔著算法工程師去,否則最好的入行策略就是熟知行業(yè)業(yè)務(wù)流程,從數(shù)據(jù)庫、數(shù)據(jù)提取、數(shù)據(jù)挖掘、數(shù)據(jù)分析、風(fēng)控建模等崗位中擇一良木而棲,夯實基本數(shù)據(jù)提取、挖掘、建模等流程所用到的技術(shù)。算法這塊兒,只需要掌握常用LR、樹模型等算法的原理,能夠使用編程工具實現(xiàn)即可。
畫個VISIO:
所有知識點都掌握,并且能夠熟練運用,已然建立體系,胸有成竹,你就可以驕傲的自封一個全能數(shù)據(jù)戰(zhàn)士的名號了,簡直朝陽區(qū)中最靚的仔。(悄悄說一句,全棧離經(jīng)理和總監(jiān)更近,產(chǎn)品、前后端都得給你點個贊)
那針對金融風(fēng)控崗,我們的面試準(zhǔn)備工作,就從以上幾點出發(fā),重點從模型著手。
1、行業(yè)經(jīng)驗互聯(lián)網(wǎng)金融風(fēng)控崗位的業(yè)務(wù)理解,比如:信用循環(huán)體系;核撥率、遞延率、壞賬率等運營指標(biāo);滾動率、賬齡分析等分析指標(biāo)。
風(fēng)控模型的開發(fā)流程,比如:信用模型評分卡的開發(fā)、上線、優(yōu)化等過程及方法。
2、知識基礎(chǔ)
(以下詳細(xì)內(nèi)容請看筆者其他相關(guān)文章) - 數(shù)據(jù)存取與處理: 基礎(chǔ)能力,這是數(shù)據(jù)分析類工作的技能基礎(chǔ),也是任何一個數(shù)據(jù)類工種都需要的基礎(chǔ)能力,不熟練的話就再學(xué)一段時間。 - 統(tǒng)計學(xué)習(xí): 機器學(xué)習(xí)的基礎(chǔ)是概率論與統(tǒng)計學(xué)習(xí),這塊兒你可以不必特別扎實,但像五位數(shù)、方差、正態(tài)分布、相關(guān)系數(shù)、假設(shè)檢驗常用知識點得了解并掌握。 - 數(shù)據(jù)挖掘: 不論是規(guī)則還是評分卡,風(fēng)控建模類工作的大量工作內(nèi)容就是對用戶特征的挖掘、定義、擴展、轉(zhuǎn)換、處理、分析、運用,以產(chǎn)生對業(yè)務(wù)有幫助的決策數(shù)據(jù)。所以特征工程來龍去脈需要懂,并且會熟練使用。 - 常用算法: 用于特征工程及建模工作,同樣不必全懂,但一到兩種常用算法的推導(dǎo)及一到兩種融合算法的原理必須掌握,常用的元模型為邏輯回歸、決策樹;常用的融合模型有隨機森林;神經(jīng)網(wǎng)絡(luò)則有ANN。
3、代碼能力python | R | sas,把一門代碼類工具運用熟練即可。就python而言,像pandas、numpy、statsmodels、sklearn,這幾個包學(xué)扎實就行。
(選工具的話,建議python,別問為什么,怕被隔壁用R、spss、PHP、java、excel的媛兒們暴錘)
二 面試問題
1、風(fēng)控建模談?wù)勀銓︼L(fēng)控模型的理解?
模型如何設(shè)計? 可以從滾動率、遷徙率來回答,也可以從反欺詐、ABC卡回答。
對客群進行細(xì)分建模的本質(zhì)是什么? 其實分客群進行建模,實質(zhì)也是一種交叉特征,能提高模型穩(wěn)定性。
拒絕推斷應(yīng)該怎么做,作用是什么?效果怎么樣? (多查資料,博學(xué)審問慎思明辨)
簡要說明下標(biāo)準(zhǔn)評分卡開發(fā)流程 (多查資料,博學(xué)審問慎思明辨)
2、特征工程如何對數(shù)據(jù)做質(zhì)量檢驗? 在完成數(shù)據(jù)匹配工作之后,建模之前,我們需要對數(shù)據(jù)進行整體的質(zhì)量檢測,主要有兩個方面: 1、數(shù)據(jù)分布。 2、數(shù)據(jù)集中度檢測。 3、數(shù)據(jù)臟亂情況。缺失值(是否隱藏風(fēng)險)、離群值、錯誤值、重復(fù)值,根據(jù)其是否符合業(yè)務(wù)邏輯,判斷數(shù)據(jù)是否存在異常。
特征工程流程 關(guān)鍵詞: 特征預(yù)處理、特征選擇、特征衍生、特征提取等。用到的技術(shù)主要有連續(xù)變量離散化、分類變量啞編碼、卡方分箱、特征編碼、共線性檢驗、PCA降維、交叉驗證等。
篩選變量的常用方法 篩選變量有很多種方法,隨機森林、GBDT、邏輯回歸顯著性、VIF共線性、相關(guān)性圖譜等、隨機邏輯回歸篩選、遞歸法篩選等。
好的特征需要具備哪些優(yōu)勢? 1、穩(wěn)定性高 2、區(qū)分度高 3、差異性大 4、符合業(yè)務(wù)邏輯
如何衍生特征? 變量的衍生并不復(fù)雜,通常我們會從三種角度出發(fā): 1、數(shù)學(xué)運算。求和、比例、頻率、平均等。 2、時間窗口。有些變量的意義只有在一段時間內(nèi)才有效,所以針對時間比如說注冊如期、交易日期等變量,需要計算其到現(xiàn)在的時間段,完成變量的衍生。 3、交叉組合。GBDT\XGBoost、LDA主題模型、用戶畫像分等等都可以做特征衍生。 衍生出來的特征要符合實際業(yè)務(wù)含義,并且要保持穩(wěn)定。
3、機器學(xué)習(xí)算法簡單介紹你熟悉的幾種算法及其在應(yīng)用場景中的差別!
一些基本公式的推導(dǎo),比如LR、xgb之類的,這些可以自己推導(dǎo)一下。
簡單評價幾種常用算法的優(yōu)缺點: 1、邏輯回歸 優(yōu)點:簡單、穩(wěn)定、可解釋、技術(shù)成熟、易于監(jiān)測和部署 缺點:一定不能有缺失數(shù)據(jù);必須是數(shù)值型特征,需要編碼;準(zhǔn)確度不高 2、決策樹 優(yōu)點:對數(shù)據(jù)質(zhì)量要求不高,易解釋 缺點:準(zhǔn)確度不高 3、其他元模型 4、組合模型 優(yōu)點:準(zhǔn)確度高,穩(wěn)定性強,泛化能力強,不易過擬合 缺點:不易解釋,部署困難,計算量大
4、模型評估模型評估的常用方法? 從三方面回答: 1、區(qū)分度:主要有KS和GINI指標(biāo),理解KS的定義及用法 2、準(zhǔn)確性:主要有roc曲線和AUC指標(biāo),理解AUC的定義及用法 3、穩(wěn)定性:主要有PSI指標(biāo),理解PSI的定義及用法
auc和ks的關(guān)系? 有人說auc是衡量整個模型的排序能力,KS是衡量某個分段的區(qū)分能力。
5、模型部署模型的部署上線應(yīng)用類似的問題,偏開發(fā),分析人員可能不太擅長。主要就是api接口安裝、測試、等級劃分、額度設(shè)計、風(fēng)險定價、ABtest的設(shè)計等等。
6、模型監(jiān)測上述一些運營數(shù)據(jù)和風(fēng)控指標(biāo)的關(guān)注
三 寫在后邊
在全世界,分析能力都有同質(zhì)化的趨勢——大量的技術(shù)已經(jīng)進入這個領(lǐng)域,壁壘幾乎已經(jīng)沒了。長期、可持續(xù)的優(yōu)勢,來自企業(yè)擁有的人才和你手里的數(shù)據(jù)。
總體而言,中國的金融科技市場是全世界最先進的,而且領(lǐng)先了很多。不過,在一個領(lǐng)域,中國的進步?jīng)]有世界上其他國家大,那就是綜合數(shù)據(jù)分析領(lǐng)域。如何更明智地使用數(shù)據(jù),是全世界留給中國人的機會。關(guān)于學(xué)什么這件事情。原本一直非常猶豫要不要學(xué)習(xí)編程,現(xiàn)在非常明確了,這件事最好的開始時間是大學(xué),其次是現(xiàn)在,而且必須是直接掌握最先進的編程語言,主攻數(shù)據(jù)挖掘和數(shù)據(jù)分析的方向,并與這方面的專業(yè)人士建立鏈接。 ——北大經(jīng)濟學(xué)博士 香帥老師
風(fēng)險管理絕不只是數(shù)據(jù)、模型,它是產(chǎn)品、流程和分析的有效結(jié)合。好的風(fēng)險管理能真正理解流程,真正進入流程、著眼于流程。它能理解產(chǎn)品,理解客戶和競爭對手的意圖,然后將數(shù)據(jù)和分析與之結(jié)合。 ——數(shù)據(jù)驅(qū)動風(fēng)險分析之父 阿什·古普塔
別怕,難者不會,會者不難,稀缺意味著價值。每當(dāng)堅持不下去的時候,回頭看看你自己走過的那段路,雖然曲折,但異彩紛呈,關(guān)鍵還有這么一群可愛又努力的人陪著。
總結(jié)經(jīng)驗,昂首闊步,心里裝著善良和堅強,到哪都會散發(fā)光芒。
我是正陽, 很高興能通過文字認(rèn)識你,點個關(guān)注,后會有期。
微信公眾號:正陽能量場
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的风控建模 python 知乎_风控建模基本要求及面试问题小结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: notepad++ vim插件_是时候摒
- 下一篇: 干生蚝的功效与作用、禁忌和食用方法