存量运营好工具:客户稳定度评分卡模型
導讀
本文主要是介紹基于邏輯回歸算法的穩定度評分模型實現流程,所選案例也詳細展示了模型構建的整個流程及處理方法。
來源:原力大數據?丨作者:黃廣山
數據猿官網 | www.datayuan.cn
今日頭條丨一點資訊丨騰訊丨搜狐丨網易丨鳳凰丨阿里UC大魚丨新浪微博丨新浪看點丨百度百家丨博客中國丨趣頭條丨騰訊云·云+社區
存量運營是企業針對現有客戶,以提升?客戶忠誠度,釋放客戶價值為目的的一系列經營方針和策略,是在當前人口紅利和流量紅利消失的情況下,企業十分重視的板塊。本文將介紹其中一種策略——客戶穩定度評分體系構建。
客戶穩定度評分模型?是評分卡模型的一種,本質上是一種有監督的機器學習模型,是一種以分數衡量流失幾率的一種手段,用來預測客戶在未來一段時間流失的概率。
通過對客戶的穩定度進行評分,可以對客戶進行?分群,并針對不同穩定度的群體制定相應的營銷維穩策略,為企業實現精細化運營提供決策依據。
評分卡模型在信貸管理領域廣為人知,除此之外,它還被廣泛的應用在市場營銷、客戶關系管理、賬戶管理等場景。下文將以我們原力大數據為運營商搭建的客戶穩定度評分模型為例,介紹整個模型和應用實現過程。
準備工具
Python2.7編程環境,sklearn算法庫及其他科學計算庫
實現流程
Step1? 數據準備
(1) 定義目標變量
正樣本:即?低穩定度客戶,指的是以當月在網客戶為基數,4個月后非正常在網的手機客戶,標記為1。
負樣本:即?中高穩定度客戶,指的是以當月在網客戶為基數,4個月后仍正常在網的手機客戶,標記為0。
(2) 收集數據
以5月在網客戶為基數,以9月底客戶是否正常在網給不同客戶打上標簽,仍然正常在網標記為0,非正常在網標記為1。取正例5萬、反例10萬進行建模。取5月在網客戶的4月、5月數據作為歷史數據,以2個月時間窗作為觀察期。
(3) 數據字段結果
取了以下23個字段數據,如表1 所示:
表1???字段解釋
Step2? 數據預處理
(1) 數據清洗
無效數據處理:刪除無效字段、樣例、缺失值,本次建模,共刪除無效樣例1.7萬。
注意:資費ID字段是一個類別數超過2000的定性字段,容易過擬合,故刪除;
數據轉換:將入網時間字段轉換為網齡(用NET_AGE字段表示,以月為單位),轉換為機器可識別的類型;
缺失值處理:對定性特征(離散型特征)采用眾數填充法,對定量特征(連續型特征)采用均值填充法,本例中,定量特征包括:NET_AGE 、YW_JWQ_NUM 、JWQ_NUM 、ARPU_N 、ARPU_N_1、MOU_N 、CALL_N 、CALL_N_1共計8個特征字段,其余特征字段均為定性特征;
(2) 定量變量篩選
定量特征篩選:通過相關系數法篩選定量特征,如表2 所示,表中為各數值特征與目標變量的相關系數,首先,刪除與目標變量相關性低于0.3的特征:ARPU_N 、ARPU_N_1、YW_JWQ_NUM;
表2 ??特征字段及目標變量之間的相關系數矩陣
*字段說明:NET_AGE(網齡)、YM_JWQ_NUM(異網交往圈人數)、JWQ_NUM(交往圈人數)、APPU_N(本月費用)、APPU_N_1(上月費用)、MOU_N(本月通話時長)、MOU_N_1(上月通話時長)、CALL_N(本月主叫通話時長)、CALL_N_1(上月主叫通話時長)、STATE(1:低穩;0:中高穩)
共線性問題處理:共線性問題又稱做多重線性問題,在應用邏輯回歸模型時應盡量避免出現共線性問題,即特征之間出現強相關性(相關系數大于0.8)時只能保留一個特征。
可以看出MOU_N、MOU_N_1、CALL_N、CALL_N_1具有強相關性,刪 .除CALL_N、CALL_N_1字段,合并MOU_N、MOU_N_1字段為 .? MOU_AVG,表示本月及上月通話時長均值。
調整效果檢測:經上述處理,得出調整后的相關系數矩陣,如表3所示。下表所示結果已經消除了共線性問題,并保留了與目標變量較為相關的特征字段。
表3? 調整后的特征字段及目標變量之間的相關系數矩陣
*字段說明:NET_AGE(網齡)、JWQ_NUM(交往圈人數)、MOU_AVE(本月和上月平均通話時長)、STATE(1:低穩;0:中高穩)
3) 定量變量分箱
離散化:構建穩定度評分模型時需要將定量變量(連續變量)進行離散化,本項目采用卡方分裂算法對篩選后的定量特征進行分箱處理,默認分為6組。
卡方分裂算法:卡方分裂算法是監督的、自底向上的(即基于合并的)數據離散化方法。它依賴于卡方檢驗:具有最小卡方值的相鄰區間合并在一起,直到滿足確定的停止準則;
其思想是對于精確的離散化,相對類頻率在一個區
間內應當完全一致。如果兩個相鄰的區間具有非常類似的類分布,則這兩個區間可以合并;否則,應當保持分開。而低卡方值表明它們具有相似的類分布。
定量變量分箱結果如表4:
表4??定量變量分箱結果
(4) 定性變量篩選
計算各個定性變量的IV值,刪除小于0.1的變量:CITY_ID、IS_BXL、IS_BROAD、IS_JX、IS_YJ_EX共計5個字段;
(5) WOE轉換
計算WOE值。
WOE:基于邏輯回歸的評分卡模型一般需要先將所有變量進行WOE編碼。它實際表示“當前分組中響應客戶(標記為1的客戶)占所有響應客戶的比例”和“當前分組中沒有響應的客戶(標記為0的客戶)占所有沒有響應的客戶的比例”的差異,WOE越大,差異越大。于邏輯回歸的評分卡模型需要先將所有變量進行WOE編碼。
WOE值如表5所示:
表5? WOE值計算結果
WOE其實描述了變量當前這個分組,對判斷個體是否響應客戶(流失客戶)所起到的影響方向和大小。當WOE為正時,變量當前取值對判斷個體是否會響應起到的正向的影響,反之亦然。WOE值大小,體現這個影響的大小。
如表中網齡NET_AGE字段,網齡小于28個月的分組WOE值都為正,表明網齡小于28個月的客戶更有可能被判定為流失客戶,網齡越小,WOE數值越大,表明可能性也越大。
6) 數據集劃分
采用分層抽樣,70%為訓練集,30%為測試集。
Step3 ?模型訓練
調用sklearn算法庫中?邏輯回歸算法,在已經預處理完畢的訓練集上訓練模型。
采用?網格搜索法,進行超參數調整,得到局部最優超參數;
儲存擬合好的模型參數β0,β1,…,βn。
Step4 ?模型評估
評估分類模型在測試集上的表現,采用?AUC值?作為評估指標;
AUC(Area Under Curve)被定義為ROC曲線下與坐標軸圍成的面積;其本質就是一個概率值。
結果:本次分類模型在測試集上測試的AUC值是?0.834,即Score值將正樣本排在負樣本前面的概率是?83.4%,模型效果較好。
Step5 ?生成客戶穩定度評分表
通常,得分越高代表客戶越穩定。在本項目中,將優比定義為?4:1(理論流失概率/理論正常概率),此時理論流失概率為80%,對應的分數定義為200分,雙倍優比分數為50分,即用戶得分每增加(或減少)50分,那么他的優比(理論流失概率/理論正常概率)將變成原來的0.5倍(或2倍)。
經過計算,本項目中的穩定度得分為:
Score = 300 –72.134*In(odds)
當odds等于1時,也就是理論流失概率等于50%時,Score = 300;
當odds等于0.5時,也就是理論流失概率等于33.3%時,Score = 350;
當odds等于0.25時,也就是理論流失概率等于20%時,Score = 400;
推薦當理論流失概率 ≥33.3% 時,即Score≤350?時,判定為低穩客戶,當然,企業也可以根據需要自行根據客戶的穩定度分數對客戶進行分群。
根據表5結果,把每個變量各個分組的woe值代入公式,可以計算得到最終的客戶穩定度評分表,分數越高,代表客戶越穩定;如下表所示:
表6? 客戶穩定度評分結果
使上述評分表(表6)可對客戶進行穩定度評分,通過該客戶各個特征字段的得分加總,最終可得到客戶的最終穩定度得分。如以下例子所示:
表7? 客戶穩定度評分應用示例
結語
本文主要是介紹基于邏輯回歸算法的穩定度評分模型實現流程,所選案例也詳細展示了模型構建的整個流程及處理方法。盡管模型表現良好,所選案例仍然存在以下不足之處:
(1) 選用數據維度稍顯不足,可能會忽略掉一些對模型有較大影響的字段;
(2) 處理2個月數據時,為了消除共線性,只采用了簡單的取均值方法處理,模型迭代時可以考慮采用更細致的特征工程方法,譬如,做差值,衍生出數據變化趨勢字段;
考慮到數據的變化因素,穩定度評分體系構建之后應保持對模型效果的持續監控,當發現模型效果變差時,或者經過一定的時間周期后,需要使用最新的數據進行模型迭代,以保證模型的時效性、準確性。
本文作者
黃廣山,原力大數據模型算法工程師。
原力大數據
原力大數據旨在為企業實現:管理、分析、激活企業大數據,發掘企業大數據金礦;洞察、連接、盤活企業存量客戶,深度營銷企業存量客戶。
原力大數據專注于為企業提供基于大數據、云計算技術的數字化市場營銷產品與服務,包括自主研發的原力MarTech(Marketing Technology營銷技術)云平臺、原力互聯網商情云平臺、企業大數據平臺構建及軟硬件集成、企業大數據平臺規劃咨詢及相關專業服務。
原力MarTech云平臺五大能力
1?企業自有大數據梳理、清洗、集成及建模,挖掘并積累高價值大數據資源;
2?全方位的企業經營分析可視化應用服務,涉及會員用戶、營銷渠道、營銷商品、營銷活動等;
3?用戶行為數據分析,建立用戶標簽,提供千人千面的用戶畫像;
4?用戶洞察、精準營銷,提供針對用戶的多渠道、全過程營銷自動化能力;
5?營銷效果實時數據分析評估,營銷活動全過程持續迭代優化。
數據猿讀者親啟:
名企&大佬專訪精選
向下滑動啟閱
以下文字均可點擊閱讀原文
跨國外企:
谷歌大中華及韓國區數據洞察與解決方案總經理郭志明丨 IBM中國區開發中心總經理吉燕勇丨微軟中國CTO官韋青丨前微軟中國CTO黎江丨VMware中國區研發中心總經理任道遠
中國名企:
聯想集團副總裁田日輝丨首汽租車COO 魏東
阿里巴巴數據經濟研究中心秘書長潘永花
搜狗大數據研究院院長李剛丨易觀CTO郭煒
前上海證券交易所副總裁兼CTO白碩丨攜程商旅亞太區CMO 邱斐丨艾瑞集團CTO郝欣誠丨泰康集團大數據部總經理周雄志丨上海鏈家研究院院長陳澤帥丨藍色光標首席數據科學家王煉
知名學者:
北大新媒體研究院副院長劉德寰丨中科院基因研究所方向東
?
創業明星:
地平線機器人創始人兼CEO余凱丨天工科儀董事長王世金丨ZRobot CEO喬楊丨天眼查創始人兼CEO柳超丨第四范式聯合創始人兼首席架構師胡時偉丨天云大數據CEO雷濤丨Kyligence聯合創始人兼CEO韓卿丨數之聯創始人兼CEO周濤丨明略數據董事長吳明輝丨91征信創始人兼CEO 薛本川丨智鈾科技創始人、CEO及首席科學家夏粉丨易寶支付聯合創始人兼總裁余晨丨海云數據創始人兼CEO馮一村丨星環科技COO佘暉丨碳云智能聯合創始人兼首席科學家李英睿
?
知名投資人:
前IDG創始合伙人、火山石資本創始人章蘇陽
華創資本合伙人熊偉銘丨六禾創投總裁王燁
信天創投合伙人蔣宇捷丨青域基金執行總裁牟穎
藍馳創投合伙人朱天宇
——數據猿專訪部
(可上下滑動啟閱)
▲向上滑動
采訪/報道/投稿
yaphet.zhang@datayuan.cn
商務合作
18600591561(微信)
長按右方二維碼
關注我們ˉ?
總結
以上是生活随笔為你收集整理的存量运营好工具:客户稳定度评分卡模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无线路由器密码破解-BT3-spoonw
- 下一篇: 语音助手的涅槃关头,我们应该完全抛弃屏幕