数据产品-规则型和挖掘型标签构建案例
數據產品經理在構建數據標簽的過程中,最為常見的是構建統計性的標簽,其很大原因是統計型標簽的可解釋型比較強,開發周期很短,容易根據業務需要進行調整。而對于規則型和挖掘型標簽,其構建周期較長,而且可解釋性較差,很難真正定義一個挖掘型標簽是絕對的可應用型。但作為數據產品經理,需要知曉這兩種類型標簽的構建過程,也需要了解一些統計學理論和算法理論,才能夠在需要之時構建對應的標簽
一、規則型-用戶生命周期分組
1、背景說明
通過生命周期的判定,對不同階段用戶采取不同運營手段,結合后續用戶中心的流失預警建立,減少用戶流失,及時挽回沉默、流失用戶,并根據數據分析結果形成通用規則型標簽
2、用戶分組劃分核心
五個分組:新手期賬號、新增賬號流失、活躍賬號、沉默賬號、活躍賬號流失
①活躍用戶:連續多久未上線可以判定流失?
②新用戶:注冊后多久未上線可以判定當日流失?
3、流失劃分核心點
①“新用戶流失界線”:新用戶注冊后連續m天未上線——找到m值
②“活躍用戶流失界線”:活躍用戶連續n天未上線-----找到n值
注:當新用戶在注冊后m天內有過上線,即切換活躍用戶流失界線的口徑來計算流失
4、根據二八原則尋找分界點
①新用戶流失界限分界點
A、注冊當天為第0天
B、樣本選取T日的新注冊賬號;T范圍限定在7.1-10.30期間,樣本量為7017235
C、連續Y天未上線新用戶的回流率=注冊后連續Y天未上線的用戶在T+Y+1日及之后(截止至11.27)有過回流的人數/連續Y天未上線的新用戶總數
結論:根據二八原則,找到回流率20%的分界點對應的天數值作為新用戶流失界限的分界點為6天,即新用戶注冊后,第1-6天均未上線視為當日流失用戶
②活躍用戶流失界限分界點
A、樣本選取距離11.27日,182天(即5.28)之前的活躍用戶;樣本量為5180595
B、最后一次活躍間隔天數=活躍用戶的最后一次活躍時間-上一次活躍時間
結論:根據二八原則,找到80%人數占比的分界點為活躍流失用戶的分界點為27天,再找有百分之50%會再次活躍的人群定義為活躍用戶,找到分界點為3天。即連續3天至27天未上線的用戶,視為沉默用戶;連續27天以上未上線的活躍用戶,有80%的可能性不會再上線,視為流失用戶
5、用戶生命周期分層
說明:以此分層信息,可以構建用戶生命周期標簽,基于不同的數值區間劃分對應的分組信息
二、挖掘型-賬號流失概率
1、賬號流失概率
基于用戶生命周期分組進行預測
說明:
A、新增賬號流失&活躍賬號流失:流失概率100%
B、新手期賬號屬于新賬號
C、活躍賬號、沉默賬號屬于老賬號
計算規則:計算每一個賬號截至計算時的流失概率
2、判斷過程
使用不同的模型和特征對新賬號和老賬號進行流失概率判定
A、特征選取:主要是用戶的登錄上線情況特征,基于算法訓練提取主要影響特征因素
B、驗收方法:使用測試集,比較其【流失概率】和【實際是否流失】的AUC (Area Under Curve) 值
C、驗收標準:AUC值的分布(具有通用的行業取值分層值,至少需要大于0.5)
AUC值解釋(百度百科)
AUC = 1,是完美分類器
AUC = [0.85, 0.95], 效果很好
AUC = [0.7, 0.85], 效果一般
AUC = [0.5, 0.7],效果較低,但用于預測股票已經很不錯了
AUC = 0.5,跟隨機猜測一樣(例:丟銅板),模型沒有預測價值
AUC < 0.5,比隨機猜測還差;但只要總是反預測而行,就優于隨機猜測
3、模型部署
算法訓練過程的細節不太理解,感興趣的可以自己多去了解。將模型訓練完成后進行部署定期計算并進行增量數據存儲,記錄每天對應用戶數值情況,形成挖掘型標簽
三、挖掘型-用戶內容偏好
用戶偏好內容(TF-IDF):構建用戶的內容分類的偏好情況標簽
1、結果1:無場景權重
A、對內容單元互動行為內容分類TF-IDF算法求出每個用戶身上內容分類標簽的無場景權重
B、內容分類標簽的綜合權重基于以下數據,求出每個用戶身上的內容分類標簽的綜合權重:- 內容分類標簽的無場景權重
a) 行為次數 (根據行為數據統計得出)
b) 行為類型權重 (自定義)
c) 時間衰減函數 (暫用牛頓冷卻定律)
基于相關系數矩陣的內容分類標簽相關性舉個例子:用戶1身上打上了5個A標簽、2個B標簽、1個C標簽;用戶2身上打上了4個A標簽,3個B標簽;用戶3身上打上了4個C標簽、1個D標簽。用個圖象表示一下:那么同時打上A、B標簽的用戶有兩個人,這就說明AB之間可能存在某種相關性
d) 用戶:以賬號 (User ID)為統計口徑
e) 標簽:內容單元的分類標簽
我們用- w(P, T) 表示一個標簽T被用于標記用戶P的次數
a) TF(P, T) 表示這個標記次數在用戶P所有標簽中所占的比重
b) IDF(P, T) 表示標簽T在全部標簽中的稀缺程度,即這個標簽的出現幾率
用戶P對于標簽T的無場景權重 = TF(P, T) * IDF(P, T)
2、結果2:綜合權重
a) “TF-IDF計算得到每個用戶身上的標簽權重”即上一步的無場景權重
b) “行為次數”由行為數據統計得出(行為權重更多的是基于業務判斷,對動作的大小進行權重分數賦予,不用業務場景給予權重不同,根據實際業務情況確定)
牛頓冷卻定律的數學模型
F(t) = 初始溫度 × exp( -冷卻系數 × 間隔的時間 )
補充(基于實際的業務去定義冷卻系數的計算):指定14天后降為初始值的0.5,即 __ 0.5=1×exp(-__α×14)
3、應用說明:
通過TF-IDF算法,結合時間衰減因素后,得出該用戶最喜歡的 TopN 風格分類。
舉例:
選擇“Top 3 包含 古風、校園、戀愛”表示“古風 或 校園 或 戀愛 中任意一個屬于該用戶最喜歡的前3個風格”
選擇“Top 1 包含 古風、校園、戀愛”表示“古風 或 校園 或 戀愛 中任意一個屬于該用戶最喜歡的第1個風格”
四、規則型-影響力標簽
(絕對排名、百分比排位,定位出個人的影響力)
1、絕對排名
將用戶按單篇發布頻率從大到小排列,排名a表示該用戶的單篇發布頻率排在第a位。允許并列,并列的下一名需跳過并列人數。如3人并列第1,則無第2、3名,下一位是第4名
2、百分比排位
表示該用戶的單篇發布頻率高于b%的樣本,類似四分位數,可參考 Excel “PERCENTRANK”函數
總結
以上是生活随笔為你收集整理的数据产品-规则型和挖掘型标签构建案例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CSS3--幽灵按钮特效(实例)
- 下一篇: 数据库几种连接方式的(左右union a