项目:淘宝用户数据分析
一、項目背景
1.項目描述:
本項目數據集包含了2017年11月25日至2017年12月3日之間,共1億條用戶數據記錄,從中抽取前500w條數據進行分析,字段由ID、商品ID、商品類目ID、行為類型和時間戳組成,并以逗號分隔。主要分析工具為python。
2.數據集來源及介紹:
來自阿里云天池官方數據集:User Behavior Data from Taobao for Recommendation
字段名描述:
| 用戶ID | 整數類型,序列化后的用戶ID |
| 商品ID | 整數類型,序列化后的商品ID |
| 商品類目ID | 整數類型,序列化后的商品所屬類目ID |
| 行為類型 | 字符串,枚舉類型,包括(‘pv’, ‘buy’, ‘cart’, ‘fav’) |
| 時間戳 | 行為發生的時間戳 |
行為類型描述:
| pv | 商品詳情頁pv,等價于點擊 |
| buy | 商品購買 |
| cart | 將商品加入購物車 |
| fav | 收藏商品 |
二、明確問題與分析目的、建立分析框架
1.分析框架如下:
2.問題與分析目的:
2.1 問題定義及目的:
① 計算各個環節的轉化率,分析流失率對環節進行改進
② 分析商品銷售情況,對用戶偏好和時間維度找尋規律,在用戶偏好的商品種類和時間上采取相應的策略,如活動促銷、push等
③找到核心的用戶群體(由于缺少銷售金額字段,所以從銷售頻率和最近一次消費進行分析),針對核心用戶采取差異化策略
2.2 問題分析流程:
① 按商品與用戶行為進行拆解
② 查看基礎指標數據,如pv,uv,跳出率(只瀏覽一次的用戶),訪客支付轉化率(購買商品人數/uv)等
③按商品大類與商品小類拆解分析,主要分析銷量與商品類別之間的關系
④對用戶行為進行分析,基于時間維度和淘寶行為維度
⑤采用RFM模型與AARRR模型的簡化版,對數據進行拆解打分
三、數據預處理
數據預覽與處理
1.預覽
2.缺失值、異常值、重復值查看及處理
-
缺失值
數據比較完整,無缺失值 -
異常值
主要過濾掉時間維度在2017年11月25日至2017年12月3日之外的數據 -
重復值
共5個重復值,進行去重處理時間戳轉化,并將轉化的列添加到原框架中
四、流量類指標數據分析
1.絕對指標分析
活躍用戶定義:每日用戶行為在3次或以上的用戶
支付用戶、pv、uv如下:
小結:4項指標(pv、uv、活躍用戶、支付用戶)在12月2日與12月3日均有較大幅度上升(對比11-25與11-26平均值,分別上升15萬、1.3萬、0.95萬、0.42萬),推測原因是由于雙12活動即將開始前的預熱活動所帶來的各項流量增長。
2.相對指標分析
日人均pv:即人均瀏覽量,每日pv/每日uv;
日活躍率(近似):每日活躍用戶數量/總uv;
每日支付用戶比例:每日支付用戶數量/每日uv;
每日跳失率:每日只產生一次pv行為的用戶/每日uv
指標如下圖:
小結:
① 從圖中可知,人均pv在這9天上下波動,范圍在12-14次內,數據比較正常。日活躍率在12月2號與12月3號有較大比例上漲(平均上漲約17pp),推測是即將來臨的雙12大促活動的預熱活動導致。但是支付用戶比例卻略有下降(對比前兩日平均下降1.5pp),環比上周末下降約0.6pp(取這周末的平均值與上周末平均值的差值),推測是由于用戶在預熱活動進行商品選擇(加購、收藏等行為),然后在雙12當天享受較大優惠進行下單,這用戶傾向于等待10天以享受更低折扣的心理。
②9天的日跳失率在10%-11%左右波動,整體比較穩定,且較低,證明平臺用戶粘性很高。
五、商品銷售情況分析
1.對商品大類進行分析
下表是按商品大類進行分組的購買次數及總體占比:
小結:通過對前20%的商品大類共811項(總體大類4055項)進行占比加和,約占83.95%,符合二八定律,應將重心放在前20%的商品大類上,并在此基礎上對小類進行細分,采取精細化運營策略。
2.對商品購買情況進行分析
①對商品的購買次數進行描述性統計如下:
②統計前20%商品相對于全部商品的購買次數占比:
- 總體比率如下:
- 由于數據集較大,對前20名暢銷商品可視化如下:
小結:所有商品中銷量top1的商品為71次,相比總銷量70881次,占比約為1‰,是所有商品里的爆款商品,可以制定差異化策略(如給予更多曝光量,排行靠前等)進一步提升其銷量。
六、用戶行為分析
1.按不同時間進行分組分析:
① 不同日期:
小結:由圖中趨勢可以看到,4類用戶行為在12月2號和12月3號均有明顯上漲,尤其pv與加購兩種行為漲幅很大,但支付行為漲幅相對較小,這與第四部分支付用戶比例略有下降的原因猜測相符。
② 不同時間段(小時維度):
小結:由分時段的用戶行為可以看出,用戶主要活躍時間段19點-23點的時間段,符合16-40歲用戶群體的作息規律,可以針對該用戶群體分析用戶畫像特征,也可以在用戶活躍時段進行消息推送、促銷活動等。
2.按行為方式進行分析:
① 9天總體的數據與漏斗圖如下(將加購和收藏看做同一個中間行為):
小結:由漏斗圖可知,整體轉化率處于一個比較優秀的水平,且由(cart+pv)至(buy)的轉化率高達23.58%,所以可以采取提醒用戶加購或收藏、加購領優惠券等策略,促進用戶將自己喜愛的商品加購或收藏,提高購買的總體轉化率。
② 按日期對不同層的轉化率進行統計如下圖:
小結:由上一部分可知,各項指標(pv,fav,cart,buy)均在12月2號、12月3號有明顯上漲,但從每日轉化率統計圖可知,加購和收藏到產生購買行為的轉化率有所下降,對比上周末(11月25日、11月26日)也有所下降,推測可能是雙12預熱活動吸引用戶瀏覽、加購與收藏,但購買行為可能會在雙12當天有較大折扣優惠時發生。
七、RFM模型分析用戶重要性
注:由于缺少M(金額)列,僅通過R(最近一次購買時間)與F(購買頻率)對用戶進行價值分析
小結:重要價值用戶占比最多,但一般發展客戶占比排名第二,應注意保持重要價值用戶占比,減少一般發展客戶的占比。
對不同價值用戶,應采取不同的運營策略:
- 對于重要價值客戶來說,要提高該部分用戶的滿意度,需要采取差異化服務,將這部分用戶的體驗放在最高優先級,提升其留存率,給予促銷等福利發放,活動推廣push時要注意避免降低用戶體驗。
- 對于重要保持客戶,他們購物頻次較高,但最近一段時間沒有消費,可以根據推薦算法推送相關感興趣商品,推送優惠券push、好友喚回等活動進行用戶召回。
- 對于重要挽留客戶,他們最近有產生消費,但購物頻次較低,可以通過問卷、商品評論、反饋意見去獲取信息,分析用戶不滿的地方進行改進,提升其體驗,促進其多次消費
- 對于一般發展客戶,定期發送push通知或短信喚回,努力將其轉化為重要保持客戶或重要挽留客戶。
八、總結
1. 加購和收藏的用戶有20%轉化為購買商品,轉化率較高,所以應當采取相應措施(如提高商品詳情頁吸引力、加購或收藏領券、達到一定瀏覽時長加購提醒等方法),提升用戶的加購率與收藏率,進而提高用戶的購買率
2. 可以根據用戶活躍的日期和時段(周一到周五,19點到23點)進行活動營銷,在此期間推送用戶感興趣的商品。
3. 根據占比80%的20%商品類目數據,應當將主要流量與資源在這些商品上進行傾斜,進一步提升爆款商品的誕生率,但同時也要注意剩余80%商品類目中的潛力商品,進行適當的流量支持,進而保持平臺綜合的健康度。
4. 通過RFM模型對用戶進行分層,應當有針對性的采取不同的營銷方法進行精準化營銷,用有限的公司資源優先服務于公司最重要的客戶,獲取最大化收益
總結
以上是生活随笔為你收集整理的项目:淘宝用户数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Verilog硬件描述语言 西安电子科技
- 下一篇: 手机扫码枪