数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧
談到數據分析,我們可能第一時間想到python、SQL、Tableau、帆軟、R等,但是這些軟件、語言要入門掌握、系統學習起來耗時較長。這時候不得不提到excel這個“平平無奇數分小能手”了,看似基礎,實則功能強大,可以完成數據處理、可視化很多工作。
數據分析的流程:①明確問題;②理解數據;③數據清洗;④數據分析或模型構建;⑤數據可視化。1.明確問題
在邁步之前總要先確定前進的方向。數據分析也是一樣,有了研究問題作導向,才能不斷處理、分析數據來靠近我們所求的答案。
我使用的數據集以及問題明確都在前兩篇文章中寫清楚啦,詳情請點擊下面鏈接:
待研究的問題小小兔嘰ya:數據分析小白學習之路(一)——確立目標?zhuanlan.zhihu.com小小兔嘰ya:數據分析小白學習之路(二)——統計學基礎、業務了解?zhuanlan.zhihu.com2.理解數據
我即將分析用到的數據集,在上邊兩篇文章中有詳細寫對于數據指標的理解,請點擊上面鏈接查看。
3.數據清洗
數據清洗的流程:①選擇子集;②列名重命名;③刪除重復值;④缺失值處理;⑤一致化處理;⑥數據排序;⑦異常值處理。上述流程只是大概描述數據清洗的過程,實際應用中針對數據集特點可能有所不同。
1.重復值檢查
嬰兒信息表中,每位用戶user_id應是唯一的,用戶交易信息表中可能因為用戶不同時段的交易,存在重復的user_id信息,故只處理嬰兒信息表中的重復值。
具體操作:數據→刪除重復值
操作結果:
無重復值需要處理2.數據格式一致化處理
兩張數據表中都有日期數據,首先需要檢查并處理其格式為“日期”格式。
具體操作:
操作結果:數據轉變成正確的日期格式!
日期數據格式處理3.數據表聯結
為了探究問題所需,以用戶交易信息表和嬰兒信息表中的user_id為聯結字段,匹配交易用戶對應的性別gender及出生日期birthday。
具體操作:
利用vlookup函數來查找匹配birthday和gender操作結果:匹配后發現birthday、gender兩列存在#N/A值,查證后發現函數應用無誤,應該是部分用戶沒有登記出生日期、性別信息,可將這些數據刪除。
4.創建新字段
為了之后調查不同年齡交易用戶的消費習慣,需要創建年齡age字段。
具體操作:
(購買日期-出生日期)求出交易時用戶年齡,并用int函數向下取整操作結果:顯示年齡age有正有負,說明嬰兒還未出生。為了規范數據信息,創建輔助表來確定每個用戶的所屬年齡段。
具體操作:
創建嬰兒年齡段輔助表vlookup查找操作結果:
生成“寶寶年齡段”列5.缺失值、異常值處理
具體操作:開始→查找和選擇→定位條件→空值;查看年齡age字段數據,發現有嬰兒年齡為28,為異常數據,刪除即可。
4.數據分析/問題探究
問題1:不同時間內消費情況差異
具體操作:建立數據透視表,交易日期day為行,購買數量buy_mount求和,統計不同年份、月份對應的交易訂單數。
操作結果:
不同年份對應的交易訂單數按月統計用戶購買數量可以很明顯地看到2014年11月消費訂單數激增,遠超其他時期訂單數目,“雙十一”活動開始成為全民購物日。
問題2:不同年齡用戶消費差異
具體操作:以年齡age、buy_mount、品類cat1、寶寶年齡段創建透視表;其中年齡age為-1、-2、-3的用戶歸為未出生組。
操作結果:
不同年齡用戶購買數量差異不同年齡段用戶購買數量差異如上表所示:未出生嬰兒對應的用戶購買數量最多,而在物品品類方面,品類為’28’的物品受到所有用戶最多喜愛;除此之外,0-2歲年齡段用戶消費數量占比高達60%,是消費的主力群體。
問題3:不同性別用戶間消費品類差異
具體操作:以性別gender、buy_mount、品類cat1創建透視表進行分析。
操作結果:
從表中可知,男性消費數量略高于女性;在購物品類方面,女性購買品類’28’數量最多,男性購買品類’50014815’數量最多。
問題4:用戶復購情況
具體操作:這里我將用戶交易次數超過1視為用戶產生復購行為。
操作結果:
從表中可知,共25名用戶產生多次購買行為,占總交易用戶數的比例非常之小,有可能是原始數據記錄存在問題或其他情況。
問題5:不同品類之間購買情況比較
具體操作:利用數據透視表統計不同品類cat1對應的購買數量。
操作結果:
忘記排序了 ̄□ ̄||從表中可以知道,品類消費數量最多的是’28’、’50008168’、’50014815’,三者總共占比接近90%。
問題6:同一品類下不同子類別購買情況比較
查看每一品類下的子類別占比,可知每個類別下消費數量最多的子品類。其中,’50014815’品類下消費數量最多的子類別為’50018831’,占總消費數的16.74%,遠遠超過了其他子類別的消費數量。
學習資源:
【訓練營】職場Excel零基礎入門 - 網易云課堂?study.163.com怎樣用 Excel 做數據分析??www.zhihu.com這里還有我總結的excel常用函數和常用快捷鍵,點擊可看:
小小兔嘰ya:Excel常用函數、快捷鍵——常看常熟?zhuanlan.zhihu.comExcel數據分析的流程大致如此,還有很多功能等待著我們去挖掘,需要常學習常溫習。接下來準備學習制作可視化圖表,下篇再見!
?碼字不易,求贊安慰?
總結
以上是生活随笔為你收集整理的数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python两列字符串合并_python
- 下一篇: 客户端访问https时应无浏览器(含终端