python数据分析的步骤排序_Python数据分析
一.數據分析步驟
1.提出問題
2.理解數據
3.數據清洗
4.構建模型
5.數據可視化
二.朝陽醫院2018年銷售數據
數據導入在文件路徑前加r(轉義符)
文件可能有多個sheet,所以用sheet_name重命名
參數dtype=str同意先按照字符串讀入,之后再轉換
salesDf.head(),顯示前5行,從0行開始,如果想要輸入多行,可以在括號內輸入數字
1.提出問題月均消費次數
月均消費金額
客單價
2.理解數據
3.清洗數據1.選擇子集
用salesDf.loc選取我們想要分析的數據2.重命名
為了方面接下來的分析,用salesDf.rename函數將‘購藥時間’重命名為‘銷售時間’。
inplace為True表示將原列明替換,False表示新增一列3.缺失值處理
先查看下刪除缺失值之前的行和列數
用dropna函數進行刪除,如果刪除之后,空值仍然存在,因為‘nan’本身是一個空字符串,.dropna并不會將空字符串當空值處理。因此用'np.nan'使用inplace函數代替。
dropna表示制定查詢函數的列,這里指定‘銷售時間’和‘社保卡號’,how=‘any’表示一行里,只要有一個空值,就將整行刪除。how=‘all’表示只有當整行都是空值時,才能刪除整行。4.數據類型轉換
字符串轉換為數值(浮點型)
字符串轉換為日期類型5.數據排序
salesDf.sort_values是排序參數,其中ascending=True是升序排列,否則為降序。
na_position=‘first’表示把空值放到最前面
索引重新排序后如下6.異常值處理
通過.describe()發現最小值銷量為負值,說明肯定有異常值,然后通過.local重新定義,排除異常值
4.構建模型月均消費次數
月均消費次數=總消費次數/月份數
總消費次數,同一天內,同一個人的多筆消費次數視為一次,因此需要先進行刪除重復數
計算時間范圍
第一步:按照銷售時間升序排列
第二步:獲取時間范圍
第三步:計算月均消費次數月均消費金額客單價
總結
以上是生活随笔為你收集整理的python数据分析的步骤排序_Python数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高级java技术web组件_(重温)Ja
- 下一篇: sqlserver 还原bak文件 查看