【数据分析】Python :视频网站数据清洗整理和结论研究
生活随笔
收集整理的這篇文章主要介紹了
【数据分析】Python :视频网站数据清洗整理和结论研究
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
視頻網站數據清洗整理和結論研究
要求:
1、數據清洗 - 去除空值
- 要求:創建函數
- 提示:fillna方法填充缺失數據,注意inplace參數
2、數據清洗 - 時間標簽轉化
- 要求:
① 將時間字段改為時間標簽
② 創建函數 - 提示:
需要將中文日期轉化為非中文日期,例如 2016年5月24日 → 2016.5.24
3、問題1 分析出不同導演電影的好評率,并篩選出TOP20
- 要求:
① 計算統計出不同導演的好評率,不要求創建函數
② 通過多系列柱狀圖,做圖表可視化 - 提示:
① 好評率 = 好評數 / 評分人數
② 可自己設定圖表風格
4、問題2 統計分析2001-2016年每年評影人數總量
- 要求:
① 計算統計出2001-2016年每年評影人數總量,不要求創建函數
② 通過面積圖,做圖表可視化,分析每年人數總量變化規律
③ 驗證是否有異常值(極度異常)
④ 創建函數分析出數據外限最大最小值)
⑤ 篩選查看異常值 → 是否異常值就是每年的熱門電影? - 提示:
① 通過箱型圖驗證異常值情況
② 通過quantile(q=0.5)方法,得到四分位數
③ IQR=Q3-Q1
④ 外限:最大值區間Q3+3IQR,最小值區間Q1-3IQR (IQR=Q3-Q1)
⑤ 可自己設定圖表風格
一 導入python包
import pandas as pd import numpy as np import matplotlib.pyplot as plt % matplotlib inline二 數據讀取
data = pd.read_csv('C:/Users/Hjx/Desktop/愛奇藝視頻數據.csv', engine = 'python') print(data.head())三 數據清洗
1 去除空值
文本型字段空值改為“缺失數據”,數字型字段空值改為 0
- 要求:創建函數
- 提示:fillna方法填充缺失數據,注意inplace參數
- 該函數可以將任意數據內空值替換
2 時間標簽轉化
將時間字段改為時間標簽
- 要求:創建函數
- 提示:需要將中文日期轉化為非中文日期,例如 2016年5月24日 → 2016.5.24
- 該函數將輸入列名的列,改為DatetimeIndex格式
四 統計分析
- 問題1 分析出不同導演電影的好評率,并篩選出TOP20
- 要求:
① 計算統計出不同導演的好評率,不要求創建函數
② 通過多系列柱狀圖,做圖表可視化 - 提示:
① 好評率 = 好評數 / 評分人數
- 要求:
- 計算統計不同導演的好評率
- 問題2 統計分析2001-2016年每年評影人數總量
- 要求:
① 計算統計出2001-2016年每年評影人數總量,不要求創建函數
② 通過面積圖,做圖表可視化,分析每年人數總量變化規律
③ 驗證是否有異常值(極度異常)
④ 創建函數分析出數據外限最大最小值)
⑤ 篩選查看異常值 → 是否異常值就是每年的熱門電影? - 提示:
① 通過箱型圖驗證異常值情況
② 通過quantile(q=0.5)方法,得到四分位數
③ IQR=Q3-Q1
④ 外限:最大值區間Q3+3IQR,最小值區間Q1-3IQR (IQR=Q3-Q1)
- 要求:
- 篩選出不同年份的數據,去除‘上映年份’字段缺失數據
- 求出不同劇的評分人數、好評數總和
- 合并數據,得到不同年份,不同劇的評分人數、好評數總和
- 按照電影上映年份統計,評分人數量
- 創建面積圖
- 每年影評人數通過每個電影來判斷是否合理?
- 存在異常值,哪些是異常值?
- 發現基本每年的數據中都有異常值,且為極度異常
- 創建函數得到外限最大最小值
- 查看異常值
- 創建函數,得到外限最大最小值
- 查看異常值信息
總結
以上是生活随笔為你收集整理的【数据分析】Python :视频网站数据清洗整理和结论研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据分析】Python :知乎数据清洗
- 下一篇: 【数据分析】多场景下的算法构建