【数据分析】Python :知乎数据清洗整理和结论研究
生活随笔
收集整理的這篇文章主要介紹了
【数据分析】Python :知乎数据清洗整理和结论研究
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
【博客地址】:https://blog.csdn.net/sunyaowu315
【博客大綱地址】:https://blog.csdn.net/sunyaowu315/article/details/82905347
需要數(shù)據(jù)分析、風(fēng)控評分卡等相關(guān)數(shù)據(jù)、代碼,請?zhí)砑觪q群:102755159,或留言聯(lián)系筆者郵件發(fā)送!!!
如果對金融風(fēng)控、機(jī)器學(xué)習(xí)、數(shù)據(jù)科學(xué)、大數(shù)據(jù)分析等感興趣的小伙伴,可加微信交流(郵件中備注,我會附上微信號)
。
知乎數(shù)據(jù)清洗整理和結(jié)論研究
1、數(shù)據(jù)清洗 - 去除空值
- 要求:創(chuàng)建函數(shù)
- 提示:fillna方法填充缺失數(shù)據(jù),注意inplace參數(shù)
2、問題1 知友全國地域分布情況,分析出TOP20
- 要求:
① 按照地域統(tǒng)計 知友數(shù)量、知友密度(知友數(shù)量/城市常住人口),不要求創(chuàng)建函數(shù)
② 知友數(shù)量,知友密度,標(biāo)準(zhǔn)化處理,取值0-100,要求創(chuàng)建函數(shù)
③ 通過多系列柱狀圖,做圖表可視化 - 提示:
① 標(biāo)準(zhǔn)化計算方法 = (X - Xmin) / (Xmax - Xmin)
② 可自行設(shè)置圖表風(fēng)格
3、問題2 知友全國地域分布情況,分析出TOP20
- 要求:
① 按照學(xué)校(教育經(jīng)歷字段) 統(tǒng)計粉絲數(shù)(‘關(guān)注者’)、關(guān)注人數(shù)(‘關(guān)注’),并篩選出粉絲數(shù)TOP20的學(xué)校,不要求創(chuàng)建函數(shù)
② 通過散點(diǎn)圖 → 橫坐標(biāo)為關(guān)注人數(shù),縱坐標(biāo)為粉絲數(shù),做圖表可視化
③ 散點(diǎn)圖中,標(biāo)記出平均關(guān)注人數(shù)(x參考線),平均粉絲數(shù)(y參考線) - 提示:
① 可自行設(shè)置圖表風(fēng)格
一 導(dǎo)入python包
import pandas as pd import numpy as np import matplotlib.pyplot as plt % matplotlib inline二 數(shù)據(jù)讀取
data1 = pd.read_csv('C:/Users/Hjx/Desktop/知乎數(shù)據(jù)_201701.csv', engine = 'python') data2 = pd.read_csv('C:/Users/Hjx/Desktop/六普常住人口數(shù).csv', engine = 'python') print(data1.head()) print(data2.head())三 數(shù)據(jù)清洗
去除空值
文本型字段空值改為“缺失數(shù)據(jù)”,數(shù)字型字段空值改為 0
- 要求:創(chuàng)建函數(shù)
- 提示:fillna方法填充缺失數(shù)據(jù),注意inplace參數(shù)
該函數(shù)可以將任意數(shù)據(jù)內(nèi)空值替換
data1_c = data_cleaning(data1) data1_c.head(10)四 統(tǒng)計分析
- 問題1 知友全國地域分布情況,分析出TOP20
- 要求:
① 按照地域統(tǒng)計 知友數(shù)量、知友密度(知友數(shù)量/城市常住人口),不要求創(chuàng)建函數(shù)
② 知友數(shù)量,知友密度,標(biāo)準(zhǔn)化處理,取值0-100,要求創(chuàng)建函數(shù)
③ 通過多系列柱狀圖,做圖表可視化 - 提示:
① 標(biāo)準(zhǔn)化計算方法 = (X - Xmin) / (Xmax - Xmin)
② 可自行設(shè)置圖表風(fēng)格
- 要求:
- 統(tǒng)計計算知友數(shù)量,知友密度
- 創(chuàng)建函數(shù),結(jié)果返回標(biāo)準(zhǔn)化取值,新列列名
- 標(biāo)準(zhǔn)化取值后得到知友數(shù)量,知友密度的TOP20數(shù)據(jù)
- 創(chuàng)建圖表
- 問題2 不同高校知友關(guān)注和被關(guān)注情況
- 要求:
① 按照學(xué)校(教育經(jīng)歷字段) 統(tǒng)計粉絲數(shù)(‘關(guān)注者’)、關(guān)注人數(shù)(‘關(guān)注’),并篩選出粉絲數(shù)TOP20的學(xué)校,不要求創(chuàng)建函數(shù)
② 通過散點(diǎn)圖 → 橫坐標(biāo)為關(guān)注人數(shù),縱坐標(biāo)為粉絲數(shù),做圖表可視化
③ 散點(diǎn)圖中,標(biāo)記出平均關(guān)注人數(shù)(x參考線),平均粉絲數(shù)(y參考線) - 提示:
① 可自行設(shè)置圖表風(fēng)格
- 要求:
- 統(tǒng)計計算學(xué)校的粉絲數(shù)、被關(guān)注量
- 創(chuàng)建 散點(diǎn)圖
- 添加x軸參考線
- 添加y軸參考線
- 添加顯示內(nèi)容
- 添加注釋
總結(jié)
以上是生活随笔為你收集整理的【数据分析】Python :知乎数据清洗整理和结论研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Python】简单的最优算法函数创建
- 下一篇: 【数据分析】Python :视频网站数据