小白学 Python 数据分析(9):Pandas (八)数据预处理(2)
人生苦短,我用 Python
前文傳送門:
小白學 Python 數據分析(1):數據分析基礎
小白學 Python 數據分析(2):Pandas (一)概述
小白學 Python 數據分析(3):Pandas (二)數據結構 Series
小白學 Python 數據分析(4):Pandas (三)數據結構 DataFrame
小白學 Python 數據分析(5):Pandas (四)基礎操作(1)查看數據
小白學 Python 數據分析(6):Pandas (五)基礎操作(2)數據選擇
小白學 Python 數據分析(7):Pandas (六)數據導入
小白學 Python 數據分析(8):Pandas (七)數據預處理
引言
前一篇文章我們介紹了數據預處理中數據有問題的幾種情況以及一般處理辦法。
很經常,當我們拿到數據的時候,首先需要確定拿到的是正確類型的數據,如果數據類型不正確,一般通過數據類型的轉化
數據類型轉化
大家應該都知道 Excel 中數據類型比較多,常用的有文本、數字、貨幣、時間、日期等等,在 Pandas 中,相對而言數據類型就少了很多,常用的有 int64 , float64 , object , datetime64 等等。
還是使用前面的示例,我們先看下當前數據表中的數據類型,這里使用的 dtypes ,示例如下:
import pandas as pd
# 相對路徑
df = pd.read_excel("result_data.xlsx")
print(df)
# 輸出結果
plantform read_num fans_num rank_num like_num create_date
0 cnblog 215.0 0 118.0 0 2019-11-23 23:00:10
1 cnblog 215.0 0 118.0 0 2019-11-23 23:00:10
2 juejin NaN 0 -2.0 1 2019-11-23 23:00:03
3 csdn 1652.0 69 0.0 24 2019-11-23 23:00:02
4 cnblog 650.0 3 NaN 0 2019-11-22 23:00:15
.. ... ... ... ... ... ...
404 juejin 212.0 0 -1.0 2 2020-02-20 23:00:02
405 csdn 1602.0 1 0.0 1 2020-02-20 23:00:01
406 cnblog 19.0 0 41.0 0 2020-02-21 23:00:05
407 juejin 125.0 1 -4.0 0 2020-02-21 23:00:02
408 csdn 1475.0 8 0.0 3 2020-02-21 23:00:02
print(df.dtypes)
# 輸出結果
plantform object
read_num float64
fans_num int64
rank_num float64
like_num int64
create_date datetime64[ns]
dtype: object
當然,我們如果想單獨知道某一列的數據類型,也可以這么用:
import pandas as pd
# 相對路徑
df = pd.read_excel("result_data.xlsx")
print(df['read_num'].dtypes)
# 輸出結果
float64
當我們需要轉換數據類型的時候,可以使用 astype() 這個方法,在使用的時候講需要轉化的目標類型寫在 astype() 后面括號里即可:
import pandas as pd
# 相對路徑
df = pd.read_excel("result_data.xlsx")
print(df['fans_num'].astype('float64'))
# 輸出結果
0 0.0
1 0.0
2 0.0
3 69.0
4 3.0
...
404 0.0
405 1.0
406 0.0
407 1.0
408 8.0
Name: fans_num, Length: 409, dtype: float64
添加索引
有些時候,我們拿到的數據表是沒有索引的,如果沒有索引, Pandas 會默認的為我們添加從 0 開始的自然數作為行索引。而列索引會默認取第一行。比如我們創建了一個沒有表頭的 Excel ,如下:
沒有表頭這樣的數據看起來很難懂,我們先導入到 Pandas 中看下效果:
import pandas as pd
df1 = pd.read_excel("demo.xlsx")
print(df1)
# 輸出結果
A1 1001 小紅 1000
0 A2 1002 小王 2000
1 A3 1003 小明 3000
2 A4 1004 小朱 4000
3 A5 1005 小黑 5000
這時,我們想給這個數據表加上列索引,這里可以使用 columns ,如下:
import pandas as pd
df1 = pd.read_excel("demo.xlsx")
df1.columns = ['編號', '序號', '姓名', '消費金額']
print(df1)
# 輸出結果
編號 序號 姓名 消費金額
0 A2 1002 小王 2000
1 A3 1003 小明 3000
2 A4 1004 小朱 4000
3 A5 1005 小黑 5000
現在我們有了列索引,但是如果這時我并不想用自動生成的自然數作為行索引,想替換成數據表中的序號,可以怎么做呢?
這里需要使用到的是 set_index() 這個方法,在括號中指明需要使用的列名即可:
import pandas as pd
df1 = pd.read_excel("demo.xlsx")
print(df1.set_index('編號'))
# 輸出結果
序號 姓名 消費金額
編號
A2 1002 小王 2000
A3 1003 小明 3000
A4 1004 小朱 4000
A5 1005 小黑 5000
本篇的內容就到這里結束了,今天的內容有點短,溜了溜了~~
示例代碼
老規矩,所有的示例代碼都會上傳至代碼管理倉庫 Github 和 Gitee 上,方便大家取用。
示例代碼-Github
示例代碼-Gitee
總結
以上是生活随笔為你收集整理的小白学 Python 数据分析(9):Pandas (八)数据预处理(2)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Quartz安装包中的15个exampl
- 下一篇: u-boot makefile $$