當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

cfile read 最大读取限制_pandas读取表格后的常用数据处理操作

發布時間：2023/12/19 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 cfile read 最大读取限制_pandas读取表格后的常用数据处理操作小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者丨Sp4rkW來源丨凹凸數據大家好，我是Sp4rkW今天給大家講講pandas讀取表格后的一些常用數據處理操作。這篇文章其實來源于自己的數據挖掘課程作業，通過完成老師布置的作業，感覺對于使用python中的pandas模塊讀取表格數據進行操作有了更深層的認識，這里做一個整理總結。本文總結了一些通過pandas讀取表格并進行常用數據處理的操作，更詳細的參數應該關注官方參數文檔

1、讀取10行數據

相關參數簡介：

header：指定作為列名的行，默認0，即取第一行的值為列名，數據為列名行以下的數據；若數據不含列名，則設定 header = None。
sep：指定分隔符。如果不指定參數，則會嘗試使用逗號分隔。
nrows：需要讀取的行數(從文件頭開始算起)

tabledata = pandas.read_excel("./hotel.xlsx", header=None, sep=',', nrows=10)
print(tabledata)

2、對讀取的數據重新定義列名

相關參數簡介：

names：用于結果的列名列表，如果數據文件中沒有列標題行，就需要執行header=None

name_columns = [' ','名字','類型', '城市', '地區', '地點', '評分', '評分人數', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',', nrows=10)
print(tabledata)

3、取出某列值為指定值的所有數據

這里我們做一個簡單的遍歷操作即可完成，取值使用的函數是ix。name_columns = [' ','名字','類型', '城市', '地區', '地點', '評分', '評分人數', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商務出行":
hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)

4、取出某一列的數值是缺失值的數據

這里開始出現缺失值，提一下缺失值相關的兩個參數：

na_values：默認會將'-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', '', 轉換為NaN，且na_values參數還支持定義另外的應處理為缺失值的值

原版解釋：na_values
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''

keep_default_na：bool型，決定是否自動轉NaN

5、只修改某一列的缺失值

fillna函數用于替換缺失值，常見參數如下：

value參數決定要用什么值去填充缺失值
axis：確定填充維度，從行開始或是從列開始
limit：確定填充的個數，int型

通常limit參數配合axis可以用于替換數量方向的控制我們這里根據需求，最簡單的就是將需要修改的這一列取出來進行修改，之后對原數據進行列重新賦值即可name_columns = [' ','名字','類型', '城市', '地區', '地點', '評分', '評分人數', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['類型'].fillna(value='其他')
tabledata['類型'] = tableline
print(tabledata)

6、修改某一列，用平均值代替缺失值

這個的思路和上面一個基本一致，區別在于我們需要線求出平均值。平均值的求解肯定不需要缺失值參與，于是我們先取出某一列不存在的缺失值的所有數據，再取出這一列數據，通過mean函數直接獲取平均值。同理的函數使用還有：

mean()平均值
median()中位數
max()最大值
min()最小值
sum()求和
std()標準差
Series類型獨有的方法：argmax()最大值的位置 argmin()最小值的位置

name_columns = [' ','名字','類型', '城市', '地區', '地點', '評分', '評分人數', '價格']
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['評分'].isnull().values==False]
score_avg = tableline['評分'].mean()
tableline = tabledata['評分'].fillna(value=score_avg)
tabledata['評分'] = tableline
print(tabledata)

近期精彩內容推薦：??

?程序員這碗青春飯，怎么吃得更久一點？

?順豐小哥連升3級，國家授予特別獎！

?狠人 Spring Cloud 20000 字總結！

?python實現文件自動歸類

在看點這里好文分享給更多人↓↓

創作挑戰賽新人創作獎勵來咯，堅持創作打卡瓜分現金大獎

總結

以上是生活随笔為你收集整理的cfile read 最大读取限制_pandas读取表格后的常用数据处理操作的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： vivo首席运营官：我们不是特别在意市场
下一篇： python 嵌套数组_兴趣是最好的老师