cfile read 最大读取限制_pandas读取表格后的常用数据处理操作
生活随笔
收集整理的這篇文章主要介紹了
cfile read 最大读取限制_pandas读取表格后的常用数据处理操作
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
作者丨Sp4rkW來源丨凹凸數據大家好,我是Sp4rkW今天給大家講講pandas讀取表格后的一些常用數據處理操作。這篇文章其實來源于自己的數據挖掘課程作業,通過完成老師布置的作業,感覺對于使用python中的pandas模塊讀取表格數據進行操作有了更深層的認識,這里做一個整理總結。本文總結了一些通過pandas讀取表格并進行常用數據處理的操作,更詳細的參數應該關注官方參數文檔
print(tabledata)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',', nrows=10)
print(tabledata)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商務出行":
hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['類型'].isnull()]
print(tableline)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['類型'].fillna(value='其他')
tabledata['類型'] = tableline
print(tabledata)
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['評分'].isnull().values==False]
score_avg = tableline['評分'].mean()
tableline = tabledata['評分'].fillna(value=score_avg)
tabledata['評分'] = tableline
print(tabledata)
1、讀取10行數據
相關參數簡介:- header:指定作為列名的行,默認0,即取第一行的值為列名,數據為列名行以下的數據;若數據不含列名,則設定 header = None。
- sep:指定分隔符。如果不指定參數,則會嘗試使用逗號分隔。
- nrows:需要讀取的行數(從文件頭開始算起)
print(tabledata)
2、對讀取的數據重新定義列名
相關參數簡介:- names:用于結果的列名列表,如果數據文件中沒有列標題行,就需要執行header=None
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',', nrows=10)
print(tabledata)
3、取出某列值為指定值的所有數據
這里我們做一個簡單的遍歷操作即可完成,取值使用的函數是ix。name_columns = [' ','名字','類型', '城市', '地區', '地點', '評分', '評分人數', '價格']tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
hotel_name_list = []for i in range(421):if tabledata.ix[i,2] == "商務出行":
hotel_name_list.append(tabledata.ix[i,1])
print(hotel_name_list)
4、取出某一列的數值是缺失值的數據
這里開始出現缺失值,提一下缺失值相關的兩個參數:- na_values:默認會將'-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', '', 轉換為NaN,且na_values參數還支持定義另外的應處理為缺失值的值
: scalar, str, list-like, or dict, default None
Additional strings to recognize as NA/NaN. If dict passed, specific per-column NA values. By default the following values are interpreted as NaN: '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A','#N/A', 'N/A', 'NA', '#NA', 'NULL', 'NaN', '-NaN', 'nan', '-nan', ''
- keep_default_na:bool型,決定是否自動轉NaN
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['類型'].isnull()]
print(tableline)
5、只修改某一列的缺失值
fillna函數用于替換缺失值,常見參數如下:- value參數決定要用什么值去填充缺失值
- axis:確定填充維度,從行開始或是從列開始
- limit:確定填充的個數,int型
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata['類型'].fillna(value='其他')
tabledata['類型'] = tableline
print(tabledata)
6、修改某一列,用平均值代替缺失值
這個的思路和上面一個基本一致,區別在于我們需要線求出平均值。平均值的求解肯定不需要缺失值參與,于是我們先取出某一列不存在的缺失值的所有數據,再取出這一列數據,通過mean函數直接獲取平均值。同理的函數使用還有:- mean()平均值
- median()中位數
- max()最大值
- min()最小值
- sum()求和
- std()標準差
- Series類型獨有的方法:argmax()最大值的位置 argmin()最小值的位置
tabledata = pandas.read_excel("./hotel.xlsx", header=0, names=name_columns, sep=',')
tableline = tabledata[tabledata['評分'].isnull().values==False]
score_avg = tableline['評分'].mean()
tableline = tabledata['評分'].fillna(value=score_avg)
tabledata['評分'] = tableline
print(tabledata)
近期精彩內容推薦:??
?程序員這碗青春飯,怎么吃得更久一點?
?順豐小哥連升3級,國家授予特別獎!
?狠人 Spring Cloud 20000 字總結!
?python實現文件自動歸類
在看點這里好文分享給更多人↓↓
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的cfile read 最大读取限制_pandas读取表格后的常用数据处理操作的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: vivo首席运营官:我们不是特别在意市场
- 下一篇: python 嵌套数组_兴趣是最好的老师