pandas fillna_Pandas极简教程——数据清洗
在數(shù)據(jù)分析和建模的過程中,相當(dāng)多的時(shí)間要用在數(shù)據(jù)準(zhǔn)備上:加載、清理、轉(zhuǎn)換 以及重塑。pandas和內(nèi)置的Python標(biāo)準(zhǔn)庫提供了一組高級(jí)的、靈活的、 快速的工具,可以讓你輕松地將數(shù)據(jù)規(guī)整為想要的格式。
缺失數(shù)據(jù)
在許多數(shù)據(jù)分析工作中,缺失數(shù)據(jù)是經(jīng)常發(fā)生的。對(duì)于數(shù)值數(shù)據(jù),pandas使用浮點(diǎn)值NaN(Not a Number)表示缺失數(shù)據(jù)。
過濾缺失數(shù)據(jù)(忽略)
一維序列:
二維dataframe:
數(shù)據(jù)填充
往往將缺失數(shù)據(jù)drop掉會(huì)造成大量的附帶數(shù)據(jù)丟失,因此填充缺失值的應(yīng)用更廣,pandas有專門用于填充數(shù)據(jù)的函數(shù)fillna():
fillna(
value=None, #以固定值填充
method=None, #ffill用前面數(shù)據(jù)填,bfill用后面值填充
axis=None, #填充方向
inplace=False, #是否代替原對(duì)象
limit=None, #最多填充多少nan
downcast=None,
**kwargs,
)
數(shù)據(jù)轉(zhuǎn)換
移除重復(fù)數(shù)據(jù)
DataFrame的duplicated方法返回一個(gè)布爾型Series,表示各行是否是重復(fù)行(前面出現(xiàn)過的行);drop_duplicates方法,它會(huì)返回一個(gè)DataFrame,重復(fù)的數(shù)組會(huì)標(biāo)為False:
利用函數(shù)或映射進(jìn)行數(shù)據(jù)轉(zhuǎn)換
例:下面有一個(gè)員工表,增加一列,年齡超過30歲的標(biāo)記為老員工,否則標(biāo)記為年輕。
替換值
fillna就相當(dāng)于replace(np.nan,value)
重命名軸索引:
我們前面了解到DataFrame的index和columns可以直接更改:
如果你只想修改某幾個(gè)標(biāo)簽,可以用rename傳遞字典的方法實(shí)現(xiàn):
離散化和面元?jiǎng)澐?/strong>
統(tǒng)計(jì)學(xué)中常常要對(duì)一組數(shù)據(jù)按大小進(jìn)行分組,比如下面對(duì)考試的分?jǐn)?shù)分組(每隔10),并統(tǒng)計(jì)每組的人數(shù):
等長劃分面元:
更強(qiáng)大的qcut:qcut是一個(gè)非常類似于cut的函數(shù),它可以根據(jù)樣本分位數(shù)對(duì)數(shù)據(jù)進(jìn)行面元?jiǎng)澐帧?/p>
隨機(jī)取樣---sample()
計(jì)算指標(biāo)/啞變量
一種常用于統(tǒng)計(jì)建模或機(jī)器學(xué)習(xí)的轉(zhuǎn)換方式是:將分類變量(categorical variable)轉(zhuǎn)換為“啞變量”或“指標(biāo)矩陣”。
字符串操作
Series.str內(nèi)置了許多字符串處理函數(shù),下表是常用的字符串處理函數(shù)
例:提取員工表的姓和名
總結(jié)
以上是生活随笔為你收集整理的pandas fillna_Pandas极简教程——数据清洗的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 海硝的功效与作用、禁忌和食用方法
- 下一篇: chrome session丢失_一文带
