pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据
作者:Paul
編者按:
pandas提供了很多常用的數(shù)學(xué)和統(tǒng)計方法,本文中將用十分詳細(xì)的例子來具體進(jìn)行介紹;另外在許多數(shù)據(jù)分析工作中,缺失數(shù)據(jù)是經(jīng)常發(fā)生的,將會具體介紹如何處理缺失數(shù)據(jù)。本文十分詳細(xì)并實在低介紹了pandas處理數(shù)據(jù)的基本方法,十分建議各位對pandas學(xué)習(xí)感興趣的同學(xué)下載代碼親自運行進(jìn)行實際操作。
pandas 索引對象
pandas的索引對象負(fù)責(zé)管理軸標(biāo)簽和其他元數(shù)據(jù)(比如軸名稱等)。構(gòu)建Series或DataFrame時,所用到的任何數(shù)組或其他序列的標(biāo)簽都會被轉(zhuǎn)換成一個Index。
Index對象是不可修改的(immutable),因此用戶不能對其進(jìn)行修改。不可修改性非常重要,因為這樣才能使Index對象在多個數(shù)據(jù)結(jié)構(gòu)之間安全共享。
pandas中主要的index對象
Index的方法和屬性
實例如下
Pandas 重新索引
● 創(chuàng)建一個適應(yīng)新索引的新對象,該Series的reindex將會根據(jù)新索引進(jìn)行重排。如果某個索引值當(dāng)前不存在,就引入缺失值。
● 對于時間序列這樣的有序數(shù)據(jù),重新索引時可能需要做一些插值處理。method選項即可達(dá)到此目的。
reindex函數(shù)的參數(shù)
丟棄指定軸上的項
丟棄某條軸上的一個或多個項很簡單,只要有一個索引數(shù)組或列表即可。由于需要執(zhí)行一些數(shù)據(jù)整理和集合邏輯,所以drop方法返回的是一個在指定軸上刪除了指定值的新對象
Pandas 索引、選取和過濾
● Series索引(obj[...])的工作方式類似于NumPy數(shù)組的索引,只不過Series的索引值不只是整數(shù)。
● 利用標(biāo)簽的切片運算與普通的Python切片運算不同,其末端是包含的(inclusive)。
● 對DataFrame進(jìn)行索引其實就是獲取一個或多個列
● 為了在DataFrame的行上進(jìn)行標(biāo)簽索引,引入了專門的索引字段ix。
DataFrame的索引選項
Pandas 算術(shù)運算和數(shù)據(jù)對齊
● 對不同的索引對象進(jìn)行算術(shù)運算
● 自動數(shù)據(jù)對齊在不重疊的索引處引入了NA值,缺失值會在算術(shù)運算過程中傳播。
● 對于DataFrame,對齊操作會同時發(fā)生在行和列上。
● fill_value參數(shù)
● DataFrame和Series之間的運算
Pandas 函數(shù)應(yīng)用和映射
● numpy的ufuncs(元素級數(shù)組方法)
● DataFrame的apply方法
● 對象的applymap方法(因為Series有一個應(yīng)用于元素級的map方法)
Pandas 排序和排名
● 對行或列索引進(jìn)行排序
● 對于DataFrame,根據(jù)任意一個軸上的索引進(jìn)行排序
● 可以指定升序降序
● 按值排序
● 對于DataFrame,可以指定按值排序的列
● rank函數(shù)
Pandas 帶有重復(fù)值的索引
● 對于重復(fù)索引,返回Series,對應(yīng)單個值的索引則返回標(biāo)量。
Pandas 匯總和計算描述統(tǒng)計
● 常用方法選項
Pandas 常用描述和匯總統(tǒng)計函數(shù)
● 數(shù)值型和非數(shù)值型的區(qū)別
● NA值被自動排查,除非通過skipna選項
Pandas 匯總和計算描述統(tǒng)計 相關(guān)系數(shù)與協(xié)方差
● 相關(guān)系數(shù):相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度的統(tǒng)計指標(biāo)。
● 協(xié)方差:從直觀上來看,協(xié)方差表示的是兩個變量總體誤差的期望。如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的期望值時另外一個也大于自身的期望值,那么兩個變量之間的協(xié)方差就是正值;如果兩個變量的變化趨勢相反,即其中一個變量大于自身的期望值時另外一個卻小于自身的期望值,那么兩個變量之間的協(xié)方差就是負(fù)值。
Pandas 匯總和計算描述統(tǒng)計 唯一值以及成員資格
常用方法
Pandas 處理缺失數(shù)據(jù)
● NA處理方法
● NaN(Not a Number)表示浮點數(shù)和非浮點數(shù)組中的缺失數(shù)據(jù)
● None也被當(dāng)作NA處理
Pandas 濾除缺失數(shù)據(jù)
● dropna
● 布爾索引
● DatFrame默認(rèn)丟棄任何含有缺失值的行
● how參數(shù)控制行為,axis參數(shù)選擇軸,thresh參數(shù)控制留下的數(shù)量
Pandas 填充缺失數(shù)據(jù)
● fillna
● inplace參數(shù)控制返回新對象還是就地修改
Pandas 層次化索引
● 使你能在一個軸上擁有多個(兩個以上)索引級別。抽象的說,它使你能以低緯度形式處理高維度數(shù)據(jù)。
● 通過stack與unstack變換DataFrame
重新分級順序
● 索引交換
● 索引重新排序
根據(jù)級別匯總統(tǒng)計
● 指定索引級別和軸
層次化索引 使用DataFrame的列
● 將指定列變?yōu)樗饕?/p>
● 移除或保留對象
● reset_index恢復(fù)
整數(shù)索引
● 歧義的產(chǎn)生
● 可靠的,不考慮索引類型的,基于位置的索引。
面板(Pannel)數(shù)據(jù)
通過三維ndarray創(chuàng)建pannel對象
● 通過ix[...]選取需要的數(shù)據(jù)
● 訪問順序:item -> major -> minor
● 通過stack展現(xiàn)面板數(shù)據(jù)
相關(guān)文章推薦
要把一件事說的有滋有味,得要慢慢地說,不能著急,這樣才能體察人情
讀完這篇文章不過癮?請繼續(xù)關(guān)注我們上一期的文章,來看看我們是如何用python分析周杰倫專輯所有的歌詞,并用熱詞重寫《說好不哭》。
點擊藍(lán)字標(biāo)題,即可閱讀 數(shù)據(jù)科學(xué) | 分析周杰倫75775字歌詞后,我們用他最愛的詞重寫了《說好不哭》
其他
數(shù)據(jù)科學(xué) | 避坑!Python特征重要性分析中存在的問題
數(shù)據(jù)科學(xué) | 『運籌OR帷幄』數(shù)據(jù)分析、可視化、爬蟲系列教程
總結(jié)
以上是生活随笔為你收集整理的pandas plot label_数据科学| 手把手教你用 pandas 索引、汇总、处理缺失数据的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SpringBoot集成Redis用法笔
- 下一篇: Wineskin