python替换缺失值_详解Pandas 处理缺失值指令大全
前言
運用pandas 庫對所得到的數據進行數據清洗,復習一下相關的知識。
1 數據清洗
1.1 處理缺失數據
對于數值型數據,分為缺失值(NAN)和非缺失值,對于缺失值的檢測,可以通過Python中pandas庫的Series類對象的isnull方法進行檢測。
對于缺失值,除了np.nan來表示,還可以用None來表示缺失值
1.2 濾除掉缺失數據
1.2.1 對于Series
使用dropna方法將NAN的數據過濾掉。
另一種方法是使用布爾值索引對NAN數據進行過濾:
1.2.2 對于DataFrame
dropna()方法對于DataFrame的數據來說,會將含有NAN數據的行全部扔掉。
如果只想刪除掉那些行中全部為NAN數據的DataFrame,通過設置dropna()方法中的參數how即可。
如果操作對象變為列,代碼如下:
如果想留下其中的一部分數據,則可以設置thresh參數:
thresh = n,參數n相當于保留至少含有n個非NA的行
1.3 填充缺失數據
fillna(n),n替換掉NA
如果填充格式是字典,fillna({0:n1,1:n2}),將列0的NA填充為 n1,將列1的NA填充為 n2。
直接填充df的NA值,直接改變df,不需要命名新的變量。
2 數據轉換
2.1 移除重復數據
返回的是每一行的重復結果,不重復是False,重復是True。
如果要去除重復的行,代碼如下:
如果操作對象為列,在duplicated方法中指定參數即可。
返回的是 k1 列中重復的元素。
對于drop_duplicates()方法來說,去除掉的是重復數據的后者。比如說序號為0,1的數據重復,方法刪除掉index = 1的行。如果想要刪除前者,只需要指定參數 last即可:
2.2 與映射相結合
map函數的使用方法
2.3 替換
使用的是replace 方法,replace有兩個參數,前者是被替換的數,后者是替換的數,參數格式可以是列表,也可以是字典
2.4 創建數據的修改版
rename方法可以創建數據的修改版,而不必在原數據上進行修改。
還可以使用字典的格式,對index, columns 進行改變。
這樣的重命名并不對原數據進行修改,如果想要直接改變data, 如上,參數inplace = True即可。
這樣就改變了data。
2.5 計算指標\啞變量
用于機器學習中,對定類數據的轉化,用于將df中的object對象轉化為One-hot編碼,消除了數字間的比較大小問題。
如果想在分開的屬性前面加上前綴的話,設定prefix 參數即可實現該功能,可以將其與原始數據合并在一起。
到此這篇關于詳解Pandas 處理缺失值指令大全 的文章就介紹到這了,更多相關Pandas 處理缺失值內容請搜索服務器之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持服務器之家!
原文鏈接:https://blog.csdn.net/weixin_43226196/article/details/107587352
總結
以上是生活随笔為你收集整理的python替换缺失值_详解Pandas 处理缺失值指令大全的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 同一个页面生成多个sessionid_w
- 下一篇: python定义函数计算斐波那契公式前2