干货:用Python进行数据清洗,这7种方法你一定要掌握
導讀:數據清洗是數據分析的必備環節,在進行分析過程中,會有很多不符合分析要求的數據,例如重復、錯誤、缺失、異常類數據。
作者:常國珍、趙仁乾、張秋劍
本文摘編自《Python數據科學:技術詳解與商業實踐》,如需轉載請聯系我們
01 重復值處理
數據錄入過程、數據整合過程都可能會產生重復數據,直接刪除是重復數據處理的主要方法。pandas提供查看、處理重復數據的方法duplicated和drop_duplicates。以如下數據為例:
???????????????????????'name':['Bob','Bob','Mark','Miki','Sully','Rose'],
???????????????????????'score':[99,99,87,77,77,np.nan],
???????????????????????'group':[1,1,1,2,1,2],})
>sample
group??id???name??score
0??????1???1????Bob???99.0
1??????1???1????Bob???99.0
2??????1???1???Mark???87.0
3??????2???3???Miki???77.0
4??????1???4??Sully???77.0
5??????2???5???Rose????NaN
發現重復數據通過duplicated方法完成,如下所示,可以通過該方法查看重復的數據。
group??id???name??score
1??????1???1????Bob???99.0
需要去重時,可drop_duplicates方法完成:
group??id???name??score
0??????1???1????Bob???99.0
2??????1???1???Mark???87.0
3??????2???3???Miki???77.0
4??????1???4??Sully???77.0
5??????2???5???Rose????NaN
drop_duplicates方法還可以按照某列去重,例如去除id列重復的所有記錄:
group??id???name??score
0??????1???1????Bob???99.0
3??????2???3???Miki???77.0
4??????1???4??Sully???77.0
5??????2???5???Rose????NaN
02 缺失值處理
缺失值是數據清洗中比較常見的問題,缺失值一般由NA表示,在處理缺失值時要遵循一定的原則。
首先,需要根據業務理解處理缺失值,弄清楚缺失值產生的原因是故意缺失還是隨機缺失,再通過一些業務經驗進行填補。一般來說當缺失值少于20%時,連續變量可以使用均值或中位數填補;分類變量不需要填補,單算一類即可,或者也可以用眾數填補分類變量。
當缺失值處于20%-80%之間時,填補方法同上。另外每個有缺失值的變量可以生成一個指示啞變量,參與后續的建模。當缺失值多于80%時,每個有缺失值的變量生成一個指示啞變量,參與后續的建模,不使用原始變量。
在下圖中展示了中位數填補缺失值和缺失值指示變量的生成過程。
▲圖5-8:缺失值填補示例
Pandas提供了fillna方法用于替換缺失值數據,其功能類似于之前的replace方法,例如對于如下數據:
????group??id???name??score
0????1.0??1.0????Bob???99.0
1????1.0??1.0????Bob????NaN
2????NaN??1.0???Mark???87.0
3????2.0??3.0???Miki???77.0
4????1.0??4.0??Sully???77.0
5????NaN??NaN????NaN????NaN
分步驟進行缺失值的查看和填補如下:
1. 查看缺失情況
在進行數據分析前,一般需要了解數據的缺失情況,在Python中可以構造一個lambda函數來查看缺失值,該lambda函數中,sum(col.isnull())表示當前列有多少缺失,col.size表示當前列總共多少行數據:
group????0.333333
id???????0.166667
name?????0.166667
score????0.333333
dtype:?float64
2. 以指定值填補
pandas數據框提供了fillna方法完成對缺失值的填補,例如對sample表的列score填補缺失值,填補方法為均值:
0????99.0
1????85.0
2????87.0
3????77.0
4????77.0
5????85.0
Name:?score,?dtype:?float64
當然還可以以分位數等方法進行填補:
0????99.0
1????82.0
2????87.0
3????77.0
4????77.0
5????82.0
Name:?score,?dtype:?float64
3. 缺失值指示變量
pandas數據框對象可以直接調用方法isnull產生缺失值指示變量,例如產生score變量的缺失值指示變量:
0????False
1?????True
2????False
3????False
4????False
5?????True
Name:?score,?dtype:?bool
若想轉換為數值0,1型指示變量,可以使用apply方法,int表示將該列替換為int類型。
0????0
1????1
2????0
3????0
4????0
5????1
Name:?score,?dtype:?int64
03 噪聲值處理
噪聲值指數據中有一個或幾個數值與其他數值相比差異較大,又稱為異常值、離群值(outlier)。
對于大部分的模型而言,噪聲值會嚴重干擾模型的結果,并且使結論不真實或偏頗,如圖5-9。需要在數據預處理的時候清除所以噪聲值。噪聲值的處理方法很多,對于單變量,常見的方法有蓋帽法、分箱法;多變量的處理方法為聚類法。下面進行詳細介紹:
▲圖5-9:噪聲值(異常值、離群值)示例:年齡數據,圓圈為噪聲值
1. 蓋帽法
蓋帽法將某連續變量均值上下三倍標準差范圍外的記錄替換為均值上下三倍標準差值,即蓋帽處理(圖5-10)。
▲圖5-10:蓋帽法處理噪聲值示例
Python中可自定義函數完成蓋帽法。如下所示,參數x表示一個pd.Series列,quantile指蓋帽的范圍區間,默認凡小于百分之1分位數和大于百分之99分位數的值將會被百分之1分位數和百分之99分位數替代:
????"""蓋帽法處理異常值
????Args:
????????x:pd.Series列,連續變量
????????quantile:指定蓋帽法的上下分位數范圍
????"""
#?生成分位數
????Q01,Q99=x.quantile(quantile).values.tolist()
#?替換異常值為指定的分位數
????if?Q01?>?x.min():
????????x?=?x.copy()
????????x.loc[x<Q01]?=?Q01
????if?Q99?<?x.max():
????????x?=?x.copy()
????????x.loc[x>Q99]?=?Q99
????return(x)
現生成一組服從正態分布的隨機數,sample.hist表示產生直方圖,更多繪圖方法會在下一章節進行講解:
>sample.hist(bins=50)
▲圖5-11:未處理噪聲時的變量直方圖
對pandas數據框所有列進行蓋帽法轉換,可以以如下寫法,從直方圖對比可以看出蓋帽后極端值頻數的變化。
>new.hist(bins=50)
▲圖5-12:處理完噪聲后的變量直方圖
2. 分箱法
分箱法通過考察數據的“近鄰”來光滑有序數據的值。有序值分布到一些桶或箱中。
分箱法包括等深分箱:每個分箱中的樣本量一致;等寬分箱:每個分箱中的取值范圍一致。直方圖其實首先對數據進行了等寬分箱,再計算頻數畫圖。
比如價格排序后數據為:4、8、15、21、21、24、25、28、34
將其劃分為(等深)箱:
箱1:4、8、15?
箱2:21、21、24?
箱3:25、28、34?
將其劃分為(等寬)箱:
箱1:4、8
箱2:15、21、21、24?
箱3:25、28、34?
分箱法將異常數據包含在了箱子中,在進行建模的時候,不直接進行到模型中,因而可以達到處理異常值的目的。
pandas的qcut函數提供了分箱的實現方法,下面介紹如何具體實現。
等寬分箱:qcut函數可以直接進行等寬分箱,此時需要的待分箱的列和分箱個數兩個參數,如下所示,sample數據的int列為從10個服從標準正態分布的隨機數:
>sample
normal
0????0.065108
1????-0.597031
2????0.635432
3????-0.491930
4????-1.894007
5????1.623684
6????1.723711
7????-0.225949
8????-0.213685
9????-0.309789
現分為5箱,可以看到,結果是按照寬度分為5份,下限中,cut函數自動選擇小于列最小值一個數值作為下限,最大值為上限,等分為五分。結果產生一個Categories類的列,類似于R中的factor,表示分類變量列。
此外弱數據存在缺失,缺失值將在分箱后將繼續保持缺失,如下所示:
????0????(-0.447,?0.277]
????1????(-1.17,?-0.447]
????2???????(0.277,?1.0]
????3????(-1.17,?-0.447]
????4????(-1.898,?-1.17]
????5???????(1.0,?1.724]
????6???????(1.0,?1.724]
????7????(-0.447,?0.277]
????8????(-0.447,?0.277]
????9????(-0.447,?0.277]
Name:?normal,?dtype:?category
Categories?(5,?interval[float64]):?[(-1.898,?-1.17]?<?(-1.17,?-0.447]?<?(-0.447,?0.277]?<?(0.277,?1.0]?<?(1.0,?1.724]]
這里也可以使用labels參數指定分箱后各個水平的標簽,如下所示,此時相應區間值被標簽值替代:
0????1
1????1
2????2
3????2
4????3
5????3
6????4
7????4
8????5
9????5
Name:?normal,?dtype:?category
Categories?(5,?int64):?[1?<?2?<?3?<?4?<?5]
標簽除了可以設定為數值,也可以設定為字符,如下所示,將數據等寬分為兩箱,標簽為‘bad’,‘good’:
0?????bad
1?????bad
2?????bad
3?????bad
4?????bad
5????good
6????good
7????good
8????good
9????good
Name:?normal,?dtype:?category
Categories?(2,?object):?[bad?<?good]
等深分箱:等深分箱中,各個箱的寬度可能不一,但頻數是幾乎相等的,所以可以采用數據的分位數來進行分箱。依舊以之前的sample數據為例,現進行等深度分2箱,首先找到2箱的分位數:
0.0????0.0
0.5????4.5
1.0????9.0
Name:?normal,?dtype:?float64
在bins參數中設定分位數區間,如下所示完成分箱,include_lowest=True參數表示包含邊界最小值包含數據的最小值:
?include_lowest=True)
0????[0,?4.5]
1????[0,?4.5]
2????[0,?4.5]
3????[0,?4.5]
4????[0,?4.5]
5????(4.5,?9]
6????(4.5,?9]
7????(4.5,?9]
8????(4.5,?9]
9????(4.5,?9]
Name:?normal,?dtype:?category
Categories?(2,?object):?[[0,?4.5]?<?(4.5,?9)]
此外也可以加入label參數指定標簽,如下所示:
?include_lowest=True)
0?????bad
1?????bad
2?????bad
3?????bad
4?????bad
5????good
6????good
7????good
8????good
9????good
Name:?normal,?dtype:?category
Categories?(2,?object):?[bad?<?good]
3. 多變量異常值處理-聚類法
通過快速聚類法將數據對象分組成為多個簇,在同一個簇中的對象具有較高的相似度,而不同的簇之間的對象差別較大。聚類分析可以挖掘孤立點以發現噪聲數據,因為噪聲本身就是孤立點。
本案例考慮兩個變量income和age,散點圖如圖5-13所示,其中A、B表示異常值:
▲圖5-13:多變量異常值示例
對于聚類方法處理異常值,其步驟如下所示:
輸入:數據集S(包括N條記錄,屬性集D:{年齡、收入}),一條記錄為一個數據點,一條記錄上的每個屬性上的值為一個數據單元格。數據集S有N×D個數據單元格,其中某些數據單元格是噪聲數據。
輸出:孤立數據點如圖所示。孤立點A是我們認為它是噪聲數據,很明顯它的噪聲屬性是收入,通過對收入變量使用蓋帽法可以剔除A。
另外,數據點B也是一個噪聲數據,但是很難判定它在哪個屬性上的數據出現錯誤。這種情況下只可以使用多變量方法進行處理。
常用檢查異常值聚類算法為K-means聚類,會在后續章節中詳細介紹,本節不贅述。
關于作者:常國珍,數據科學專家和金融技術專家。北京大學會計學博士,中國大數據產業生態聯盟專家委員會委員。
趙仁乾,數據科學家,在電信大數據和機器學習領域有豐富的實踐經驗。
張秋劍,大數據專家和金融行業技術專家,上海師范大學計算機科學技術碩士。?
本文摘編自《Python數據科學:技術詳解與商業實踐》,經出版方授權發布。
延伸閱讀《Python數據科學》
點擊上圖了解及購買
轉載請聯系微信:togo-maruko
推薦語:本書從3個維度展開,技術維度:全面講解數據分析、數據挖掘和機器學習的核心技術;業務維度,圍繞具體的業務生命周期展開技術知識點的講解;實踐維度,列舉的全部是商業案例,通過案例為數據科學從業者提供工作模板。
據統計,99%的大咖都完成了這個神操作
▼
更多精彩
在公眾號后臺對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?報告?|?讀書?|?書單
大數據?|?揭秘?|?人工智能?|?AI
Python?|?機器學習?|?深度學習?|?神經網絡
可視化?|?區塊鏈?|?干貨?|?數學
猜你想看
極度燒腦+驚人發現:4個顛覆你世界觀的量子理論實驗
入門科普:一文看懂NLP和中文分詞算法(附代碼舉例)
長生不死、名人復活?瘋狂的AI時代,人類竟要靠IA實現“永生”
干貨:手把手教你用Python讀寫CSV、JSON、Excel及解析HTML
Q:?你都用過哪些方法進行數據清洗?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:baiyu@hzbook.com
更多精彩,請在后臺點擊“歷史文章”查看
點擊閱讀原文,了解更多
總結
以上是生活随笔為你收集整理的干货:用Python进行数据清洗,这7种方法你一定要掌握的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 包教包会,7段代码带你玩转Python条
- 下一篇: 什么是云原生?有哪些发展方向?终于有人讲