python异常值删除_python数据清洗中,是如何识别和处理异常值的?
異常值處理是pythonshujuqingxi/' style='color:#000;font-size:14px;'>python數據清洗中重要的步驟,雖然異常值出現頻率比較低,但是如果置之不理的話,還是會對實際項目的分析造成偏差,所以今天小編就跟大家分享pythonshujuqingxi/' style='color:#000;font-size:14px;'>python數據清洗中應該如何識別和處理異常值,希望對大家有所幫助。
一、異常值概念
異常值,又稱離群點,就是那些遠離絕大多數樣本點的特殊群體,通常這樣的數據點在數據集中都表現出不合理的特性,需要注意的是,異常值正常范圍的值,不是錯誤值。
二、pythonshujuqingxi/' style='color:#000;font-size:14px;'>python數據清洗中異常值的識別
通常pythonshujuqingxi/' style='color:#000;font-size:14px;'>python數據清洗中,可以借助箱線圖、正態分布圖這些圖形法來進行異常值識別。
1.箱線圖法
采用箱線圖識別異常值的判斷標準為:當變量的數據值超出箱線圖上須和下須的范圍之外,也就是大于箱線圖的上須或者小于箱線圖的下須時,就可以認為這樣的數據點為異常點。
2.正態分布圖法
如果數據點落在偏離均值正負2倍標準差之外的概率就不足5%,它屬于小概率事件,即認為這樣的數據點為異常點。同理,如果數據點落在偏離均值正負3倍標準差之外的概率將會更小,可以認為這些數據點為極端異常點。
三、pythonshujuqingxi/' style='color:#000;font-size:14px;'>python數據清洗中異常值的處理
(1)直接將異常值刪除
(2)暫且保留異常值,結合整體模型進行綜合分析
(3)在樣本量很小的情況下,可以使用均值或其他統計量取代
(4)將異常值視為缺失值,利用處理缺失值的方法進行處理
(5)不處理,根據該缺失值的性質特點,使用穩健模型加以修飾
(6)利用抽樣技術或者模擬技術,接受更合理的標準誤等信息
完 謝謝觀看
總結
以上是生活随笔為你收集整理的python异常值删除_python数据清洗中,是如何识别和处理异常值的?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何用三元组表表示下列稀疏矩阵_盘一盘
- 下一篇: 卷组删除pv_如何安全的删除Linux