数据分析学习总结笔记04:异常值处理
數據分析學習總結筆記04:異常值處理
- 1 異常值概述
- 2 如何判斷異常值
- 2.1 簡單的統計分析
- 2.2 3δ原則
- 2.3 四分位數檢驗/箱型圖分析
- 2.4 格拉布斯檢驗
- 2.5 基于模型檢測
- 2.6 基于距離檢測
- 2.7 基于密度檢測
- 3 如何處理異常值
1 異常值概述
數據存在異常值、缺失值和重復值是數據清洗工作中主要可能遇到的三個問題。
異常值是數據中的極端的觀測值,即在數據集中存在不合理的值,又稱離群點。
在統計學中異常值(outlier)定義為一組測定值中與平均值的偏差超過兩倍標準差的測定值,與平均值的偏差超過三倍標準差的測定值,稱為高度異常的異常值1。
一批數據中的異常值值得關注,忽視異常值的存在是十分危險的,不加剔除地把異常值包括進數據的計算分析過程中,對結果會帶來不良影響;重視異常值的出現,分析其產生的原因,常常成為發現問題進而改進決策的契機。
- 響應變量中的異常值:若標準化殘差的絕對值大于2,對應的觀測點稱為異常點。
- 預測變量中的異常值:若第i個觀測點的杠桿值hii大于2(p+1)/n,則稱該觀測點為高杠桿點。
如果刪除一個觀測點會導致擬合模型的實質性變化,即系數估計值、擬合值和檢驗值等發生較大變化,則稱這個點為強影響點。
2 如何判斷異常值
對于異常值的判斷,通常使用的方法有很多種,本文主要介紹以下7種方法。
2.1 簡單的統計分析
當我們拿到數據后可以對數據進行一個簡單的描述性統計分析,譬如最大最小值可以用來判斷這個變量的取值是否超過了合理的范圍,不合常理的為異常值。比如,對成績這個屬性進行規約:成績的區間在[0:100],如果樣本中的成績不在該區間范圍內,則表示該值屬于異常值。
2.2 3δ原則
- 若數據服從正態分布:
根據正態分布的定義可知,距離平均值3δ之外的概率為 P(|x-μ|>3δ) <= 0.003 ,這屬于極小概率事件,在默認情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。 因此,當樣本距離平均值大于3δ,則認定該樣本為異常值。
- 若數據不服從正態分布:
當數據不服從正態分布,可以通過遠離平均距離多少倍的標準差來判定,多少倍的取值需要根據經驗和實際情況來決定。
2.3 四分位數檢驗/箱型圖分析
將所有數據按大小排序,找到其中上四分位數UQ(Q3)和下四分位數LQ(Q1),計算其差值IQR=UQ-LQ(中四分位范圍,IQR,即內50%范圍),所有在 [LQ-1.5IQR,UQ+1.5IQR] 范圍之外的數據都可以判定為異常值。
將其形象化的方式就是通過繪制箱型圖進行直觀判定。箱形圖(Box-plot)又稱為盒須圖、盒式圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因形狀如箱子而得名。它主要用于反映原始數據分布的特征,還可以進行多組數據分布特征的比較。
箱形圖的繪制依靠實際數據,不需要事先假定數據服從特定的分布形式,沒有對數據作任何限制性要求,它只是真實直觀地表現數據形狀的本來面貌;另一方面,箱形圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不能對這個標準施加影響,箱形圖識別異常值的結果比較客觀。由此可見,箱形圖在識別異常值方面有一定的優越性。
2.4 格拉布斯檢驗
格拉布斯準則是以正態分布為前提的,理論上較嚴謹,使用也方便。
格拉布斯的測試一次檢測到一個異常值。從數據集中刪除該異常值,并且迭代測試直到沒有檢測到異常值。但是,多次迭代會改變檢測概率,并且測試不應該用于六個或更少的樣本大小(n>6),因為它經常將大多數點標記為異常值。
該方法具體可以詳見該博主。
2.5 基于模型檢測
具體操作就是先建立一個數據模型,異常是那些同模型不能完美擬合的對象;如果模型是簇的集合,則異常是不顯著屬于任何簇的對象;在使用回歸模型時,異常是相對遠離預測值的對象。
- 優點:有堅實的統計學理論基礎,當存在充分的數據和所用的檢驗類型的知識時,這些檢驗可能非常有效。
- 缺點:對于多元數據,可用的選擇少一些,并且對于高維數據,這些檢測可能性很差。
2.6 基于距離檢測
通常可以在對象之間定義鄰近性度量,異常對象是那些遠離其他對象的對象。
- 優點:簡單便捷。
- 缺點:首先,基于鄰近度的方法需要O(m2)時間,大數據集不適用;其次,對參數的選擇較為敏感;其三,同時不能處理具有不同密度區域的數據集,因為它使用全局閾值,不能考慮這種密度的變化。
2.7 基于密度檢測
當一個點的局部密度顯著低于它的大部分近鄰時才將其分類為離群點。適合非均勻分布的數據。
- 優點:給出了對象是離群點的定量度量,并且即使數據具有不同的區域也能夠很好的處理。
- 缺點:與基于距離的方法一樣,這些方法必然具有O(m2)的時間復雜度。對于低維數據使用特定的數據結構可以達到O(mlogm)。參數選擇困難。雖然算法通過觀察不同的k值,取得最大離群點得分來處理該問題,但是,仍然需要選擇這些值的上下界2。
3 如何處理異常值
異常值的處理方法常用有四種:
(1)刪除含有異常值的記錄,尤其需要剔除高度異常的異常值;
(2)將異常值視為缺失值,交給缺失值處理方法來處理;
(3)用平均值來修正;
(4)不處理。
需要強調的是,如何判定和處理異常值,需要結合實際。
相關筆記:
本文主要根據個人學習,并搜集部分網絡上的優質資源總結而成,如有不足之處敬請諒解,歡迎批評指正、交流學習!
異常值-百度百科 ??
數據清洗中異常值如何處理 ??
總結
以上是生活随笔為你收集整理的数据分析学习总结笔记04:异常值处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: win7自带桌面便签
- 下一篇: 模块说明模板