数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】
數(shù)據(jù)挖掘06-基于標(biāo)準(zhǔn)差和箱體圖的單指標(biāo)異常點(diǎn)檢測(cè)
- 一、基于箱體圖
- 二、基于標(biāo)準(zhǔn)差
- 三、效果圖及數(shù)據(jù)代碼獲取方式
- 3.1 原數(shù)據(jù)
- 3.2 檢測(cè)結(jié)果匯總表格:
- 3.3 數(shù)據(jù)及代碼獲取:
 
 
在數(shù)據(jù)的處理過(guò)程中,不可避免的會(huì)產(chǎn)生缺失值、異常值,下面來(lái)講一下我在工作中使用到的兩種常見(jiàn)的判斷異常值的方法。
一、基于箱體圖
箱體圖,即箱線圖,從下到上五條線分別表示最小值、下四分位數(shù)、中位數(shù)、上四分位數(shù)和最大值。
百度百科-箱線圖
箱體圖是一種用于顯示一組數(shù)據(jù)分散情況資料的統(tǒng)計(jì)圖,可以通過(guò)設(shè)定標(biāo)準(zhǔn),將大于或小于箱體圖上下界的數(shù)值識(shí)別為異常值。
如上圖所示,
將數(shù)據(jù)的下四分位數(shù)記為Q1,即樣本中僅有25%的數(shù)據(jù)小于Q1;
將數(shù)據(jù)的上四分位數(shù)記為Q3,即樣本中僅有25%的數(shù)據(jù)大于Q3;
將上四分位數(shù)和下四分位數(shù)的差值記為IQR,即IQR=Q3-Q1;
令箱體圖上界為Q3+1.5*IQR,下界為Q1-1.5*IQR。
如上圖所示,c列有很多的異常值。
?
二、基于標(biāo)準(zhǔn)差
當(dāng)數(shù)據(jù)服從標(biāo)準(zhǔn)正態(tài)分布時(shí),99%的數(shù)值與均值的距離應(yīng)該在3個(gè)標(biāo)準(zhǔn)差之內(nèi),95%的數(shù)值與均值的距離應(yīng)該在2個(gè)標(biāo)準(zhǔn)差之內(nèi),如下圖所示。
當(dāng)數(shù)值與均值的距離超出3個(gè)標(biāo)準(zhǔn)差,則可認(rèn)為它是異常值。
 
 
百度百科-標(biāo)準(zhǔn)差
三、效果圖及數(shù)據(jù)代碼獲取方式
3.1 原數(shù)據(jù)
3.2 檢測(cè)結(jié)果匯總表格:
 
 檢測(cè)結(jié)果包含:
 [指標(biāo)名,總數(shù)據(jù)量,非空數(shù)據(jù)量,空值數(shù)據(jù)量,無(wú)效值數(shù)據(jù)量,零值數(shù)據(jù)量,正常平均值,正常標(biāo)準(zhǔn)差,標(biāo)準(zhǔn)差上界,標(biāo)準(zhǔn)差下界,箱體圖上界,箱體圖下界,箱體圖檢測(cè)異常數(shù)據(jù)量,標(biāo)準(zhǔn)差檢測(cè)異常數(shù)據(jù)量等等…]
3.3 數(shù)據(jù)及代碼獲取:
github:https://github.com/SeafyLiang/Python_study/blob/master/pandas_study/single_od.py
國(guó)內(nèi):https://gitee.com/seafyLiang/Python_study/blob/master/pandas_study/single_od.py
?
歡迎關(guān)注我的公眾號(hào)“機(jī)器學(xué)習(xí)工具箱”,技術(shù)文章第一時(shí)間推送。
 
總結(jié)
以上是生活随笔為你收集整理的数据挖掘06-基于标准差和箱体图的单指标异常点检测【原理、数据及代码】的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
 
                            
                        - 上一篇: 性能监视器 Performance Mo
- 下一篇: 计算机与机械工程相结合的专业,计算机和机
