R语言之离群点检验(part1)--利用箱线图原理检测离群点
生活随笔
收集整理的這篇文章主要介紹了
R语言之离群点检验(part1)--利用箱线图原理检测离群点
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
學習筆記
參考書目:《R語言與數據挖掘》、《統計學》
利用箱線圖原理檢測離群點
箱線圖
箱線圖是由數據的最大值、最小值、中位數、兩個四分位數這五個特征值繪制而成的,它主要用于反映原始數據分布的特征。
箱線圖:
若觀察值超過了上四分位數加1.5倍四分位差,或者小于下四分位數減1.5倍四分位差,則在箱線圖中會作為離群點被單獨標出。
所以,當我們拿到一組單變量數值型觀測時,若某個觀測值大于四分位數加1.5倍四分位差,或者小于下四分位數減1.5倍四分位差,則可以判定為離群值。
R語言實現
- 相關函數
- 案例
代碼:
#模擬數據: set.seed(1234) x <- rnorm(100) y <- rnorm(100)df <- data.frame(x = x,y = y)#分別獲取x和y的離群點的行號,再取并集(當然還有取交集的方法intersect): attach(df)(boxplot.stats(x)$out) #3.043766 -2.855759 (boxplot.stats(y)$out) #2.919140 -3.233152 -2.651741 -3.396064 (x_out <- which(x %in% boxplot.stats(x)$out)) #[1] 178 192 (y_out <- which(y %in% boxplot.stats(y)$out)) #[1] 27 37 182 192detach(df) out_point <- union(x_out, y_out)#繪圖: plot(df, main = '散點圖') points(df[out_point, ], col = 'red', pch = 'o', cex = 2)圖像:
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的R语言之离群点检验(part1)--利用箱线图原理检测离群点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 索尼x1芯片重要吗(索尼在线商城)
- 下一篇: 魔兽世界萨尔去哪了