Boxplot(盒图)
今天看到一個程序(matlab版本),里面有個函數叫“boxplot”,沒見過,查了些資料,找到一篇不錯的文章,貼在這供大家參考。
地址:http://blog.renren.com/share/221363020/2984638910(估計這個鏈接很容易失效啊)
最近在擺弄數據離散度的時候遇到一種圖形,叫做盒圖(boxplot)。它對于顯示數據的離散的分布情況效果不錯。
盒圖是在1977年由美國的統計學家約翰·圖基(John Tukey)發明的。它由五個數值點組成:最小值(min),下四分位數(Q1),中位數(median),上四分位數(Q3),最大值(max)。也可以往盒圖里面加入平均值(mean)。如上圖。下四分位數、中位數、上四分位數組成一個“帶有隔間的盒子”。上四分位數到最大值之間建立一條延伸線,這個延伸線成為“胡須(whisker)”。
由于現實數據中總是存在各式各樣地“臟數據”,也成為“離群點”,于是為了不因這些少數的離群數據導致整體特征的偏移,將這些離群點單獨匯出,而盒圖中的胡須的兩級修改成最小觀測值與最大觀測值。這里有個經驗,就是最大(最小)觀測值設置為與四分位數值間距離為1.5個IQR(中間四分位數極差)。即
- IQR = Q3-Q1,即上四分位數與下四分位數之間的差,也就是盒子的長度。
- 最小觀測值為min = Q1 - 1.5*IQR,如果存在離群點小于最小觀測值,則胡須下限為最小觀測值,離群點單獨以點匯出。如果沒有比最小觀測值小的數,則胡須下限為最小值。
- 最大觀測值為max = Q3 -1.5*IQR,如果存在離群點大于最大觀測值,則胡須上限為最大觀測值,離群點單獨以點匯出。如果沒有比最大觀測值大的數,則胡須上限為最大值。
通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特征:
1.箱體的左側(下)邊界代表第一四分位(Q1),而右側(上)邊界代表第三四分位(Q3)。至于箱體部分代表四分位距(IQR),也就是觀測值的中間50%值。
2.在箱體中間的線代表的是數據的中位數值。
3.從箱體邊緣延伸出去的直線稱為觸須(whisker).觸須(whisker)的向外延伸表示了數據集中的最大和最小(異常點除外)。
4.極端值或異常點(outlier),用星號(*)來標識.如果一個值位于箱體外面(大于Q3或小于Q1),并且距離相應邊界大于1.5倍的IQR,那么這個點就被認為是一個異常點(outlier)。
如果你選擇通過分組變量(By variable)來分組數據,MINITAB將把圖像變成垂直放置,否則圖形將水平放置。
使用箱形圖來評估數據的對稱性:
1.如果數據是明顯對稱,中位數值線將近似位于四分位距箱體的中間,上下觸須(whisker)在長度上將近似相等。
2.如果數據是偏態的,中位數將可能不位于四分位距(IQR)箱體的中間,某一觸須(whisker)將可能顯著地比另一個長。
在降水數據的箱形圖(boxplot)中,中位數位于四分位距(IQR)箱體的中間,上下觸須(whisker)長度相等.這表明除了異常點(outlier)星號(*)外,數據是對成的.這很好的說明了異常點(outlier)可能和其它的樣本數據不是來自同一個母體(population)。
?
我們結合Minitab幫助就會知道,
假定有數據列C1:1 2 3 4 5 6 7 8,C2:1 2 3 4 5 6 7 8 9,
對于Median(中位數)的位置,這個值等于(N+1)/2,比如C1,共有8個數據,那么中位數就等于(4+5)/2=4.5.由于結果并不是整數,也就是說中位數位于第4和5數數(我們把它們記為X(4)和X(5))之間,那么中位數等于=X(4)+0.5(X(5)-X(4))=4+0.5(5-4)=4.5.
對于Q1(第一四分位)的位置,這個值等于(N+1)/4,這里N表示數據個數,對于C1來說就是(8+1)/4=2.25,由于結果不是整數,也就是說Q1位于第2和3個數(我們把它們記為X(2)和X(3))之間,那么Q1=X(2)+0.25(X(3)-X(2))=2+0.25(3-2)=2.25.
對于Q3(第三四分位)的位置,這個值等于3(N+1)/4,這里N表示數據個數,對于C1來說就是3(8+1)/4=6.75,也就是說Q3位于第6和7個數(我們把它們記為X(6)和X(7))之間,
那么Q3=X(6)+0.75(X(7)-X(6))=6+0.75(7-6)=6.75.
我們可以通過在MINITAB中計算來驗證結果
我們新建一個工作表,在C1列輸入1 2 3 4 5 6 7 8
在C2列輸入1 2 3 4 5 6 7 8 9,
我們通過菜單Stat>Basic Statistics>Display Descriptive Statistics,在Variables處輸入c1 c2,然后點擊Statistics按鈕,只選中First quartile,Median和Third quartile統計指標,點擊OK.就會在對話(session)窗口看到結果.
| Variable | Q1 | Median | Q3 |
| C1 | 2.250 | 4.500 | 6.750 |
| C2 | 2.500 | 5.000 | 7.500 |
使用箱形圖(也稱為箱體-觸須圖)來評估和比較樣本分布。下面的圖形圖解了箱形圖默認的組成部分。
異常點(Outlier)-某個異常大或小的觀測點。任何超過觸須的值就是異常點。
默認情況下,箱體的頂端是第三四分位(Q3)-75%的數據值小于或等于這個值。
默認情況下,箱體的底部是第一四分位(Q1)-25%的數據值小于或等于這個值。
默認情況下,下部的觸須會伸展到最小值,但一定位于下限范圍內。
下限(Lower limit)=Q1-1.5(Q3-Q1)
中位數-數據的中間點。一半的觀測值小于或等于它。
默認情況下,上部的觸須會伸展到最大值,但一定位于上限范圍內。
上限(Upper limit)=Q3+1.5(Q3-Q1)
總結
以上是生活随笔為你收集整理的Boxplot(盒图)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 服务器96g运行内存,别被坑了,2019
- 下一篇: 数据结构-树的进阶-串联各科知识