MATLAB 命令 BOXPLOT
Matlab中有關boxplot(X)命令的解釋:
boxplot(X) produces a box and whisker plot for each column of the matrix X. The box has lines at the lower quartile, median, and upper quartile values. Whiskers extend from each end of the box to the adjacent values in the data—by default, the most extreme values within 1.5 times the interquartile range from the ends of the box. Outliers are data with values beyond the ends of the whiskers. Outliers are displayed with a red + sign.
格式
boxplot(X) %產生矩陣X的每一列的盒圖和“須”圖,“須”是從盒的尾部延伸出來,并表示盒外數據長度的線,如果“須”的外面沒有數據,則在“須”的底部有一個點。
boxplot(X,notch) %當notch=1時,產生一凹盒圖,notch=0時產生一矩箱圖。
boxplot(X,notch,‘sym’) %sym表示圖形符號,默認值為“+”。
boxplot(X,notch,‘sym’,vert) %當vert=0時,生成水平盒圖,vert=1時,生成豎直盒圖(默認值vert=1)。
boxplot(X,notch,‘sym’,vert,whis) %whis定義“須”圖的長度,默認值為1.5,若whis=0則boxplot函數通過繪制sym符號圖來顯示盒外的所有數據值。
Examples 1
The following commands create a box plot of car mileage grouped by country.
load carsmall
boxplot(MPG,Origin)
Examples 2
The following example produces notched box plots for two groups of sample data.
x1 = normrnd(5,1,100,1);
x2 = normrnd(6,1,100,1);
boxplot([x1,x2],‘notch’,‘on’)
Examples 3
x1 = normrnd(5,1,100,1);
x2 = normrnd(6,1,100,1);
boxplot([x1,x2])
The difference between the medians of the two groups is approximately 1.Since the notches in the boxplot do not overlap, you can conclude, with 95% confidence, that the true medians do differ.
Examples 4
The following figure shows the boxplot for same data with the length of the whiskers specified as 1.0 times the interquartile range. Points beyond the whiskers are displayed using +.
x1 = normrnd(5,1,100,1); x2 = normrnd(6,1,100,1); boxplot([x1,x2],‘notch’,‘on’,‘whisker’,1)
箱形圖
最近有很多用戶說到了年終需要回顧這一年的工作,根據這一年的數據看看有沒有異常的情況,那么哪種圖能夠清晰直觀地展現出這一信息呢?
答案只有一個,那就是…
箱形圖
箱形圖(英文:Box plot),又稱為盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。在各種領域也經常被使用,常見于品質管理,快速識別異常值。
箱形圖最大的優點就是不受異常值的影響,能夠準確穩定地描繪出數據的離散分布情況,同時也利于數據的清洗。
想要搞懂箱形圖,那么一定要了解…
五大因“數”
我們一組序列數為例:12,15,17,19,20,23,25,28,30,33,34,35,36,37講解這五大因“數”
1、下四分位數Q1
(1)確定四分位數的位置。Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的項數。
(2)根據位置,計算相應的四分位數。
例中:
Q1所在的位置=(14+1)/4=3.75,
Q1=0.25×第三項+0.75×第四項=0.25×17+0.75×19=18.5;
2、中位數(第二個四分位數)Q2
中位數,即一組數由小到大排列處于中間位置的數。若序列數為偶數個,該組的中位數為中間兩個數的平均數。
例中:
Q2所在的位置=2(14+1)/4=7.5,
Q2=0.5×第七項+0.5×第八項=0.5×25+0.5×28=26.5
3、上四分位數Q3
計算方法同下四分位數。
例中:
Q3所在的位置=3(14+1)/4=11.25,
Q3=0.75×第十一項+0.25×第十二項=0.75×34+0.25×35=34.25。
4、上限
上限是非異常范圍內的最大值。
首先要知道什么是四分位距如何計算的?
四分位距IQR=Q3-Q1,那么上限=Q3+1.5IQR
5、下限
下限是非異常范圍內的最小值。
下限=Q1-1.5IQR
實例
講了這么多的“數學知識”,那么箱形圖到底如何通過BDP應用到實際的工作呢?我們還是用一個實例來幫助大家理解。
現在有“2017年各季度各地區分公司銷售業績”工作表,我們想要找出各季度哪些分公司業績屬于不正常范圍內。
數據示例如下圖:
BDP箱形圖結果:
從上圖可以清晰的找出異常點,例如第二季度北京分公司的銷售額為22147元,該值比上限10759元還要大,所以定義為異常值。
具體操作在這里就不講解了,可以參考“各位久等了,全新的炫酷圖表終于上線啦!”
箱形圖的價值
1.直觀明了地識別數據批中的異常值
上文講了很久的識別異常值,其實箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不會影響箱形圖的數據形狀,箱線圖識別異常值的結果比較客觀。由此可見,箱線圖在識別異常值方面有一定的優越性。
2.利用箱線圖判斷數據批的偏態和尾重
對于標準正態分布的樣本,只有極少值為異常值。異常值越多說明尾部越重,自由度越小(即自由變動的量的個數);
而偏態表示偏離程度,異常值集中在較小值一側,則分布呈左偏態;異常值集中在較大值一側,則分布呈右偏態。
3.利用箱線圖比較幾批數據的形狀
同一數軸上,幾批數據的箱線圖并行排列,幾批數據的中位數、尾長、異常值、分布區間等形狀信息便昭然若揭。如上圖,可直觀得看出第三季度各分公司的銷售額大體都在下降。
局限性
但箱形圖也有他的局限性,比如:不能精確地衡量數據分布的偏態和尾重程度;對于批量比較大的數據,反映的信息更加模糊以及用中位數代表總體評價水平有一定的局限性。
https://zhuanlan.zhihu.com/p/33473642
總結
以上是生活随笔為你收集整理的MATLAB 命令 BOXPLOT的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安卓微信文件夹储存在什么位置(安卓 微信
- 下一篇: linux逻辑卷管理磁盘的优点(linu