数据分析:度量数据散布的四分位数
假設(shè)屬性X的數(shù)據(jù)以數(shù)值遞增序排列。分位數(shù)是取自數(shù)據(jù)分布的每隔一定間隔上的點,把數(shù)據(jù)劃分成基本上大小相等的連貫集合。4-分位數(shù)是3個數(shù)據(jù)點,他們把數(shù)據(jù)劃分成4個相等的部分,使得每部分表示數(shù)據(jù)分布的四分之一。通常稱它們?yōu)?strong>四分位數(shù)。四分位數(shù)給出分布的中心、散布和形狀的某種指示。第1個四分位數(shù)記作,是第25個百分位數(shù)。第3個四分位數(shù)記作,是第75個百分位數(shù)。
第1個和第3個四分位數(shù)之間的距離是散布的一種簡單度量,它給出被數(shù)據(jù)的中間一般所覆蓋的范圍。該距離稱為四分位數(shù)極差(),定義為
? ? ? ? ? ??
分布的五數(shù)概括由中位數(shù)()、四分位數(shù)()、最小和最大觀測值組成,按次序?qū)懗觥?/p>
盒圖對于識別離群點是有用的。盒圖是一種流行的分布的直觀表示。盒圖體現(xiàn)了五數(shù)概括:
- 盒的端點一般在四分位數(shù)上,使得盒的長度是。
- 中位數(shù)用盒內(nèi)的線標記。
- 盒外的兩條線(稱作胡須)延伸到最小和最大觀測值。
當處理數(shù)量適中的觀測值時,值得個別的會出可能的離群點。在盒圖中占有做:僅當最高和最低觀測值超過四分位數(shù)不到時,胡須擴展到它們。否則,胡須出現(xiàn)在四分位數(shù)的之內(nèi)的最極端的觀測值處終止,剩下的情況個別的繪出。盒圖可以用來比較若干個可比較的數(shù)據(jù)集。
?
參考文獻:《數(shù)據(jù)挖掘概念與技術(shù) 》Jiawei Han, Micheline Kamber, Jian Pei
總結(jié)
以上是生活随笔為你收集整理的数据分析:度量数据散布的四分位数的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas:数据规范化方法与pytho
- 下一篇: pandas: DataFrame在数据