空间统计之八:平均中心和中位数中心
本來應該分成兩篇來寫的。可是這兩種中心的算法和應用都非常接近,所以就合并成一篇文章來寫了。
昨天講了中心要素,由于中心要素是要從原來的要素中去選擇一個已有的,所以算出來的,與我們觀念和感知中的“中心”這個概念,還是差距非常大,所以今天來講講這兩種中心的計算方式和應用范圍。
我們來看看三者之間的不同,例如以下圖:
能夠看到。計算出來的結(jié)果各有不同,首先中心要素我們就不說了。大家有興趣能夠去看看昨天的文章。然后今天要說的中位數(shù)中心和算數(shù)平均中心,也不是一樣的,那么他們分別代表什么樣的含義呢?
首先。看看最符合我們感知的整份數(shù)據(jù)的中心位置是哪個?毋庸置疑,綠色的算數(shù)平均中心肯定是最符合我們感官中的中心位置了。從名字上來看,就非常easy理解這個“算數(shù)平均中心”是怎樣得來的。
算數(shù)平均。從統(tǒng)計學上來說,是描寫敘述數(shù)據(jù)集中位置的一個統(tǒng)計量,能夠用它來反映一組數(shù)據(jù)的普通情況、和平均水平,也能夠用它進行不同組數(shù)據(jù)的比較,以看出組與組之間的區(qū)別。
它的計算方法非常easy,就是把全部的值都加起來。然后除以他們的個數(shù),就得到了這個平均值。
所以按正常情況。這個平均值大多數(shù)都不會恰好等于你數(shù)據(jù)中的某一個值(當然,也有等于某個值的),所以算數(shù)平均中心,也會生成一個新的點。
算數(shù)平均中心的計算方法也非常easy,和全部的空間相關(guān)理論都能夠直接拋開。直接進行算數(shù)計算,這個生成的點的x坐標和y坐標,就是全部點的x坐標和y坐標的平均值。公式例如以下:
看以下的計算實例:
是不是很easy?僅僅要有小學2年級的水平,就行計算出來了,當然。假設每個點上面還有權(quán)重的話,也可以一并增加計算,公式例如以下:
假設,你是一個三維的點。也就說還有z值的話,也一并增加計算。算法是一樣的:
接下去,我們來看看中位數(shù)中心。中位數(shù)中心和昨天所說的中心要素非常像,就是去尋找一個可以均分全部數(shù)據(jù)為兩部分的數(shù),這個數(shù)到全部的位置的距離總和最少。
可是,中位數(shù)中心和中心要素,最大的不同點在于:中心要素計算出來的結(jié)果,必須是要素樣本的中的一個原始樣本;而中位數(shù)中心計算出來的。能夠不是原始要素中的一個,能夠生成一個新的位置。
可是相對于中心要素的計算,中位數(shù)中心的計算方法就復雜非常多了。
由于中位數(shù)中心沒有既定的位置給你。也就是說沒有起算點。假設沒有起算點。那么理論上就有無數(shù)個點能夠作為起算點。然后依據(jù)遍歷的法則。一個個的去計算,去排序,這樣系統(tǒng)的開銷會變得無限的大。
只是這個世界算有一群非常聰(bian)明(tai)的天才。他們有個共同的名字。叫做數(shù)學家……在1962年,美國著名數(shù)學家,普林斯頓大學的哈羅德.威廉.庫恩(一位天才的數(shù)學家和計算機理論學家,以前獲得1980年的約翰·馮·諾依曼理論獎)和羅伯特.E.庫倫(Kuhn,
H. W., and R. E. Kuenne)
兩位首次提出。
而且在1996年,被美國紐約吉爾福德學院地理學家詹姆斯.E.伯特和杰拉爾德.M.巴伯(Burt,
J. E., and G. Barber.)總結(jié)歸納,得出了一種優(yōu)化算法。
這個算法說起來還是比較easy理解的,就是尋找一個候選中位數(shù)中心。然后對其進行優(yōu)化,直到其表示的位置距數(shù)據(jù)集中的全部要素(或全部加權(quán)要素)的距離最小。
這個算法的詳細描寫敘述,請參考書籍:《Burt,J. E., and G. Barber. (1996).Elementary statistics for geographers.Guilford,New York.》(挖個坑,以后有機會來填。今天就不多說了)
當然,要注意的。盡管我們使用ArcGIS提供的工具,僅僅返回一個點,可是確實有可能,距全部要素的距離最小的位置點(解),會出現(xiàn)有多個。
這兩種和中心有關(guān)的計算結(jié)果,都是表達了對中心趨勢的度量情況。可是他們之間也有不同的,那么詳細有哪些思想和應用上的不同。繼續(xù)往下看。
我們都知道,平均值受到極值的影響非常大,把比爾蓋茨和9個身無分文的乞丐。塞到一個房間里面。假設算平均數(shù)的話,能夠說這個房間里面所有都是億萬富豪了。所以非常多時候。我們常常飽受“平均”之苦。比方每次都是工資平均增長多。住房面積平均達到多少……每次遇上這樣的情況,我都會嚴重的懷疑是我嚴重扯了國家的后腿還是計算的時候。就壓根沒把我計算進去呢?
所以算數(shù)平均中心也會對極值很敏感。例如以下:
增加極值之后,算數(shù)平均值會出現(xiàn)明顯的向極值的方向移動。然后我們再來計算一下中位數(shù)中心,例如以下:
能夠發(fā)現(xiàn),就算增加了極值之后,中位數(shù)中心的位移沒有算數(shù)平均中心位移那么大,就說明了,中位數(shù)中心,對極值(異常值)的敏感程度要低于算數(shù)平均中心。所以:中位數(shù)中心是一種對異常值反應較為穩(wěn)健的中心趨勢的量度。
假設我們須要一個對于空間異常值反應比較穩(wěn)健的中心趨勢的量度值,就能夠考慮使用中位數(shù)中心。
就像計算火災發(fā)生位置的研究中。我們不希望少數(shù)外圍火災使得實際的中心位置遠離火災核心區(qū)這種一種場景,就能夠使用該工具計算火災區(qū)的“中位數(shù)中心”。
平均中心和中位數(shù)中心,都是空間統(tǒng)計中經(jīng)經(jīng)常使用到的工具。它們在研究某一時間的位置運動時候有廣泛的應用。
比如:在犯罪分析的研究中。犯罪事件的位置可能遍布整個城區(qū),我們就能夠依照不同的時間。對當中一個區(qū)間內(nèi)的數(shù)據(jù)進行中心點提取。這樣就能夠有效的了解,整個犯罪事件的位置是否發(fā)生趨勢性的轉(zhuǎn)移。
或者在對動物遷徙的研究中。能夠計算某個區(qū)域若干年內(nèi)的動物(如麋鹿)觀測值的平均中心。來確定在不同一時候間段內(nèi)。麋鹿會在何處聚集,從而為游客或者研究人員提供更好的信息。
總結(jié)
以上是生活随笔為你收集整理的空间统计之八:平均中心和中位数中心的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: centos7搭建jenkins小记
- 下一篇: 5ge什么意思