空间统计分析(一)
1、空間統(tǒng)計(jì)基礎(chǔ)
1.1空間統(tǒng)計(jì)概述
1.2空間自相關(guān)
空間自相關(guān)是空間統(tǒng)計(jì)分析理論與方法構(gòu)建的基礎(chǔ),也是地理學(xué)第一定律的主要呈現(xiàn)形式,即距離越近的地理事物越相似,而距離越遠(yuǎn)的地理事物差異越大。
1.2.1全局空間自相關(guān)
全局空間自相關(guān)是度量要素全局空間分布模式的分析模型。
全局空間自相關(guān)使用最廣泛的模型為Global Moran's I,通過此指數(shù),可以在全局層面度量地理要素所呈現(xiàn)的是聚類模式、隨機(jī)模式還是離散模式。該工具通過計(jì)算 Moran's I 指數(shù)值、z得分和p值來(lái)對(duì)該指數(shù)的顯著性進(jìn)行評(píng)估。p值是根據(jù)已知分布的曲線得出的面積近似值(受檢驗(yàn)統(tǒng)計(jì)量限制)。
(下面原本要講的內(nèi)容看不懂啦,所以補(bǔ)充點(diǎn)假設(shè)檢驗(yàn)的知識(shí))(122條消息) 統(tǒng)計(jì)學(xué)基礎(chǔ)--假設(shè)檢驗(yàn)_Andy_shenzl的博客-CSDN博客_假設(shè)檢驗(yàn)
(122條消息) 讓 P-value 更加的淺顯易懂_rongbaohan的博客-CSDN博客_pvalue
在掌握了假設(shè)檢驗(yàn)、零假設(shè)相關(guān)知識(shí)后,我們回到空間統(tǒng)計(jì)分析。
我們?cè)賮?lái)看之前提到的兩個(gè)概念,在空間統(tǒng)計(jì)分析中什么是p值,什么是z得分?
大多數(shù)統(tǒng)計(jì)檢驗(yàn)在開始時(shí)都首先確定一個(gè)零假設(shè)。模式分析工具的零假設(shè)是完全空間隨機(jī)性 (CSR),它或者是要素本身的完全空間隨機(jī)性,或者是與這些要素關(guān)聯(lián)的值的完全空間隨機(jī)性。模式分析工具所返回的 z 得分和 p 值可幫助您判斷是否可以拒絕零假設(shè)(即說明具有空間相關(guān)性)。通常,您將運(yùn)行其中一種模式分析工具,并希望 z 得分和 p 值表明可以拒絕零假設(shè),這就意味著:您的要素(或與要素關(guān)聯(lián)的值)表現(xiàn)出統(tǒng)計(jì)意義上的顯著性聚類或離散模式,而不是隨機(jī)模式。如果您在景觀分布(或空間數(shù)據(jù))中發(fā)現(xiàn)了空間結(jié)構(gòu)(如聚類),就證明某些基礎(chǔ)空間過程在發(fā)揮作用,而這方面通常正是地理學(xué)者或 GIS 分析人員所最為關(guān)注的。
p 值表示概率。對(duì)于模式分析工具來(lái)說,p 值表示所觀測(cè)到的空間模式是由某一隨機(jī)過程創(chuàng)建而成的概率。當(dāng) p 很小時(shí),意味著所觀測(cè)到的空間模式不太可能產(chǎn)生于隨機(jī)過程(小概率事件),因此您可以拒絕零假設(shè)。您可能會(huì)問這樣的問題:要小到什么程度才算足夠小?這是一個(gè)非常好的問題。請(qǐng)參見下面的表和內(nèi)容論述。
Z 得分表示標(biāo)準(zhǔn)差的倍數(shù)。例如,如果工具返回的 z 得分為 +2.5,我們就會(huì)說,結(jié)果是 2.5 倍標(biāo)準(zhǔn)差。如下所示,z 得分和 p 值都與標(biāo)準(zhǔn)正態(tài)分布相關(guān)聯(lián)。
在正態(tài)分布的兩端出現(xiàn)非常高或非常低(負(fù)值)的 z 得分,這些得分與非常小的 p 值關(guān)聯(lián)。當(dāng)您得到很小的 p 值以及非常高或非常低的 z 得分時(shí),就表明觀測(cè)到的空間模式不太可能反映零假設(shè) (CSR) 所表示的理論上的隨機(jī)模式(即拒絕零假設(shè))。
要拒絕零假設(shè),您必須對(duì)所愿承擔(dān)的可能做出錯(cuò)誤選擇(即錯(cuò)誤地拒絕零假設(shè))的風(fēng)險(xiǎn)程度做出主觀判斷(即顯著性)。因此,請(qǐng)先選擇一個(gè)置信度,然后再執(zhí)行空間統(tǒng)計(jì)。典型的置信度為 90%、95% 或 99%。這種情況下,99% 的置信度是最保守的,這表示您不愿意拒絕零假設(shè),除非該模式是由隨機(jī)過程創(chuàng)建的概率確實(shí)非常小(低于 1% 的概率)。
Global Moran's I 統(tǒng)計(jì)量所依據(jù)的數(shù)學(xué)公式如上所示。該工具計(jì)算所評(píng)估屬性的均值和方差。然后,將每個(gè)要素值減去均值,從而得到與均值的偏差。將所有相鄰要素(例如位于指定距離范圍內(nèi)的要素)的偏差值相乘,從而得到叉積。請(qǐng)注意,Global Moran's I 統(tǒng)計(jì)量的分子是這些叉積的和。假定要素 A 和 B 是相鄰要素,并且所有要素值的均值為 10。請(qǐng)注意可能的叉積結(jié)果的范圍:
| 要素值 | 偏差 | 叉積 | |||
| A=50 | B=40 | 40 | 30 | 1200 | |
| A=8 | B=6 | -2 | -4 | 8 | |
| A=20 | B=2 | 10 | -8 | -80 | |
如果相鄰要素的值都大于或者都小于均值,則叉積將為正。如果一個(gè)要素值小于均值而另一個(gè)要素值大于均值,則叉積將為負(fù)。在所有情況下,與均值的偏差越大,叉積結(jié)果就越大。如果數(shù)據(jù)集中的值傾向于在空間上發(fā)生聚類(高值聚集在其他高值附近;低值聚集在其他低值附近),則 Moran's I 指數(shù)將為正。如果高值排斥其他高值,而傾向于靠近低值,則該指數(shù)將為負(fù)。如果正叉積值與負(fù)叉積值相抵消,則指數(shù)將接近于零。由于分子是通過方差進(jìn)行歸一化,因此該指數(shù)的值將落在 -1.0 到 +1.0 的區(qū)間內(nèi)。
空間自相關(guān) (Global Moran's I) 工具計(jì)算了指數(shù)值后,將計(jì)算期望指數(shù)值。然后,將期望指數(shù)值與觀察指數(shù)值進(jìn)行比較。在給定數(shù)據(jù)集中的要素個(gè)數(shù)和全部數(shù)據(jù)值的方差的情況下,該工具將計(jì)算 z 得分和 p 值,用來(lái)指示此差異是否具有統(tǒng)計(jì)學(xué)上的顯著性。指數(shù)值不能直接進(jìn)行解釋,只能在零假設(shè)的情況下進(jìn)行解釋,如下:
解釋
空間自相關(guān) (Global Moran's I) 工具是一種推論統(tǒng)計(jì),這意味著分析結(jié)果始終在零假設(shè)的情況下進(jìn)行解釋。對(duì)于 Global Moran's I 統(tǒng)計(jì)量,零假設(shè)聲明,所分析的屬性在研究區(qū)域內(nèi)的要素之間是隨機(jī)分布的;換句話說,用于促進(jìn)觀察值模式的空間過程是隨機(jī)的。假設(shè)您可以為所分析的屬性選擇值,然后使這些值隨意落到要素上,從而讓每個(gè)值落在可能的位置。此過程(選擇并隨意放置值)便是隨機(jī)空間過程的示例。
如果此工具返回的 p 值具有統(tǒng)計(jì)學(xué)上的顯著性,則可拒絕零假設(shè)。下表對(duì)結(jié)果的解釋進(jìn)行了匯總:
| p 值不具有統(tǒng)計(jì)學(xué)上的顯著性。 | 不能拒絕零假設(shè)。要素值的空間分布很有可能是隨機(jī)空間過程的結(jié)果。觀測(cè)到的要素值空間模式可能只是完全空間隨機(jī)性 (CSR) 的眾多可能結(jié)果之一。 |
| p 值具有統(tǒng)計(jì)學(xué)上的顯著性,且 z 得分為正值。 | 可以拒絕零假設(shè)。如果基礎(chǔ)空間過程是隨機(jī)的,則數(shù)據(jù)集中高值和/或低值的空間分布在空間上聚類的程度要高于預(yù)期。 |
| p 值具有統(tǒng)計(jì)學(xué)上的顯著性,且 z 得分為負(fù)值。 | 可以拒絕零假設(shè)。如果基礎(chǔ)空間過程是隨機(jī)的,則數(shù)據(jù)集中高值和低值的空間分布在空間上離散的程度要高于預(yù)期。離散空間模式通常會(huì)反映某種類型的競(jìng)爭(zhēng)過程 - 具有高值的要素排斥具有高值的其他要素;類似地,具有低值的要素排斥具有低值的其他要素。 |
1.2.2局部空間自相關(guān)
局部空間自相關(guān)所使用的模型與全局自相關(guān)類似,其中最廣泛的是Moran's I和G-Statistics(也叫Getis-Ord Gi* 統(tǒng)計(jì)(稱為 G-i-星號(hào))).這里以G-Statistics為例,基于G-Statistics,可以探測(cè)出一組地理要素的某個(gè)變量在空間上的熱點(diǎn)區(qū)域和冷點(diǎn)區(qū)域,從而分析出局部區(qū)域的高值聚類區(qū)域和低值聚類區(qū)域。
通過熱點(diǎn)探測(cè)可以分析出高值和低值聚類的邊界在哪里,可以度量局部區(qū)域高值和低值聚類的程度。該模型會(huì)為每一個(gè)輸出要素計(jì)算p值和z得分,從而定量表達(dá)高值聚類和低值聚類在特定置信區(qū)間內(nèi)的聚類程度。計(jì)算公式如下:
?此工具的工作方式為:查看鄰近要素環(huán)境中的每一個(gè)要素。高值要素往往容易引起注意,但可能不是具有顯著統(tǒng)計(jì)學(xué)意義的熱點(diǎn)。要成為具有顯著統(tǒng)計(jì)需意義的熱點(diǎn),要素應(yīng)具有高值,且被其他同樣具有高值的要素所包圍。某個(gè)要素及其相鄰要素的局部總和將與所有要素的總和進(jìn)行比較;當(dāng)局部總和與所預(yù)期的局部總和有很大差異,以致于無(wú)法成為隨機(jī)產(chǎn)生的結(jié)果時(shí),會(huì)產(chǎn)生一個(gè)具有顯著統(tǒng)計(jì)學(xué)意義的 z得分。
為數(shù)據(jù)集中的每個(gè)要素返回的 Gi* 統(tǒng)計(jì)就是 z 得分。對(duì)于具有顯著統(tǒng)計(jì)學(xué)意義的正的 z 得分,z 得分越高,高值(熱點(diǎn))的聚類就越緊密。對(duì)于統(tǒng)計(jì)學(xué)上的顯著性負(fù) z 得分,z 得分越低,低值(冷點(diǎn))的聚類就越緊密。
1.2.3協(xié)方差云與半變異函數(shù)
概念
連續(xù)型空間數(shù)據(jù)具有高程采樣點(diǎn)、土壤濕度、氣溫等采樣數(shù)據(jù)等,這些數(shù)據(jù)的一個(gè)顯著特點(diǎn)是其屬性值在空間上連續(xù)變化,難以像要素?cái)?shù)據(jù)那樣捕捉到邊界。由于諸如Moran's I等空間自相關(guān)分析模型作用的對(duì)象必須是可以捕捉的,因此其對(duì)于連續(xù)型數(shù)據(jù)的實(shí)用性較差,也無(wú)法解決連續(xù)性數(shù)據(jù)的空間模擬需求。
在GIS中,對(duì)于場(chǎng)類型的空間數(shù)據(jù),通常用半變異函數(shù)函數(shù)和協(xié)方差函數(shù)度量其空間自相關(guān)性。其實(shí)現(xiàn)方式是把統(tǒng)計(jì)相關(guān)系數(shù)的大小作為一個(gè)距離的函數(shù),通過距離和屬性的差異性度量其相關(guān)性。
半變異函數(shù)定義為:
S是不同位置上的數(shù)據(jù)點(diǎn),Z是所要研究數(shù)據(jù)點(diǎn)的屬性值。半變異函數(shù)解析圖:
如果兩個(gè)如果兩個(gè)位置 si 和 sj,彼此之間的距離?d(si, sj) 很小,那么這兩個(gè)位置會(huì)相似,同樣,在地理學(xué)第一定律的保證下,兩個(gè)位置上屬性的差值 Z(si) - Z(sj) 也會(huì)很小。當(dāng)d(si, sj) 逐漸增大時(shí),它們變得越來(lái)越不相似,它屬性值 Z(si) - Z(sj) 的差異也會(huì)增大。在下圖中可以看到這一情況,其中顯示了典型半變異函數(shù)解析圖。
塊金:代表區(qū)域化變量的隨機(jī)性大小。從理論上講,在零間距(步長(zhǎng)=0)處,區(qū)域化變量采樣點(diǎn)數(shù)值應(yīng)當(dāng)相等;而在間距無(wú)限趨于0時(shí),對(duì)應(yīng)的變異函數(shù)數(shù)值應(yīng)當(dāng)亦向0趨近。但是,在實(shí)際研究中,實(shí)驗(yàn)(經(jīng)驗(yàn))變異函數(shù)在間距為0時(shí),其取值并不為0,而是一個(gè)大于0的常數(shù)。這一數(shù)值便成為塊金常數(shù),其產(chǎn)生一般可以歸因與測(cè)量誤差,或者小于采樣間隔距離處的空間變化。
即當(dāng)兩個(gè)地理實(shí)體的距離趨于0時(shí),理論上他們之間的差異會(huì)趨于0。但是由于測(cè)量誤差與觀測(cè)尺度的影響,經(jīng)驗(yàn)變異函數(shù)的值并不會(huì)趨于0。
基臺(tái)值:用以衡量區(qū)域化變量變化幅度的大小。當(dāng)間距無(wú)限增大并達(dá)到某一程度以后,經(jīng)驗(yàn)變異函數(shù)如果趨于平穩(wěn),則此時(shí)平穩(wěn)水平對(duì)應(yīng)的數(shù)值稱為變程。然而,并不是所有的區(qū)域變量均具有基臺(tái)值,如無(wú)基臺(tái)模型對(duì)應(yīng)的變異函數(shù)。
即當(dāng)兩個(gè)地理實(shí)體之間的距離很大時(shí),它們之間也就不再空間相關(guān)性了,基臺(tái)值就是存在與不存在空間相關(guān)性的距離閾值。
變程:用以衡量區(qū)域化變量自相關(guān)范圍的大小。當(dāng)間距無(wú)限增大并達(dá)到某一程度以后,經(jīng)驗(yàn)變異函數(shù)如果趨于平穩(wěn),則此時(shí)對(duì)應(yīng)的距離即為變程。其中,小于變程的距離所對(duì)應(yīng)的樣本位置與空間自相關(guān),而大于變程的距離所對(duì)應(yīng)樣本位置不存在空間相關(guān)性。
經(jīng)驗(yàn)半變異函數(shù)
由于半變異函數(shù)和協(xié)方差函數(shù)是無(wú)法觀察到的理論量測(cè),因此可以使用經(jīng)驗(yàn)半變異函數(shù)和經(jīng)驗(yàn)協(xié)方差函數(shù)根據(jù)數(shù)據(jù)對(duì)它們進(jìn)行估計(jì)。通常,通過查看這兩個(gè)函數(shù)的估算方式可以對(duì)量測(cè)有所了解。假定采用了彼此之間的距離和方向都相似的所有數(shù)據(jù)對(duì),如下圖中通過藍(lán)線連接的數(shù)據(jù)對(duì)。
?對(duì)于彼此之間的距離和方向都相似的的所有位置對(duì) si 和 sj,計(jì)算:
在繪制經(jīng)驗(yàn)半變異函數(shù)時(shí),首先要將數(shù)據(jù)集內(nèi)的所有位置點(diǎn)按照某一距離組合成位置對(duì),比如:A、B兩點(diǎn)之間的距離為5m,A、C之間的距離為5m,B、C之間的距離也為5m,就可以生成3個(gè)位置對(duì)。所以如果數(shù)據(jù)集中存在n個(gè)點(diǎn),則半變異函數(shù)/協(xié)方差云中就會(huì)顯示n*(n-1)/2 個(gè)點(diǎn)。為此,不建議使用點(diǎn)數(shù)超過幾千個(gè)的數(shù)據(jù)集。如果數(shù)據(jù)集包含幾千個(gè)點(diǎn),我們可以通過子集工具來(lái)隨機(jī)選擇點(diǎn)并在半變異函數(shù)/協(xié)方差云中使用該子集。
半變異函數(shù)云長(zhǎng)這樣子:
?每個(gè)紅點(diǎn)顯示根據(jù)分隔兩個(gè)數(shù)據(jù)點(diǎn)的距離繪制的經(jīng)驗(yàn)半變異函數(shù)值(組成一對(duì)的兩個(gè)數(shù)據(jù)點(diǎn)的值的平方差)。
所以,Z(si)-Z(sj)是所有具有相同d(s,s)的位置對(duì)包含的數(shù)據(jù)點(diǎn)其研究屬性的差值,然后再求這些差值的var。
在上圖中,僅僅體現(xiàn)了在距離限制下的位置對(duì),通過搜索功能,還可以根據(jù)位置對(duì)的方向以及他們的距離來(lái)控制半變異函數(shù)的某個(gè)方向子集。
根據(jù)經(jīng)驗(yàn)半變異函數(shù)擬合模型
地統(tǒng)計(jì)向?qū)Э商峁┙?jīng)驗(yàn)半變異函數(shù)值的三種不同視圖。可以使用任意數(shù)量(一個(gè)、兩個(gè)或全部三個(gè))的視圖來(lái)幫助您根據(jù)數(shù)據(jù)擬合模型。默認(rèn)視圖顯示了已丟棄和已平均化的經(jīng)驗(yàn)半變異函數(shù)/協(xié)方差值。
已丟棄值顯示為紅色的點(diǎn),是通過使用寬為一個(gè)步長(zhǎng)的方形像元將經(jīng)驗(yàn)半變異函數(shù)/協(xié)方差點(diǎn)組合(分組)在一起后生成的。平均點(diǎn)顯示為藍(lán)色的十字符號(hào),是通過將處于圓周分區(qū)內(nèi)的經(jīng)驗(yàn)半變異函數(shù)/協(xié)方差點(diǎn)進(jìn)行分組后生成的。丟棄點(diǎn)顯示半變異函數(shù)/協(xié)方差值中的局部變化,而平均值顯示半變異函數(shù)/協(xié)方差值的平滑變化。在很多情況下,根據(jù)平均值擬合模型會(huì)更容易一些,因?yàn)樗鼈儗閿?shù)據(jù)中的空間自相關(guān)提供相對(duì)簡(jiǎn)潔的視圖,與丟棄點(diǎn)相比,平均值將顯示的半變異函數(shù)值的變化更為平滑。
顯示點(diǎn)控件可以設(shè)置為“已丟棄和已平均化”(如上圖所示)、“已丟棄”或“已平均化”(如下圖所示)。
此外,可通過顯示所有線選項(xiàng)將綠線添加到圖中。這些線是根據(jù)已丟棄的經(jīng)驗(yàn)半變異函數(shù)/協(xié)方差值進(jìn)行擬合的局部多項(xiàng)式。如果將顯示搜索方向選項(xiàng)設(shè)置為 True,則只會(huì)顯示根據(jù)“顯示搜索方向”工具的中軸樣帶中經(jīng)驗(yàn)半變異函數(shù)/協(xié)方差表面擬合的局部多項(xiàng)式,如下圖所示:
?
根據(jù)經(jīng)驗(yàn)數(shù)據(jù)擬合的半變異函數(shù)/協(xié)方差模型應(yīng)該:
- 穿過已丟棄值(紅色的點(diǎn))云的中心。
- 穿過盡可能接近平均值(藍(lán)色的十字符號(hào))的位置。
- 穿過盡可能接近線(綠色的線)的位置。
請(qǐng)記住,如果模型似乎沒有完全擬合經(jīng)驗(yàn)數(shù)據(jù),您對(duì)現(xiàn)象的認(rèn)識(shí)也可以決定模型的形狀和塊金以及變程值、偏基臺(tái)值和各向異性值(回想一下,經(jīng)驗(yàn)數(shù)據(jù)只是要構(gòu)建的真實(shí)現(xiàn)象模型的樣本,并不能完全代表真實(shí)現(xiàn)象的所有空間和統(tǒng)計(jì)方面)。
?
?
總結(jié)
- 上一篇: opencv 二值化图像 像素统计 co
- 下一篇: CentOS7.9 EDA软件,Cade