gis地理加权回归步骤_地理加权回归权重(History)
Jetbrains全系列IDE穩(wěn)定放心使用
內(nèi)容導(dǎo)讀
1)回歸概念介紹;
2)探索性回歸工具(解釋變量的選擇)使用;
3)廣義線性回歸工具(GLR)使用;
*加更:廣義線性回歸工具的補(bǔ)充內(nèi)容
4)地理加權(quán)回歸工具(GWR)使用+小結(jié)。
說明:本節(jié)是這個(gè)學(xué)習(xí)筆記最后一部分。
PART/
04
地理加權(quán)回歸工具(GWR)使用
上一節(jié)我們講了GLR廣義線性回歸,它是一種全局模型,可以構(gòu)造出最佳描述研究區(qū)域中整體數(shù)據(jù)關(guān)系的方程。如果這些關(guān)系在研究區(qū)域中是一致的,則 GLR 回歸方程可以對(duì)這些關(guān)系進(jìn)行很好的建模。不過,當(dāng)這些關(guān)系在研究區(qū)域的不同位置具有不同的表現(xiàn)形式時(shí),回歸方程在很大程度上為現(xiàn)有關(guān)系混合的平均值;如果這些關(guān)系表示兩個(gè)極值,那么全局平均值將不能為任何一個(gè)極值構(gòu)建出很好的模型。當(dāng)解釋變量表現(xiàn)出不穩(wěn)定的關(guān)系(例如人口變量可能是研究中某些地區(qū)911呼叫量的重要影響因子,但在其他地區(qū)可能是較弱的影響因子,這就是不平穩(wěn)的表現(xiàn))時(shí),全局模型通常會(huì)失效。
為了解決非穩(wěn)健的問題,提高模型的性能,可以使用將區(qū)域變化合并到回歸模型中的方法,也就是GWR(Geographically Weighted Regression)地理加權(quán)回歸的方法。
從數(shù)學(xué)角度上講,廣義線性回歸是將整個(gè)研究區(qū)域給定一個(gè)線性方程。地理加權(quán)回歸是給每一個(gè)要素一個(gè)獨(dú)立的線性方程。
在GWR中,每一個(gè)要素的方程都是由鄰近的要素計(jì)算得到的。(根據(jù)地理學(xué)第一定律,任何事物都是與其他事物相關(guān)的,只不過相近的事物關(guān)聯(lián)更緊密,鄰近要素對(duì)要求解的要素影響更大)
所以每一個(gè)要素的方程系數(shù)都有所不同。
GWR實(shí)現(xiàn)原理
從公式中可以總結(jié)出,雖然GLR方法與GWR方法有些不同,也就是系數(shù)不同,但是其因變量與解釋變量是不變的,所以通常在做GWR之前,我們可以先使用GLR或者是探索性回歸工具找到解釋變量,并分析GLR模型的精度,再使用GWR工具提高模型的精度。
那在GWR工具中,究竟需要哪些參數(shù)呢?這些參數(shù)具體又代表什么呢?
我們?nèi)砸設(shè)bsData911Calls-不同區(qū)域911電話呼叫數(shù)為例。
GWR工具
來看一下工具的參數(shù):
輸入要素:ObsData911Calls面要素
因變量:這里我們選擇要解釋的變量,也就是Y值為calls,911電話呼叫次數(shù)
模型類型:高斯、邏輯以及泊松模型。與GLR工具的模型分類是一致的,這里不再贅述。
PS:這里我們演示的仍然使用的是連續(xù)數(shù)據(jù)的高斯模型。
針對(duì)不同類型的數(shù)據(jù)可以選擇不同的模型。
例如我們預(yù)測(cè)海岸線周邊是否有海草棲息。是否有海草不是連續(xù)數(shù)據(jù),只可能是觀察到或者沒有觀察到。也就是0 和1的問題。就可以使用邏輯模型。
再比如我們想解釋某地的死亡人數(shù)。這是離散的數(shù)據(jù),就可以選擇泊松模型了。
解釋變量:仍然選擇Pop, Jobs, LowEduc, Dst2UrbCen
設(shè)置輸出要素名稱GWRData911Calls
鄰域也叫做帶寬。表示每個(gè)局部回歸方程的距離范圍或相鄰要素?cái)?shù),可以控制模型的平滑程度。下圖表示使用不同的帶寬得到的模型,可以發(fā)現(xiàn)帶寬不同其模型的平滑程度不同。它是地理加權(quán)回歸要考慮的最重要的參數(shù)
帶寬對(duì)模型平滑程度的影響
在GWR中與鄰域有關(guān)的參數(shù)有兩個(gè),一個(gè)是鄰域類型,一個(gè)是鄰域選擇方法。
鄰域類型可以選擇相鄰要素?cái)?shù)或距離范圍。
如果選擇相鄰要素?cái)?shù),也就說每個(gè)要素在解算線性方程時(shí),參與每一個(gè)目標(biāo)要素運(yùn)算的鄰近要素?cái)?shù)相同。
這里我們以兩個(gè)高亮顯示的要素為例。不同要素選擇相同的鄰近要素?cái)?shù)(要素?cái)?shù)究竟是多少是根據(jù)鄰域選擇方法來確定的)
相鄰要素?cái)?shù)
如果選擇距離范圍,也就說每個(gè)要素在解算線性方程時(shí),每個(gè)要素的鄰域大小將保持不變 。(距離遠(yuǎn)近是根據(jù)鄰域選擇方法來確定的)
相同距離
本例中我們選擇相鄰要素?cái)?shù)。
鄰域選擇方法參數(shù)可指定鄰域大小的確定方式(所使用的實(shí)際距離或相鄰要素?cái)?shù))。有三個(gè)選項(xiàng)黃金搜索、手動(dòng)間隔以及用戶定義。當(dāng)你選擇了這當(dāng)中的某一個(gè)選項(xiàng),將會(huì)在工具里新增幾個(gè)參數(shù),參數(shù)會(huì)根據(jù)這是哪個(gè)選項(xiàng)而不同。
黃金搜索和手動(dòng)間隔都以AIC值為基礎(chǔ),自動(dòng)找到最優(yōu)的實(shí)際距離或相鄰要素?cái)?shù)。(類似于我們使用探索性回歸查找解釋變量的方法)
用戶定義選項(xiàng)設(shè)置特定的鄰域距離或相鄰要素?cái)?shù)
這里我們選擇黃金搜索,最小搜索距離和最大搜索距離參數(shù)不填。
預(yù)測(cè)選項(xiàng):GWR模型用來估計(jì)和建模變量之間的線性關(guān)系然后用這個(gè)模型來產(chǎn)生預(yù)測(cè),本練習(xí)中我們只探究變量之間的線性關(guān)系,不做預(yù)測(cè)。
再來看其他選項(xiàng)中的局部權(quán)重方案和系數(shù)柵格工作空間。
局部權(quán)重方案也就是GWR工具通過什么方法來確定鄰近要素的距離權(quán)重,這里使用了核函數(shù)來確定,核是距離衰減函數(shù)。包括高斯和雙平方這兩種核函數(shù)選項(xiàng)。簡(jiǎn)單來說二者區(qū)別在于雙平方衰減的更快,默認(rèn)選擇雙平方。(注意這里的高斯是高斯核函數(shù),與我們選擇的高斯模型不同)
系數(shù)柵格工作空間是指為模型截距和每個(gè)解釋變量創(chuàng)建系數(shù)柵格表面。這樣會(huì)生成多個(gè)柵格,用于展示各系數(shù)在不同要素上的分布強(qiáng)弱情況。這里選擇默認(rèn)的數(shù)據(jù)庫為工作空間。
PS:ArcGIS Pro對(duì)GWR工作做了更新,與ArcMap中的工具參數(shù)有所不同。ArcMap中只提供了高斯核函數(shù)算法來設(shè)置局部權(quán)重。ArcGIS Pro能夠涵蓋ArcMap中功能。例如ArcMap中將核類型參數(shù)設(shè)置為 FIXED,帶寬方法參數(shù)設(shè)置為 BANDWIDTH_PARAMETER 時(shí),對(duì)應(yīng)ArcGIS Pro中的鄰域類型選擇距離范圍,鄰域選擇方法為用戶定義的功能。
運(yùn)行工具
地圖視圖結(jié)果展示
地圖視圖中增加了GWRData911Calls圖層。并使用標(biāo)準(zhǔn)殘差來進(jìn)行渲染。
內(nèi)容列表中的GWRData911Calls圖層
同時(shí)增加了3個(gè)圖表。圖表與結(jié)果是相互印證的,因此在這里我們主要分析GWRData911Calls圖層的內(nèi)容以及結(jié)果運(yùn)行出來之后的詳細(xì)信息。
還增加了以INTERCEPT(截距)\POP\Jobs\Loweduc\Dst2Urben系數(shù)為渲染條件的柵格專題圖。
我們來逐個(gè)看一下。
先來看一下GWRData911Calls圖層屬性。
GWRData911Calls圖層屬性
與原始的ObsData911Calls相比較,保留了全部要素的Calls、Pop, Jobs, LowEduc, Dst2UrbCen也就是因變量和解釋變量,
新增字段
增加了截距、截距的標(biāo)準(zhǔn)誤差、每個(gè)解釋變量的系數(shù)和標(biāo)準(zhǔn)誤差、預(yù)測(cè)、殘差、標(biāo)準(zhǔn)殘差、條件數(shù)、影響、Cook 距離、局部 R 平方和鄰域數(shù)這些字段。
細(xì)心的同學(xué)會(huì)發(fā)現(xiàn)Intercept、Std. Error以及Coefficient這系列字段在GLR中都是一個(gè)數(shù)字,出現(xiàn)在結(jié)果中的。在GWR中我們也講過了每個(gè)要素都會(huì)構(gòu)建一個(gè)方程,所以每個(gè)要素都會(huì)有Intercept、Std. Error以及Coefficient這系列屬性。也充分說明了GWR是一個(gè)局部的線性回歸方程。
再來看地圖視圖,它表示標(biāo)準(zhǔn)殘差的分布情況,標(biāo)準(zhǔn)殘差是殘差除以標(biāo)準(zhǔn)差之后得到的數(shù)據(jù),也就是說標(biāo)準(zhǔn)殘差與殘差是線性相關(guān)的。標(biāo)準(zhǔn)殘差不能大于2.5或者小于-2.5,如果出現(xiàn)這種情況,表示這些區(qū)域的預(yù)測(cè)可能不可靠。
另外標(biāo)準(zhǔn)殘差需要保證呈現(xiàn)隨機(jī)的空間模式,這一點(diǎn)我們可以通過運(yùn)行空間自相關(guān)工具來驗(yàn)證。
接下來是本節(jié)的重點(diǎn)了,如何看GWR結(jié)果指標(biāo)
在歷史工具中找到GWR工具,查看詳細(xì)信息中的消息。
運(yùn)行結(jié)果詳細(xì)信息
結(jié)果包括黃金搜索結(jié)果,分析詳細(xì)信息以及模型診斷三部分。
鄰域類型這里我們?cè)O(shè)置的相鄰要素?cái)?shù)據(jù),所以黃金搜索結(jié)果顯示的是最佳要素?cái)?shù)量,最后找到的最低值是56。黃色字體表示使用黃金搜索結(jié)果并沒有找到最低AICc,也就是說黃金搜索結(jié)果中的相鄰要素?cái)?shù)據(jù)不是最優(yōu)解。(這里明顯可以看出相鄰要素?cái)?shù)為55時(shí),AIC值更低,如果在選擇鄰域選項(xiàng)中選擇用戶指定數(shù)量為55時(shí),結(jié)果如下圖)
相鄰要素?cái)?shù)量為55時(shí),模型擬合度更高
分析詳細(xì)信息這里顯示了模型中的要素?cái)?shù)據(jù)、因變量、解釋變量、相鄰要素?cái)?shù)目。
模型診斷部分內(nèi)容就比較少了,包括了R方和校正R方,AIC、σ2、Sigma-Squared MLE和有效自由度這五項(xiàng)。
重點(diǎn)看校正R方和AIC。校正R方可以理解為是Local R方的均值。通過這個(gè)值我們會(huì)發(fā)現(xiàn)與GLR工具相比,GWR工具的擬合程度更高。再比較AIC,兩者相差大于3,說明GWR模型更好一些。(GLR的值是683,GWR的值是675)
當(dāng)然這里如果使用不同的參數(shù)將會(huì)得到不同的模型精度。比如鄰域范圍參數(shù)這里選擇了距離范圍,鄰域選擇方法設(shè)置為黃金搜索,也就是按照最佳距離進(jìn)行搜索,得出的模型精度在85.15%。
設(shè)置距離范圍運(yùn)行GWR工具
整個(gè)模型的結(jié)果解釋完了,與GLR模型一樣,仍然需要驗(yàn)證一下殘差是否是隨機(jī)分布。
使用空間自相關(guān)工具,評(píng)估所表達(dá)的模式是聚類模式、離散模式還是隨機(jī)模式。
空間自相關(guān)工具
輸入要素類為GWR
輸入字段為標(biāo)準(zhǔn)化殘差
可以選擇將結(jié)果生成報(bào)表,也可以在運(yùn)行結(jié)果中直接查看
空間關(guān)系的概念化選擇反距離。
其他參數(shù)默認(rèn)
查看其運(yùn)行結(jié)果為隨機(jī)模式,也就得出殘差隨機(jī)分布,使用GWR方法是合理的結(jié)論。
空間自相關(guān)報(bào)表
PS:GWR中加入了地理權(quán)重,這個(gè)與GLR中的解釋距離要素是不同的,解釋距離要素是所有要素與給定要素之間的距離,它是一個(gè)距離單位的變量,例如距離市中心5公里,地理權(quán)重則是一個(gè)沒有單位的比值,表示其重要程度,例如權(quán)重為0.88。
使用工具實(shí)現(xiàn)回歸分析不是我們的最終目的,更多時(shí)候我們是想通過這個(gè)模型進(jìn)行預(yù)測(cè)或者是說明問題,或者說除了得出模型合理的結(jié)論之外,結(jié)果該如何解讀呢?
以本例的GWR工具為例。我們將工具運(yùn)行之后得到的系數(shù)柵格圖重新進(jìn)行顏色渲染。(使用
配色方案,從綠到黃表示系數(shù)從高到低)分別得到以下幾張圖。
POP系數(shù)柵格圖 JOBS系數(shù)柵格圖
LowEduc系數(shù)柵格圖 Dst2UrbCen系數(shù)柵格圖
全區(qū)撥打911電話的數(shù)量受人口、就業(yè)人數(shù)、低教育程度人數(shù)以及距離市中心的程度影響。
其中低教育程度人數(shù)的影響程度最高。
從圖上可以看出人口對(duì)911電話數(shù)量的影響呈現(xiàn)中北部向外輻射的情況,越靠近東西部人口對(duì)電話數(shù)量的影響越小。
就業(yè)人數(shù)對(duì)911電話數(shù)量的影響呈現(xiàn)南高北低的情況,越靠近北部就業(yè)人數(shù)對(duì)電話數(shù)量的影響越小。
低教育程度人數(shù)對(duì)911電話數(shù)量的影響呈現(xiàn)西高東低的情況,越靠近東部就業(yè)人數(shù)對(duì)電話數(shù)量的影響越小。
距離市中心的遠(yuǎn)近程度對(duì)911電話數(shù)量的影響呈現(xiàn)西高東低的情況,越靠近東部距離市中心對(duì)電話數(shù)量的影響越小。
為什么會(huì)出現(xiàn)上述的分布情況呢?這就需要我們從當(dāng)前研究區(qū)域的經(jīng)濟(jì)、地理、政策、歷史沿革等多角度去解釋說明了。(探索模型系數(shù)的重要程度和分布情況,這一步其實(shí)是比較重要的,這個(gè)例子能夠拿到的分析依據(jù)不多,類似的解釋建議大家觀看蝦神說D盧老師的https://www.bilibili.com/video/BV1nM4y157dX?p=4 對(duì)山東省財(cái)政收入的解讀)
(歡迎關(guān)注史上最不著調(diào)空間統(tǒng)計(jì)科普小能手蝦神的公眾號(hào),收看大長(zhǎng)篇“白話空間統(tǒng)計(jì)”)
以上我們就完成了ArcGIS Pro中線性回歸分析工具的介紹。除了常用了OLS、GLR、GWR這三個(gè)工具之外。ArcGIS還提供了使用機(jī)器學(xué)習(xí)技術(shù)的基于森林的分類與回歸工具,同樣也能夠?qū)崿F(xiàn)基于地理加權(quán)的空間回歸,但是這個(gè)回歸不是線性的(后續(xù)有時(shí)間我們將補(bǔ)充這個(gè)工具的介紹)而且這個(gè)工具不需要事先確定解釋變量,也不用擔(dān)心出現(xiàn)冗余變量。GWR與基于森林的分類與回歸工具算法不同,但是不能說哪個(gè)工具就更加的優(yōu)秀, 一般來說如果拿到了實(shí)驗(yàn)要求,我們更建議大家使用兩個(gè)工具都運(yùn)行一下,看哪個(gè)工具更合理,模型精度更高。甚至你還可以先使用局部二元關(guān)系工具確定兩個(gè)變量間(因變量與某個(gè)解釋變量)屬于哪種關(guān)系,例如不具有顯著性、正線性、負(fù)線性、凹函數(shù)、凸函數(shù)以及未定義這幾類,再?zèng)Q定使用哪種回歸模型。
PART/
05
小結(jié)
關(guān)于ArcGIS Pro中的回歸分析就全部介紹完了。我們來總結(jié)一下
一般我們拿到研究課題以及研究數(shù)據(jù)之后,如果發(fā)現(xiàn)其中的屬性或者變量之間有一定的聯(lián)系,或者需要對(duì)這些數(shù)據(jù)的變量進(jìn)行建模和預(yù)測(cè),就可以考慮使用ArcGIS Pro中的回歸分析工具。
ArcGIS Pro提供了OLS、GLR、GWR以及基于隨機(jī)森林的分類與回歸工具。這些工具都位于空間統(tǒng)計(jì)工具箱中的空間關(guān)系建模工具集中。
ArcGIS Pro中的回歸工具
在傳統(tǒng)的線性回歸中,我們?yōu)榱四P偷臏?zhǔn)確性,可以先確定解釋變量。ArcGIS Pro提供探索性回歸工具來選擇解釋變量。
在選擇了解釋變量之后,可以先運(yùn)行GLR工具(如果GLR中選擇了高斯模型,就是OLS工具),再對(duì)其結(jié)果進(jìn)行解釋。同時(shí)確保殘差的隨機(jī)性(運(yùn)行空間自相關(guān)工具)
GLR的結(jié)果中如果一定指標(biāo)建議使用GWR工具,我們可以繼續(xù)運(yùn)行GWR工具,根據(jù)結(jié)果比較GLR與GWR模型的精確程度。同時(shí)確保殘差的隨機(jī)性。
最后,不要忘了挖掘并解釋模型合理性的原因。
如有問題,歡迎留言討論。
參考資料:
EsriRegressionAnalysisTutorial_ArcGIS10.pdf
ArcGIS Pro 中的回歸和分類
https://learn.arcgis.com/zh-cn/paths/regression-and-classification-in-arcgis-pro/
https://spatialstats-analysis-1.hub.arcgis.com/
ArcGIS Pro高級(jí)培訓(xùn)(3)空間數(shù)據(jù)科學(xué)與空間統(tǒng)計(jì)學(xué)
https://www.bilibili.com/video/BV1nM4y157dX?p=4
白話空間統(tǒng)計(jì)之地理加權(quán)回歸
https://blog.csdn.net/allenlu2008/article/details/59480437
ArcGIS 規(guī)劃應(yīng)用之空間回歸分析
https://space.bilibili.com/307935671?spm_id_from=333.788.b_765f7570696e666f.2
總結(jié)
以上是生活随笔為你收集整理的gis地理加权回归步骤_地理加权回归权重(History)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: id随机选择另一张表格的 sql_表格问
- 下一篇: oracle sequrnce_Orac