GIS应用实例--模型预测、多元回归、空间自相关分析
免費數據和原報告詳見個人主頁
中國地質大學(武漢)地理信息系統原理課程報告_項目(免費)-行業報告文檔類資源-CSDN文庫https://download.csdn.net/download/qq_58010729/85076121
所有數據均來源于國家統計局等其他公開網站,僅供研究使用。
?目錄
一、研究方法
1.1移動平滑法
1.2多元回歸分析
1.3最小二乘法回歸
1.4 地理加權回歸分析
1.5 Moran指數分析
二、數據處理
2.1 數據參數設計
2.2 空間自相關
2.3 疫情及其經濟損失的影響因素分析(OLS+GWR)
2.4 疫情及其對各省經濟發展的總體影響
三、結論
一、研究方法
1.1移動平滑法
移動平均法是根據時間序列資料逐漸推移,依次計算包含一定項數的時序平均數, 以反映長期趨勢的方法。當時間序列的數值由于受周期變動和不規則變動的影響,起伏較大,不易顯示出發展趨勢時,可用移動平均法,消除這些因素的影響,分析、預測序列的長期趨勢。移動平均法有簡單移動平均法,加權移動平均法,趨勢移動平均法等。
簡單移動平均法的簡述:設有觀測序列y1,y2,y3,?,yT,取移動平均的項數N<T。一次簡單移動平均值計算公式為:
當預測目標的基本趨勢是在某一水平上下波動時,可用一次簡單移動平均方法建立預測模型:
其預測標準誤差為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
近N期序列值的平均值作為未來各期的預測結果。一般 N 的取值范圍:5≤N?≤200。當歷史序列的基本趨勢變化不大且序列中隨機變動成分較多時,N的取值應較大一些。否則N的取值應小一些。在有確定的季節變動周期的資料中,移動平均的項數應取周期長度。選擇佳 N 值的一個有效方法是,比較若干模型的預測誤差。預測標準誤差小者為好。
簡單移動平均法只適合做近期預測,而且是預測目標的發展趨勢變化不大的情況。如果目標的發展趨勢存在其它的變化,采用簡單移動平均法就會產生較大的預測偏差和滯后。即當時間序列出現直線增加或減少的變動趨勢時,用簡單移動平均法來預測就會有滯后偏差。因此,需要進行修正,修正的方法就是作二次移動平均,利用移動平均滯后偏差的規律來建立直線趨勢的預測模型。這就是趨勢移動平均法。
? ? ? ? ? ? ? ??
在一次移動平均的基礎上再進行一次移動平均就是二次移動平均,其計算公式為:
設時間序列{yt}從某時期開始具有直線趨勢,且認為未來時期也按此直線趨勢變化,則可設此直線趨勢預測模型為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其中,t為當前時期數;T為由t至預測期的時期數;at為截距;bt為斜率。兩者又稱為平滑系數。但在后面實踐中發現,從各年的預測來看,效果不太行,所以后來考慮了雙指數平滑法。
一次指數平滑可以克服移動平均法的缺點。但又平滑法進行預測,仍存在明顯的滯后偏差。因此,也需要雙指數平滑來彌補。公式為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
在單指數平滑法基礎上增加趨勢信息,第二個等式描述趨勢平滑過程,趨勢的未平滑值使當前時刻平滑值si減去前一時刻平滑值si-1,再引入參數β對趨勢進行一次指數平滑處理。
表 2-1:平滑預測比較(以北京市GDP為例)(單位:億元)
| 年份 | 真實GDP | 一次平滑 | 二次平滑 | 雙指數平滑 |
| 2001 | 3861.5 | 3861.5 | ||
| 2002 | 4525.7 | 5189.9 | ||
| 2003 | 5267.2 | 5904.345 | ||
| 2004 | 6252.5 | 6806.441 | ||
| 2005 | 7149.8 | 7757.643 | ||
| 2006 | 8387.0 | 5907.283 | 8946.247 | |
| 2007 | 10425.5 | 7001.283 | 10781.69 | |
| 2008 | 11813.1 | 8215.85 | 12547.92 | |
| 2009 | 12900.9 | 9488.133 | 14027.88 | |
| 2010 | 14964.0 | 10940.05 | 15939.83 | |
| 2011 | 17188.8 | 12613.22 | 18195.55 | |
| 2012 | 19024.7 | 14386.17 | 10440.78 | 20365.73 |
| 2013 | 21134.6 | 16171.02 | 11969.07 | 22621.1 |
| 2014 | 22922.6 | 18023.17 | 13603.63 | 24690.22 |
| 2015 | 24779.1 | 20002.87 | 15356.08 | 26664.67 |
| 2016 | 27041.2 | 22015.73 | 17202.03 | 28839.42 |
| 2017 | 29883.0 | 24131.43 | 19121.73 | 31504.23 |
| 2018 | 33106.0 | 26478.32 | 21137.09 | 34688.4 |
| 2019 | 35445.1 | 28863.4 | 23252.49 | 37563.54 |
| 2020 | 36102.6 | 36718.679 | 40060.33 |
這里雙指數平滑的指數取0.5,0.3。結果顯然比兩次平均平滑法的效果好。
不同指數下的雙指數平滑法1.2多元回歸分析
用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關系,稱為多元回歸分析(multiple linear regression),簡稱多元回歸(multiple regression)。
多元回歸分析是多變量分析的基礎,也是理解監督類分析方法的入口!實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用于實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!
回歸分析的基本思想是:雖然自變量和因變量之間沒有嚴格的、確定性的函數關系,但可以設法找出最能代表它們之間關系的數學表達形式。其模型基本表達式為:
? ? ? ? ??
樣本表達:
? ? ? ? ? ? ? ? ? ? ? ??
矩陣表達:
? ? ? ? ? ? ? ? ? ? ? ?? ? ?
1.3最小二乘法回歸
在所有的回歸方法中,最小二乘法回歸(OLS)最為著名。而且它也是所有空間回歸分析的正確起點。它可以嘗試了解或預測的變量或過程提供一個全局模型并可創建一個回歸方程來表示該過程。
最小二乘法的主要思想是通過確定未知參數(通常是一個參數矩陣),來使得真實值和預測值的誤差(也稱殘差)平方和最小,其計算公式為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
其中yi是真實值。如下圖所示,就是最小二乘法的一個示例,其中紅色為數據點,藍色為最小二乘法求得的最佳解,綠色即為誤差。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
1.4 地理加權回歸分析
空間數據在地理學、經濟學、環境學、生態學以及氣象學等眾多領域中廣泛存在。根據Tobler提出的「地理學第一定律」︰任何事物之間都是空間相關的,距離越近的事物之間的何怕大)士R2大。因此,不同于傳統的截面數據,空間數據的空間相關性會導致回歸關系的空間非平棕性(空同異質性)。為了探索空間數據的空間非平穩性,Brunsdon等(1996)首次提出了地理加權回歸模型,設定如下:
其中,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
為空間地理位置函數。
?根據Tobler地理學第一定律,距離越近的事物之間的相關性越大。故對于一個給定的地理位置
,可以采用局部加權最小二乘法來估計,即
?其中,是在地理位置處的空間權重。令
?
則在處的局部最小二乘估計值為
?其中:
? ?由于地理加權回歸模型中的回歸參數在每個數據采樣點上都是不同的,因此其未知參數的個數為n×(P+1),遠遠大于觀測個數n,這樣就不能直接利用參數回歸估計方法估計其中的未知參數,而一些非參數光滑方法為擬合該模型提供了一個可行的思路。Foste & Gorr (1986)和Gorr & 0lligsehiaeger ( 1994)利用廣義阻尼負反饋(generalized damped negative feedback)方法估計未知參數在各地理位置的值,這種估計方法只是在很直觀的意義上考慮數據的空間結構,加之估計方法較為復雜,很難對估計量作深入的統計推斷方面的研究。Brunsdon 等(1996)在局部多項式光滑思想上提出了偏差和方差折衷(Bias-Variance Trade-off)的解題思路:假設回歸參數為一連續表面,位置相鄰的回歸參數非常相似在估計采樣點i的回歸參數時,以采樣點i及其鄰域采樣點上的觀測值構成局域子樣,建立全局線性回歸模型,然后采用最小二乘方法得到回歸參數估計Bx(k=0.1,2,…,p)。對于另一個采樣點,i+1采用另一個相應的局域子樣來估計,以此類推。由于在回歸分析過程中,以其它采樣點上的觀測值來估計i點上的回歸參數因此得到的i點上的參數估計不可避免存在偏差,即參數估計為有偏估計。顯然參與回歸估計的子樣規模越大,參數估計的偏差就越大,參與回歸估計的子樣規模越小,參數估計的偏差就越小。從降低偏差這一角度考慮因盡量減少子樣規模,但子樣規模的減少必然導致回歸參數估計值的方差增加,精度降低。
1.5 Moran指數分析
莫蘭指數分為全局莫蘭指數(Global Moran's I)和局部莫蘭指數(Local Moran's I),前者是Patrick Alfred Pierce Moran開發的空間自相關的度量;后者是美國亞利桑那州立大學地理與規劃學院院長 Luc Anselin 教授在1995年提出的。
莫蘭指數是一個有理數,經過方差歸一化之后,它的值會被歸一化到 -1.0 與 +1.0 之間。Moran's I大于0時,表示數據呈現空間正相關,其值越大空間相關性越明顯;Moran's I小于0時,表示數據呈現空間負相關,其值越小空間差異越大;Moran's I為0時,空間呈隨機性。
其定義如下:
通常情況,先做一個地區的全局I指數,全局指數只是告訴我們空間是否出現了集聚或異常值,但并沒有告訴我們在哪里出現。換句話說全局Moran'I只回答Yes還是NO;如果全局有自相關出現,接著做局部自相關;局部Moran'I會告訴我們哪里出現了異常值或者哪里出現了集聚,是一個回答Where的工具。
二、數據處理
2.1 數據參數設計
? ? ? ??
2.2 空間自相關
根據地理學第一定律,空間上的事物都是有相關性的,離得越近相關性越強 ;離得越遠相關性越弱。測試空間上某點的觀測值是否與相鄰點的值存在相關性,就是空間自相關的含義??臻g自相關可以從定性和定量兩個方面理解?,F有多種指數可以量化空間自相關,最主要的兩種指數為 Moran’I 指數和 Geary’C 指數,本次研究主要聚焦于Moran’I 指數。
空間自相關包括全局和局部兩個層面。全局空間自相關是對屬性值在整個區域的空間特征描述,局部空間自相關反映區域經濟空間差異的變化趨勢。空間自相關的結果會直接給出該數據的分布特征,即聚集、分散還是隨機。
(1)全局空間自相關
全局空間自相關是在整個研究范圍內分析指定的屬性是否具有自相關性。根據整體分布狀況判斷某現象在空間是否有聚集特性存在,但不能確切地指出聚集在哪些地區以全局空間自相關的 Global Moran’I 為例,經過方差歸一化之后,I 值在 [-1,1] 之間 :若 I 值 >0,表示數據呈空間正相關性,在空間上呈現聚集狀態,具體表現為高值與高值聚集,低值與低值聚集。此時,I值越大,空間相關性越明顯。若 I 值 <0,表示數據呈空間負相關性,在空間上呈現分散狀態,具體表現為高值排斥其他高值,傾向于靠近低值,或低值排斥其他低值,傾向于靠近高值。若 I 值 =0,表示數據呈隨機狀態,在空間上沒有明顯的分布規律,空間相關性不明顯。另外,該工具還給出 z 得分和 p 值,對 I 值的顯著性進行評估。Global Moran’I 公式如下 :
在本次研究中,n 表示省級行政區個數,w(i,j)表示 n×n 的空間權重矩陣(可用鄰接性或空間距離閾值構造,w(i,j)?的值為 0 或 1),xi?表示某省的GDP 觀測值。
以 I 值判斷全國GDP 整體的空間自相關性 :若I 值顯著為正,表明人GDP 較高(或較低)的地市在空間上集聚,I 值越接近 1,總體空間差異越小 ;若 I 值顯著為負,表明GDP 較高的地市較分散, GDP較高的地市附近普遍是GDP 較低的地市,I 值越接近 -1,總體空間差異越大 ;若 I 值接近 0,表明GDP 在空間上隨機分布,沒有明顯規律。
(2)局部空間自相關
局域空間自相關主要研究每個區域與其周邊地區之間的關聯性,分析空間分布的異質性。本論述采用 Local Moran's I,Moran 散點圖描述的是變量與其空間滯后(即該觀測值周圍鄰居的加權平均)向量之間的相關關系。橫坐標為各單元標準化處理后的屬性值,縱坐標為其空間連接矩陣所決定相鄰單元的屬性值的平均值。其分為四個象限,第一象限代表高觀測值區域被同是高值的區域所包圍(HH);第二象限代表低值被高值包圍(LH);第三象限代表低值被低值包圍(LL);第四象限代表高值被低值包圍(HL)。位于一三象限的空間單元存在較強的空間正相關,表示區域的集聚性和相似性;位于二四象限的空間單元存在較強的空間負相關,反應區域的異質性。Local Moran’I公式如下:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
其中,
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
為空間權重值,n為研究區域上所有地區的總數,Ii則代表地i個地區的Local Moran’I指數,其中各項式子及其含義以表格方式呈現如下:
Local Moran’I指數各項式子及其含義本次研究聚焦于2016-2020年間各個省份地區(不包括海南、香港、澳門、臺灣等省份或特別行政區,下同)的GDP增長率及GDP總量 Global Moran’ I指數和Local Moran’ I指數,探究我國GDP分布及GDP增長的空間自相關性的程度。
3.3.1 GDP增長率
利用空間統計分析軟件GeoDA分別計算了中國2016~2020這五年的全國各個省份GDP Global Moran’ I指數,并繪制出各年度的變化趨勢圖,結果見圖1所示。
從表可以看出,計算出來的I值均大于0,且2016-2019年間的指數值大約都在0.1附近,說明這4年間,全國各省級行政區的GDP在整體上呈現一定程度的聚集狀態,即GDP增長較高(或較低)的省份,其周邊的省份GDP增長也較高(或較低)。這一現象十分正常,因為各個省份的經濟發展模式、主體經濟行業都各不相同,且其經濟模式一定程度上受到地理空間條件的制約,因此會在地理空間上呈現一定聚集狀態。但2020年,全國GDP增長率Global Moran’ I指數驟降到0.023左右,已經接近于0,說明該年份的GDP增長率幾乎均勻分布,無明顯的空間自相關性??紤]2020年是由于新冠疫情的影響,全國經濟遭受重創,經濟增長遲緩,但同時,由于國家疫情防控到位,及時采取相關措施控制疫情流行,2020年新冠疫情沒有大規模擴散,收到嚴重影響的只有湖北省,這一點從2020年全國各省份Global Moran’ I指數統計圖(如圖3-2)也可以直觀地看出,各省份除湖北省外在統計圖上的位置均較為集中。
2020年全國各省份Global Moran’ I指數統計圖具體到局部的Moran’ I指數,五年間的全國各個省份GDP局部聚集圖如所示
五年間的全國各個省份GDP局部聚集圖其中紅色省份地區為“高-高”區域,即該地區的GDP增長率高,且周邊地區的GDP增長率也高。
2.3 疫情及其經濟損失的影響因素分析(OLS+GWR)
本節我們會分別通過最小二乘法回歸(OLS)和地理加權回歸(GWR)對8-10個變量進行分析,因變量統一為2019-2020GDP增長率相較于2018-2019GDP增長率的相對變化率。
OLS部分:
為了尋找哪些因素會在疫情背景下影響GDP,選取了以下十個作為自變量進行最小二乘法回歸擬合(OLS):
1.最小二乘法回歸標準殘差分布:
可以看出,除了廣東省之外,整體的標準殘差維持在了一個較小的區間范圍內(尤其是中西部地區),湖北由于疫情較為嚴重,所以在圖中處于一個較為特殊的值(周圍較均明顯低于其)。這保證了后續的分析具有一定的可靠性。
2.整體結果概覽:
OLS結果匯總-模型變量除了相對疫情指數外,其余幾個指標的概率[b]均過高,顯示出結果可靠性欠佳。
七個字段的說明及意義如下:
(1)系數[a]
??? 回歸分析的系數代表了每個自變量對因變量的貢獻度,系數的絕對值越大,表示該變量在模型里面貢獻越大,也表示了該自變量與因變量的關系越緊密。
??? 另外這些系數的值表明了自變量與因變量的關系,比如S(總出口)的系數為0.58,則表示當總出口每增加一個單位,在其他自變量的值不發生改變的時候,因變量財政收入會增加0.58個單位。
??? 而且這個系數也表示了自變量與因變量之間的關系類型,即它分為正向和負向,系數為正,表示正相關,系數為負,表示負相關。不管是正向大還是負向大,越大,表示與因變量的關系強度越大,只不過是正相關還是負相關的問題。該參數是整個回歸模型里面最重要的參數,沒有之一。
(2)回歸系數的標準差
??? 回歸的標準誤是模型中隨機擾動項(誤差項)的標準差的估計值。它的平方誤差項的方差的無偏估計量,實際上又叫做誤差均方,等于殘差的平方和/(樣本容量-待估參數的個數)。這個值越小,表示模型的預測越準。
(3)t統計量
??? 在統計學里面,t統計量是假設檢驗的重要樞軸量,多用于兩樣本均值檢驗,回歸模型系數顯著性檢驗。
T-Statistic=平均值 / 標準誤
一般來來說,這個值表示,與P-value意義差不多,都是在驗證零假設的情況下,模型的顯著性,但是有些時候P-value會有一些問題,比如丟失一些信息。計算機里面進行統計驗證的時候,T統計量越大,表示越顯著。
(4)、概率[b]:
??? 這個就是P值,用來表示系數是否具有統計學上的顯著性,越小則顯著性越高。
(5)、(6)、(7):Robust_SE Robust_t Robust_Pr [b]這三個字段,分別表示了標準差的健壯度、T統計量的健壯度和概率的健壯度。
在統計學里面,Robust Test通常被翻譯穩健性檢驗,一般來說,就是通過修改(增添或者刪除)變量值,看所關注解釋變量的回歸系數和結果是否穩健。
3.標準殘差圖:
標準殘差的分布近似符合正態分布,說明擬合模型效果尚可。
4.變量分布和關系:
這里會根據每組變量,形成一個自變量的分布柱狀圖(第一排)以及自變量和因變量組成的散點和回歸圖(第二排)。
首先要注意的是,OLS對自變量的分布是不是正態的,并不關心,但是如果Jarque-Bera統計量的P值指示,結果出現了偏差(也就是說殘差的分布不平衡),那么說明自變量的分布,可能影響到了回歸模型,所以這種情況下,我們可以嘗試對某些偏差嚴重的自變量進行一些變換,然后重新建模驗證(比如進行Log變換等)。
理論上,進行回歸分析,每個自變量應該都要與因變量有相關性,如果某組出現了非線性,則表示此自變量無法對因變量進行解釋,要么剔除掉,要么需要進行變換。
圖 3-7:殘差與預測圖
從理論上來說,預測值和殘差值應該沒有任何的相關性,因為任何預測和殘差的情況的產生都是隨機的,這樣才是最優,如果出現了相關性,就表示某些殘差的出現是有規律的,這樣就表示模型出現了偏差。
可以看出,本次最小二乘法回歸的殘差分布較為隨機,說明結果具有一定的可靠性。
結論:由于自變量本身數量級的巨大差異性,我們難以從系數方面分析各類因素對GDP增長率的相對變化率的影響,而且OLS本身也并并不能從空間異質性的角度分析出有價值的結論,接下來我們會利用地理加權回歸模型進行進一步分析。
GWR部分:
仿照最小二乘法的系數選擇,由于GWR分析的特殊性,為保證數據的多重共線性、自相關性等維持在一個較低的水平,在剔除了2020建筑業增加值和2020批發零售增加值后,對剩余的八個屬性進行回歸分析。
因變量仍為2019-2020GDP增長率相較于2018-2019GDP增長率的相對變化率。
預備知識:GWR相關結果含義解讀:
Predicted
對因變量的預測值:這些值是由 GWR 計算所得的估計(或擬合)y 值。這個值一般用來和因變量進行對比,越接近,表示擬合度越高。
Coefficient Intercept
截距:與Y軸的交點,這里的截距為負,表示觀測值小于預測值。
Coefficient
各樣本的各個自變量的系數。GWR的特點就在這里,不同于OLS,GWR會給出每個位置每個自變量的系數。
Residual
殘差,就是觀測值與預測值的差。
Standard Error
標準誤
不是標準差,標準差的英文是:standard deviation):衡量的是我們在用樣本統計量去推斷相應的總體參數(常見如均值、方差等)的時候,一種估計的精度。
Standard Error Intercept
標準誤的截距:標準差與Y軸的交點。
Standard Error Coefficient
各自變量系數標準誤:參考標準誤的解釋。在這里,這些值用于衡量每個系數估計值的可靠性。標準誤與實際系數值相比較小時,這些估計值的可信度會更高。較大標準誤差可能表示局部多重共線性存在問題。
Std. Residual
標準化殘差:這個值也是ArcGIS進行GWR分析之后,給出的默認可視化結果。標準化殘差的平均值為零,標準差為 1。在 ArcMap 中執行 GWR 時,將自動將標準化殘差渲染為由冷色到暖色渲染的地圖。官方說法是,請檢查超過2.5倍標準化殘差的地方,這些地方可能是有問題。
參數列表如下:
參數方面,可以看到R2普遍維持在0.49以上,系數截距普遍維持在-12左右,觀測值與預測值差距不大 ,結果較為可靠:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? ? ??
可以看出,除西藏和吉林外,其余地區的標準殘差均在2.5倍標準差內,官方說法是,請檢查超過2.5倍標準化殘差的地方,這些地方可能是有問題。從這個角度來看擬合效果較為準確,大部分地區的擬合結果可以采信,從而保證了后續的結果分析具有一定的可靠性。
1.R2分布:
在社會學分析中,R2在0.5左右已經是較好的擬合模型了。本次的地理加權回歸中各省R2均位于0.5附近,且由西北內陸向東南沿海遞增,呈現出一定的空間分布變化規律,說明擁有較好的擬合效果,后續分析結果可采納,同時也體現出GWR回歸分析的必要性。
3.疫情對各省級行政區GDP的影響系數分布:
由影響系數均為負可以看出,疫情對各省級行政區GDP均產生了負面影響,這一點符合常識。且這種影響呈現出一定規律的的空間異質性,即由東北至西南影響逐漸變大,但總體維持在了一個相對穩定的水平。具體原因可能是因為國家層面通過宏觀調控等手段有效控制了疫情對地區經濟發展帶來的影響,所以單從疫情方面來分析可能不能得到較好的分析結果,故接下來將分析其他因素對GDP的影響。
4.失業率對各省級行政區GDP的影響系數分布:
?由上圖可以看出失業率對各省級行政區GDP的影響,可以看出,這種影響整體上右東部至西部逐漸增強,在中西地區,由于失業率的上升,在疫情之下對GDP產生了不小的沖擊,具體原因可能是這些地區勞動力較為集中,GDP對勞動力依存度比較高,疫情背景下失業率上升對該種經濟結構的地區經濟影響較大,相比較而言東部地區經濟結構對勞動力依存較小,故失業率對GDP造成的影響相較于中西部地區較小。
5.出口額對各省GDP影響分布:
可以看到,相比于其他疫情不那么嚴重的地區,在受疫情影響較為嚴重的湖北、河南等地,出口額并未對GDP增長造成大的損失。猜測原因一方面是國家政策的傾斜,如鼓勵湖北產的商品出口、周圍省份可出口廉價產品支援湖北等;另一方面,可能這些省份本身的出口額占GDP比重并不大,故出口額變化對GDP無大的影響。整體影響的變化趨勢是從東北至西南逐漸變大。推測疫情導致工廠關門、工業產出下降,進而導致出口額降低幅度較大,而這些省份經濟較為依賴出口,故出口額下降對GDP影響較大。
6. 進口額對各省GDP影響分布:
和上面的出口額進行對比,可以很明顯發現二者變化趨勢的差異性。進口額變化對GDP的影響程度是由東南沿海向西北內陸遞減。沿海地區交通發達,對進口商品依存度大(外省進口以及國外進口)而疫情極大的影響力這些地方的商品進口,進而對GDP產生了較大的影響。相反地,內陸地區本就對進口依存度不高,故在疫情大背景下GDP受影響程度不高。進口和出口額地理空間分布趨勢的差異性也可反映出地理加權回歸的顯著優勢。
7.工業產出對各省GDP影響分布:
我們知道,在東北老工業基地相關省份,工業占比大,這些地方的工業產出對GDP影響比重顯著高于其他省,而在疫情大背景下,許多工廠停產,工業產出大大下降,進而對GDP產生了較為顯著的損失影響。西南地區工業產值占比小,故其浮動對GDP影響較小。
附表:
? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
第一、二、三產業附加值對各省GDP影像系數結論:
國民生產總值(GDP)是一個相當復雜的結果,其受相當多的因素的影響,疫情確實是其中的一個顯著因素,但許多時候疫情并不直接影響經濟,而是通過影響進出口額度或工業產出等方面來間接影響GDP。要研究清楚疫情究竟怎樣影響GDP,需要在對經濟學原理有著深刻認識的條件下,通過大量數據的分析,并通過大量的方法比較才有可能得到比較有價值的結果。很顯然,單從一個地理加權回歸分析并不能獲得理想中的結果,只能從某些方面對結果窺知一二,得出一些推測層面的簡單結論。
2.4 疫情及其對各省經濟發展的總體影響
???? 2020年年初國內爆發的新冠疫情使國內各省各地區的生產和生活收到普遍沖擊,但各省表現不一樣,國內疫情主打以湖北省為中心展開傳播。
???? 由圖可以看出,全國疫情分布基本上以湖北為中心,進行傳播。經計算各省相對疫情指數indexi和GDP損失率Lossi其計算公式為:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
將計算出的結果進行統計,各個列出位于前十的省市:
表 3-5:相對疫情與GDP損失率排前十的省市
| 序 號 | 疫情情況 | 經濟情況 | ||
| 省市 | 相對疫情 | 省市 | GDP損失率 | |
| 1 | 湖北 | 11.86% | 湖北 | 16.134% |
| 2 | 黑龍江 | 0.30% | 青海 | 10.257% |
| 3 | 北京 | 0.27% | 新疆 | 9.959% |
| 4 | 上海 | 0.26% | 北京 | 9.876% |
| 5 | 江西 | 0.21% | 上海 | 9.796% |
| 6 | 浙江 | 0.19% | 陜西 | 9.795% |
| 7 | 重慶 | 0.17% | 天津 | 9.405% |
| 8 | 海南 | 0.16% | 廣東 | 9.290% |
| 9 | 安徽 | 0.16% | 河南 | 9.198% |
| 10 | 湖南 | 0.15% | 內蒙古 | 9.143% |
直觀的分布圖如下:
相對疫情分布 GDP損失程度分布OLS報表:
?以上結果顯示二者確實存在一定的相關性,可見從整體而言疫情對GDP產生了不小的影響。
例如,湖北疫情是國內最嚴重的。北京、上海等地區因為區域小,人口規模不大,基數相對較小和疫情傳播更聚集,導致相對疫情較嚴重。湖南、安徽、重慶、江西距離湖北較近,受到的波及較大。
就經濟發展方面,湖北因為疫情導致的封城必然會受到非常大的經濟沖擊。青海、新疆、陜西、內蒙古因為產業鏈單一,在特殊情況下,難以做到變通適應,導致了一定性質上的經濟損失。北京、上海、廣東、天津等省市因為地區盛世繁榮,在這一特殊情況下,要想達到預期的經濟發展確實有一定難度。
三、結論
GDP無疑是國民經濟核算的核心指標和衡量一個國家或地區經濟狀況和發展水平的最重要指標,長期以來各派學者對GDP影響因素的研究絡繹不絕。本文站在地理空間分析的角度,簡略分析了新冠疫情這一大背景下GDP受到了怎樣的影響以及被哪些因素影響。由于GDP是一個相當復雜的結果,所以我們所做的研究只能算是窺探性或者說是驗證性的研究。
總的來說,疫情對GDP的影響是負面的,這一點從預測分析和多元分析方面都可以窺見——幾種預測模型都顯示實際值低于預測值,基于此預測值計算的GDP損失程度確實與相對疫情指數存在著一定的相關性;后續的多元回歸分析進一步印證了這一點,即疫情雖然對某些行業發展利好(如醫療、某些電商行業等),但是總體上仍然對中國的經濟發展產生了不小的影響。從地理加權回歸分析的結果來看,不同因素對GDP的影響有著不小的空間異質性,這種異質性時常存在著某些規律,而且不同因素所呈現的空間變化規律有時是截然相反的。這種異質性的來源可能與地區自身的發展水平、人口、地理位置、經濟結構等等有關(例如某些省份經濟結構單一,受疫情沖擊影響大),在處理這種空間異質性時,就可以體現出空間分析的必要性和強大威力,也是空間分析與其他類型分析的不同之處。
GDP是一個宏大的主題,這也導致了GDP本身受到的影響因素實在過多,所以在分析的時候,有時并不能得到理想中的結論。例如國家為了減小疫情下經濟發展的不平衡、減小差異,會對某些疫情嚴重的省份給予政策上的傾斜,例如進出口商品政策的傾斜、稅率的調整、土地政策的傾斜等等。而我們在一般的分析中很難將這種政策傾斜考慮在內,這就會使得結論在意料之外;此外,GDP也會受到近幾年來中美貿易戰的影響,所以只以近三年GDP數據得到的增長率的相對變化率作為因變量會顯得說服力沒有那么強(因為貿易戰也會在許多方面影響GDP,需要對其與疫情造成的GDP影響通過某些方法加以區分);有時也會受困于我們自身對經濟學原理認識的不足而難以從獲得的數據中分析出有價值的結論,這也是本研究目前存在的不足。
由此可知,本次研究下一步的改進方法是擴大搜索面,考慮包括國家政策、政治環境等在內的更多因素對GDP的影響,并通過合適的篩選分批對自變量進行處理,以此得到多項結論,通過合適的方法評判可靠性后綜合得出結論。
總結
以上是生活随笔為你收集整理的GIS应用实例--模型预测、多元回归、空间自相关分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SVN代码分支管理
- 下一篇: 数据可视化:Metabase