vecm模型怎么写系数_用Stata搞实证之面板模型入门
日常摸魚的強師傅,終于想起來填這個大坑了!
許多有關計量的入門教程都上來先丟一堆理論,看的頭暈腦脹,但實際應用卻講的十分含糊
這對于很多想快速水paper或者寫畢業論文交差的同學十分不友好
而跟著本教程走,則可以通過實際的例子,快速的學習Stata軟件的使用,這樣在導入自己的數據后,可以快速搞出一篇論文的實證模型
經管類專業在本科都會學計量經濟學,但是一般只會教到基本的多元OLS模型就戛然而止了
誠然,這對于本科生來說夠用了,但是基本的多元OLS模型本身并不好處理。如果是橫截面數據,那解決異方差問題還算簡單,但是大部分容易獲得的經濟數據都是時間序列數據,而時間序列數據的多重共線性處理又十分棘手。本科的計量書里一般都會說,逐步回歸剔除一下就好了,但是這樣會使得你能用的變量數量大打折扣,有些奇葩導師總會要你必須加一些他們想要的變量,不能讓你去掉。另一個可行的方法則是采用主成分分析降維分析,但是這種方法,又需要用一個復雜的公式換算,過程繁瑣且麻煩,一些類似KMO檢驗的東西還可能根本過不去
因此,強師傅更推薦采用面板數據來處理本科以及碩士的畢業論文實證,因為其檢驗簡單,而且更易操作,總之就是坑少好摸
對于很多上了計量課就浪起來的同學來說,可能還分不清計量里的三種數據結構
本科一般只教兩種:
橫截面數據:舉例來說,就是中國2020年30個省份的GDP
時間序列數據:整個中國2010至2020年的GDP
而第三種數據結構便是面板數據,實際上就是橫截面數據和時間序列數據的結合
值得注意的是,不同軟件輸入面板數據的格式不一樣,我只推薦Stata來處理這些數據,因為真的對新手很友好
面板數據可以在excel整理好,直接粘貼到Stata
一個簡單的面板數據例子如下:
以北京上海和廣州3個城市2010至2016年的人口,地區生成總值和商品房均價為例,在excel里的整理如下:
可以看到,A列為我們的具體城市,實際上也就是截面或叫做個體,而B列年份則是時間,其余列為變量
你可以自己搭配不同的數據,整理成這樣的格式即可
打開stata的窗口
其中下方命令窗口可以直接輸入我們要做的指令,左邊為歷史窗口可以看到我們已經進行過的處理,而變量窗口則可以顯示我們輸入數據后產生的變量
在命令窗口輸入edit則可以打開數據編輯窗口
將excel的數據連同表頭直接粘貼到這個窗口,則會有如下提示:
選擇變量名則可以直接將第一行作為變量名稱
關閉該窗口回到stata主界面,則可以發現,有五個變量21個觀測被導入了進去
由于城市變量是字符數據,因此在處理之前需要采用encode命令將其改為數值型數據
具體命令如下:
encode 城市,gen(city)
這個命令中 encode為命令的名字,其作用是將字符數據轉換為數值型。而gen為生成的意思,實際上是生成一個新變量。如果你的城市是以數值如1,2,3,4來命名的,則可以省略這一步
緊接著,可以用xtset來聲明面板模型的截面和時間
在stata里,x代表個體或截面(在計量中和paper里,個體一般用n或i來表示,面板的模型的公式角標一般是it或者nt),t代表時間,set便是設置的意思。在stata里,一般與面板相關的命令都會以xt開頭
輸入xtset city 年份
則會發現,stata提示我們的panel變量,也就是個體為city,而時間跨度為2010至2016,如果每個城市每個年份均有數據,則為strongly balanced,即平衡面板,如果缺失數據,則為非平衡面板
接著我們就可以著手跑第一個面板模型了,輸入:
xtreg 商品房均價 年末總人口 地區生產總值,fe
則可以得到如下結果:
此時我們便得到了第一個面板個體固定效應模型的結果
其中xtreg表示我們運行的面板模型,在stata里,第一個出現的變量一定是y變量,也就是被解釋變量,而后面的變量均為x變量,因此在這個模型里,商品房價格為Y變量,人口和地區生產總值為X變量
在stata里,逗號后面一般跟隨的都是命令的選項,你可以通過不同的選項來調節模型。我們的命令里,fe代表fixed effects,即個體固定效應模型
在上述結果中,最為重要的是t檢驗的p值,即P>|t|這一列,可以發現,年末總人口的P值為0.103,這一般認為是不顯著的結果。而地區生產總值為0.000,意味著其在1%水平上通過了顯著性檢驗,可以認為地區生產總值直接與商品房房價有關。(一般P值小于0.1為10%顯著,0.05為5%顯著,小于0.01為1%顯著,在論文里一般用星號代替,分別為*, ** , ***)
值得注意的是,面板模型不需要在意R2,因此R-sq的數值并不重要,這個后續的文章再講原因。而_cons為常數項,不需要特別的解釋
需要關注的是coef.這一列,對于P>|t|顯著的,如變量“地區生產總值”可以這樣解釋:北京上海廣州三個城市地區生產總值每上漲1萬元,商品房房價上漲0.0001247元
但是這樣解釋看起來,很奇怪,因為一來系數非常的小,感覺很不直觀,二來并不能反映出邊際效應的變化
因此,需要將y和x兩邊取對數,一來縮小量綱,二來轉換為邊際效應,也可以稱為彈性
stata里輸入
gen ln商品房均價=log( 商品房均價 )gen ln年末總人口 =log( 年末總人口 )gen ln地區生產總值 =log( 地區生產總值 )
即可生成三個變量的對數形式:
計量模型一定要用自然對數,stata里,log和ln都會取以e為底的自然對數。而excel里取對數的公式,用ln是自然對數,用log是以10為底的對數,是不一樣的(一個小坑)
再次運行面板模型的命令:
可以發現,系數coef.的數值一下子變得好解釋了。當然也會發現,年末總人口的P值小于了0.05,通過了顯著性檢驗。這是由于許多社會經濟數據本身是右偏的,而取對數可以將其轉換為正態分布,從而修正異方差性,這部分會后續再詳細解釋(挖坑*1)
而此時,模型則可以這樣解釋:
當北上廣三個城市,人口上升1%,則會導致商品房均價下降5.97%,而地區生產總值上升1%,則商品房價格會上升1.43%
有些時候,結果不是我們想要的,可能是我們的數據結構和樣本選取導致的。面板模型是一個大樹,后面根據不同的數據結構會出現不同的分支。對于個體多于時間的數據,則為短面板,一般為大N小T,而個體少于時間的數據,則為長面板,一般被稱為小N大T。我們這個模型只有3個城市,但時間跨度為7年,顯然屬于長面板范疇,則需要特殊的處理,這個后續再補(挖坑*2)
對于本科生來說,采用短面板是比較好的選擇,對于碩士生來說,長面板可以進行許多高階操作以滿足實證的復雜度需要,如變系數模型或動態面板(挖坑*3)
模型需要做Hausman檢驗以在隨機和固定效應兩種不同的模型中進行選擇,這會在下一期文章中講解(挖坑*4)
而遺漏變量和內生性問題也可能會導致我們得不到想要的結果,這時候則需要一些高級的方法如工具變量法來處理(挖坑*5)
但是對于許多想要快速進行實證分析的本科生和碩士生來說,這篇文章算是一個好的入門了
我的個人公眾號已上線,請隨意關注,歡迎向我提問哦
總結
以上是生活随笔為你收集整理的vecm模型怎么写系数_用Stata搞实证之面板模型入门的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为云阳云计算外包给哪家公司的_长春作为
- 下一篇: camunda流程定义表无数据_BPM