大样本OLS模型假设及R实现
大樣本OLS模型假設(shè)及R實(shí)現(xiàn)
- 1. 回歸模型及假設(shè)
- 2. 回歸模型的檢驗(yàn)及處理
- 1. 異方差
- 2. 多重共線性:
- 3. 極端值:
- 4. 其他問題
1. 回歸模型及假設(shè)
1. 回歸模型:
見 https://blog.csdn.net/dataxc/article/details/107047611
2. 大樣本OLS假設(shè)
(1)線性假設(shè)
(2) K +1維隨機(jī)過程{Yi,Xi1,Xi2,……,Xik}為漸近獨(dú)立的平穩(wěn)過程(即統(tǒng)計(jì)特性如期望、方差等不隨時(shí)間改變),故適用大數(shù)定律(頻率趨近于概率)與中心極限定理(樣本均值的分布趨近于正態(tài)分布)。
(3)所有解釋變量(自變量)均為“前定”(predetermined),也稱“同期外生”
(contemporaneously exogenous),即它們與同期(同方程)的擾動(dòng)項(xiàng)正交,即Xik與Ei不相關(guān)。
(4)自變量Xi系數(shù)構(gòu)成的矩陣 X 滿列秩,即X 中沒有多余(可由其他變量線性表出)的解釋變量,即不存在嚴(yán)格多重共線性。
2. 回歸模型的檢驗(yàn)及處理
1. 異方差
1. 異方差的后果
(1) OLS 估計(jì)量依然無偏、一致且漸近正態(tài)。因?yàn)樵谧C明這些性質(zhì)時(shí),并未用到“同方差”的假定。
(2) OLS 估計(jì)量方差表達(dá)式不再是原表達(dá)式,t檢驗(yàn),F檢驗(yàn)失效;也就是說,你的得到的t值,F值錯(cuò)誤。
(3) 高斯-馬爾可夫定理不再成立,OLS 不再是 BLUE(最佳線性無偏估計(jì))。也就是得到的方程不是最佳的。
2. 異方差的檢驗(yàn)
(1)直觀法——繪制殘差圖
(2)R提供了非常多種檢驗(yàn)異方差的包。如,擴(kuò)展包lmtest中采用bptest()函數(shù);car包中采用ncv.test()函數(shù)
3. 異方差的處理
(1)使用OLS+穩(wěn)健標(biāo)準(zhǔn)誤。一般的,我們使用white一致標(biāo)準(zhǔn)誤來做假設(shè)檢驗(yàn)。 為了計(jì)算異方差一致性的協(xié)方差矩陣,我們可以利用car包中的hccm()函數(shù); sandwich包中的vcovHC()命令可以實(shí)現(xiàn)同樣的功能。同時(shí)利用vcovHAC()或者NeweyWest()函數(shù)可以進(jìn)行異方差和自相關(guān)穩(wěn)健性Newey—West估計(jì)。
(2)加權(quán)最小二乘法(WLS)、可行加權(quán)最小二乘法(FWLS)等
2. 多重共線性:
判斷:
(1)方差膨脹因子
一般標(biāo)準(zhǔn):
①當(dāng)0<VIF≤5時(shí),沒有多重共線性;
②當(dāng)5<VIF≤10時(shí),有較弱的多重共線性;
③當(dāng)10<VIF≤100時(shí),有中等或較強(qiáng)的多重共線性;
④當(dāng)VIF>100時(shí),有非常嚴(yán)重的多重共線性。
vif>=10時(shí) , 就說明自變量Xi與其他變量之間有嚴(yán)重的多重共線性,且這種多重共線性可能會(huì)過度地影響最小二乘估計(jì)值。
(2)特征根判定法
通常認(rèn)為條件數(shù)kappa;100k<100時(shí),設(shè)計(jì)矩陣XX多重共線性的程度很小;100≤k≤1000100≤k≤1000時(shí),設(shè)計(jì)矩陣XX存在較強(qiáng)的多重共線性;k>1000k>1000時(shí),存在嚴(yán)重的多重共線性。
根據(jù)條件數(shù)大于1000,說明自變量之間存在嚴(yán)重的多重共線性。為找出哪些變量是多重共線性的,需要計(jì)算矩陣的特征值和相應(yīng)的特征向量,在R命令窗口下面代碼:
eigen(model1) #需要方陣才能判斷哪些變量存在多重共線性行?(1)如在模型中引入解釋變量的平方項(xiàng)、過多交互項(xiàng),則易引起多重共線性,因?yàn)閄與X^2,較相關(guān)。
(2)在模型中加入啞變量也容易引起多重共線性,因啞變量之間較相關(guān)。
多重共線性處理方法:
(1)如不關(guān)心具體的回歸系數(shù),只關(guān)心整個(gè)方程的預(yù)測(cè)能力,可不必理會(huì)多重共線性(假設(shè)整個(gè)方程顯著)。多重共線性的主要后果是使得對(duì)單個(gè)變量的貢獻(xiàn)估計(jì)不準(zhǔn),但所有變量的整體效應(yīng)仍可較準(zhǔn)確地估計(jì)。
(2) 如關(guān)心具體的回歸系數(shù),但多重共線性并不影響所關(guān)心變量的顯著性,也可不必理會(huì)。在方差膨脹的情況下,系數(shù)依然顯著;如沒有多重共線性,只會(huì)更顯著。
(3)如多重共線性影響所關(guān)心變量的顯著性,應(yīng)設(shè)法進(jìn)行處理。比如,增大樣本容量,剔除導(dǎo)致嚴(yán)重共線性的變量,將變量標(biāo)準(zhǔn)化(詳見下文),或?qū)δP驮O(shè)定進(jìn)行修改。
(4)解釋變量之間的相關(guān)性普遍存在,在一定程度上也是允許的。處理多重共線性的最常見方法是“無為而治”(do nothing)。
3. 極端值:
判斷:
(1)繪制散點(diǎn)圖;
(2)outlierTest()等,如果p>0.05,可以認(rèn)為沒有離群點(diǎn);若p<0.05,則存在離群點(diǎn)。
(2)回歸過后發(fā)現(xiàn)無法解釋的地方,如系數(shù)相反了、不顯著了……
極端值的處理方法:
(1)應(yīng)檢查是否因數(shù)據(jù)輸入有誤導(dǎo)致極端觀測(cè)值。
(2)對(duì)極端觀測(cè)值的個(gè)體進(jìn)行背景調(diào)查,看是否由與研究課
題無關(guān)的特殊現(xiàn)象所致,必要時(shí)可刪除極端數(shù)據(jù)。
(3)比較穩(wěn)健的做法是同時(shí)匯報(bào)“全樣本”(full sample)與刪
除極端數(shù)據(jù)后的“子樣本”(subsample)的回歸結(jié)果,讓讀者自己
做判斷。
4. 其他問題
(1)缺失值
在進(jìn)行分析時(shí),軟件會(huì)會(huì)自動(dòng)將缺失的觀測(cè)值從樣本中去掉,導(dǎo)致樣本容量損失。
回歸的時(shí)候需要特意看一下實(shí)際回歸分析的樣本數(shù)
(2)變量單位(數(shù)量級(jí))的選擇
例:假如分析、年齡等收入(日元)對(duì)心理健康評(píng)分的影響。
影響:
(1)收入的系數(shù)會(huì)很小,保留小數(shù)時(shí)會(huì)出現(xiàn)系數(shù)為0的情況;
(2)數(shù)據(jù)矩陣X中某列的數(shù)值是另一列的很多倍,可能使計(jì)算機(jī)在對(duì)矩陣進(jìn)行數(shù)值計(jì)算時(shí)出現(xiàn)較大誤差。
(3)自相關(guān)
可能存在自相關(guān)的情形
(1)時(shí)間序列數(shù)據(jù)
(2)空間自相關(guān)(如傳染病數(shù)據(jù))
(3)對(duì)數(shù)據(jù)的人為處理:如果數(shù)據(jù)中包含移動(dòng)平均數(shù)(moving
average)、內(nèi)插值或季節(jié)調(diào)整時(shí),可從理論上判斷存在自相關(guān)。
自相關(guān)的后果:同異方差
處理:見https://blog.csdn.net/dataxc/article/details/107047611
**參考:
陳強(qiáng):《高級(jí)計(jì)量經(jīng)濟(jì)學(xué)》
Robert I. Kabacoff ,高濤等:《R語言實(shí)戰(zhàn)》
其他互聯(lián)網(wǎng)資料https://blog.csdn.net/u013524655/article/details/41219283等
總結(jié)
以上是生活随笔為你收集整理的大样本OLS模型假设及R实现的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: web通信 长连接、长轮询
- 下一篇: Android--UI之DatePick