UA MATH571A 一元线性回归II 统计推断2
UA MATH571A 一元線性回歸II 統計推斷2
- β0\beta_0β0?的分布
- 擬合與預測
- 擬合值的區間估計
- 預測值的區間估計
- 數值例子:女性肌肉量與年齡的關系
β0\beta_0β0?的分布
將β0\beta_0β0?關于YiY_iYi?的線性組合進一步展開
β^0=∑i=1N(1N?kiXˉ)Yi=∑i=1N(1N?kiXˉ)(β0+β1Xi+?i)=β0+β1Xˉ+1N∑i=1N?i?β0Xˉ∑i=1Nki?β1Xˉ∑i=1NkiXi?Xˉ∑i=1Nki?i=β0+∑i=1N(1N?kiXˉ)?i\hat{\beta}_0 = \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) Y_i = \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) (\beta_0+\beta_1 X_i + \epsilon_i) \\ = \beta_0+\beta_1 \bar{X} + \frac{1}{N}\sum_{i=1}^{N}\epsilon_i - \beta_0 \bar{X} \sum_{i=1}^{N}k_i - \beta_1 \bar{X} \sum_{i=1}^{N}k_iX_i - \bar{X}\sum_{i=1}^{N}k_i\epsilon_i \\ = \beta_0 + \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) \epsilon_i β^?0?=i=1∑N?(N1??ki?Xˉ)Yi?=i=1∑N?(N1??ki?Xˉ)(β0?+β1?Xi?+?i?)=β0?+β1?Xˉ+N1?i=1∑N??i??β0?Xˉi=1∑N?ki??β1?Xˉi=1∑N?ki?Xi??Xˉi=1∑N?ki??i?=β0?+i=1∑N?(N1??ki?Xˉ)?i?
因此
β^0=β0+∑i=1N(1N?kiXˉ)?iE(β^0)=β0Var(β^0)=σ2∑i=1N(1N?kiXˉ)2=σ2∑i=1N(1N2?2kiXˉ/N+ki2Xˉ2)=σ2(1N+∑i=1Nki2Xˉ2)β^0~N(β0,σ2(1N+∑i=1Nki2Xˉ2))\hat{\beta}_0 = \beta_0 + \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X}) \epsilon_i \\ E(\hat{\beta}_0 ) = \beta_0 \\ Var(\hat{\beta}_0 ) = \sigma^2 \sum_{i=1}^{N} ( \frac{1}{N}- k_i \bar{X})^2 =\sigma^2 \sum_{i=1}^{N} ( \frac{1}{N^2}- 2k_i \bar{X}/N + k_i^2\bar{X}^2) = \sigma^2 (\frac{1}{N}+\sum_{i=1}^{N} k_i^2 \bar{X}^2) \\ \hat{\beta}_0 \sim N(\beta_0, \sigma^2 (\frac{1}{N}+\sum_{i=1}^{N} k_i^2 \bar{X}^2)) β^?0?=β0?+i=1∑N?(N1??ki?Xˉ)?i?E(β^?0?)=β0?Var(β^?0?)=σ2i=1∑N?(N1??ki?Xˉ)2=σ2i=1∑N?(N21??2ki?Xˉ/N+ki2?Xˉ2)=σ2(N1?+i=1∑N?ki2?Xˉ2)β^?0?~N(β0?,σ2(N1?+i=1∑N?ki2?Xˉ2))
知道β^0\hat{\beta}_0β^?0?的分布后,可以像對β^1\hat{\beta}_1β^?1?做統計推斷那樣,對β^0\hat{\beta}_0β^?0?進行推斷。
擬合與預測
擬合與預測是一元線性回歸另外兩個常用的功能。擬合指的是變量X的值XhX_hXh?對應的變量Y的估計值:
Y^h=β^0+β^1Xh\hat{Y}_h = \hat{\beta}_0 + \hat{\beta}_1 X_h Y^h?=β^?0?+β^?1?Xh?
其中XhX_hXh?是樣本范圍內的值。比如在之前的例子中,女性肌肉量與年齡的數據來源于40-79歲的女性群體,變量X的采樣范圍就是40-79歲。預測指的是對樣本以外的變量X的值XhX_hXh?,計算變量Y的估計值。比如根據女性肌肉量與年齡的回歸關系,計算80歲女性個體平均肌肉量,80歲不在樣本內,所以這是預測。
擬合值的區間估計
與系數的估計量類似,Y^h\hat{Y}_hY^h?也是一個隨機變量,所以根據模型與輸入XhX_hXh?算出來的擬合值只是對Y^h\hat{Y}_hY^h?的一個觀測。Y^h\hat{Y}_hY^h?服從正態分布,
E(Y^h)=E(β^0+β^1Xh)=β0+β1Xh=YhVar(Y^h)=Var(β^0+β^1Xh)=σ2(1N+(Xh?Xˉ)2∑i=1N(Xi?Xˉ)2)E(\hat{Y}_h) = E(\hat{\beta}_0 + \hat{\beta}_1 X_h) = \beta_0 + \beta_1 X_h = Y_h \\ Var(\hat{Y}_h) = Var(\hat{\beta}_0 + \hat{\beta}_1 X_h)= \sigma^2 (\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} ) E(Y^h?)=E(β^?0?+β^?1?Xh?)=β0?+β1?Xh?=Yh?Var(Y^h?)=Var(β^?0?+β^?1?Xh?)=σ2(N1?+∑i=1N?(Xi??Xˉ)2(Xh??Xˉ)2?)
所以方差的無偏估計為
s2{Y^h}=MSE(1N+(Xh?Xˉ)2∑i=1N(Xi?Xˉ)2)t=Y^h?Yhse{Y^h}=Y^h?YhMSE(1N+(Xh?Xˉ)2∑i=1N(Xi?Xˉ)2)~t(N?2)s^2 \{\hat{Y}_h\} = MSE (\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} ) \\ t = \frac{\hat{Y}_h - Y_h}{se\{\hat{Y}_h\}} = \frac{\hat{Y}_h - Y_h}{\sqrt{MSE (\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} )}} \sim t(N-2) s2{Y^h?}=MSE(N1?+∑i=1N?(Xi??Xˉ)2(Xh??Xˉ)2?)t=se{Y^h?}Y^h??Yh??=MSE(N1?+∑i=1N?(Xi??Xˉ)2(Xh??Xˉ)2?)?Y^h??Yh??~t(N?2)
根據該分布可以給出下面的關系式,其中1?α1-\alpha1?α是置信水平
1?α=P(t(α2,N?2)<t<t(1?α2,N?2))1-\alpha = P(t(\frac{\alpha}{2},N-2)< t<t(1-\frac{\alpha}{2},N-2)) 1?α=P(t(2α?,N?2)<t<t(1?2α?,N?2))
據此可以得到擬合值置信水平為1?α1-\alpha1?α的置信區間
Y^h?se(se{Y^h})t(1?α2,N?2)<Yh<Y^h+se(se{Y^h})t(1?α2,N?2)\hat{Y}_h-se(se\{\hat{Y}_h\})t(1-\frac{\alpha}{2},N-2)< Y_h < \hat{Y}_h+se(se\{\hat{Y}_h\})t(1-\frac{\alpha}{2},N-2) Y^h??se(se{Y^h?})t(1?2α?,N?2)<Yh?<Y^h?+se(se{Y^h?})t(1?2α?,N?2)
預測值的區間估計
當XhX_hXh?是采樣范圍的新的觀測值時,預測值
Y^h=β^0+β^1Xh\hat{Y}_h = \hat{\beta}_0 + \hat{\beta}_1 X_h Y^h?=β^?0?+β^?1?Xh?
同樣可以構造t分布
t=Y^h?Yhse{Y^h?Yh}~t(N?2)t = \frac{\hat{Y}_h - Y_h}{se\{\hat{Y}_h-Y_h\}} \sim t(N-2) t=se{Y^h??Yh?}Y^h??Yh??~t(N?2)
此時YhY_hYh?要當成是一個隨機變量,Var(Yh)=σ2Var(Y_h)=\sigma^2Var(Yh?)=σ2,
Var(Y^h?Yh)=Var(Y^h)+Var(Yh)=σ2(1+1N+(Xh?Xˉ)2∑i=1N(Xi?Xˉ)2)t=Y^h?Yhse{Y^h?Yh}=Y^h?YhMSE(1+1N+(Xh?Xˉ)2∑i=1N(Xi?Xˉ)2)~t(N?2)Var(\hat{Y}_h-Y_h)=Var(\hat{Y}_h)+Var(Y_h)=\sigma^2 (1+\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} ) \\ t = \frac{\hat{Y}_h - Y_h}{se\{\hat{Y}_h-Y_h\}} = \frac{\hat{Y}_h - Y_h}{\sqrt{MSE (1+\frac{1}{N} + \frac{(X_h - \bar{X})^2}{\sum_{i=1}^{N}(X_i - \bar{X})^2} )}} \sim t(N-2) Var(Y^h??Yh?)=Var(Y^h?)+Var(Yh?)=σ2(1+N1?+∑i=1N?(Xi??Xˉ)2(Xh??Xˉ)2?)t=se{Y^h??Yh?}Y^h??Yh??=MSE(1+N1?+∑i=1N?(Xi??Xˉ)2(Xh??Xˉ)2?)?Y^h??Yh??~t(N?2)
所以預測值置信水平為1?α1-\alpha1?α的置信區間
Y^h?se(se{Y^h?Yh})t(1?α2,N?2)<Yh<Y^h+se(se{Y^h?Yh})t(1?α2,N?2)\hat{Y}_h-se(se\{\hat{Y}_h-Y_h\})t(1-\frac{\alpha}{2},N-2)< Y_h < \hat{Y}_h+se(se\{\hat{Y}_h-Y_h\})t(1-\frac{\alpha}{2},N-2) Y^h??se(se{Y^h??Yh?})t(1?2α?,N?2)<Yh?<Y^h?+se(se{Y^h??Yh?})t(1?2α?,N?2)
數值例子:女性肌肉量與年齡的關系
上一篇我們已經建立了女性肌肉量與年齡的一元線性回歸模型
Yi=β0+β1Xi+?iY_i = \beta_0 + \beta_1 X_i + \epsilon_i Yi?=β0?+β1?Xi?+?i?
其中YiY_iYi?表示女性個體的肌肉量,XiX_iXi?表示女性個體的年齡。現在我們按假設檢驗的思路對女性個體肌肉量會隨著年齡增長而減少的猜想進行驗證。
H0:β1≥0Ha:β1<0H_0: \beta_1 \ge 0 \\ H_a: \beta_1 < 0 H0?:β1?≥0Ha?:β1?<0
原假設的含義是女性個體的肌肉量會隨著年齡增長而變多或是保持不變,備擇假設的含義是女性個體的肌肉量會隨著年齡增長變少。從summary()的結果中讀取統計量t?=β^1se(β1^)t^* = \frac{\hat{\beta}_1 }{se(\hat{\beta_1})}t?=se(β1?^?)β^?1??的值:
紅框內的結果是se(β1^)se(\hat{\beta_1})se(β1?^?),黃框中的結果是t?t^*t?,單邊檢驗中t?t^*t?需要和t(1?α2,N?2)t(1-\frac{\alpha}{2},N-2)t(1?2α?,N?2)比較,假設檢驗水平為1%
顯然t?<?2.663287t^*<-2.663287t?<?2.663287,拒絕原假設,接受備擇假設:女性個體的肌肉量會隨著年齡增長變少。藍框中的值并非是這個檢驗的p值,而是雙邊檢驗的p值。可以根據上面敘述的結論計算該檢驗的p值
> pt(-13.19,58) [1] 2.084381e-19灰框中是β0\beta_0β0?相關的量,可以用來對β0\beta_0β0?的推斷。如果要估計40歲女性肌肉量的95%置信區間,可以采用下面的方法
> predict(Ex1.lm,newdata=data.frame(X=40),interval="conf",level=.95)fit lwr upr [1] 108.7467 104.566 112.9275結果說明40歲女性的平均肌肉量是108.7467(我也不知道單位是啥。。。),95%的置信區間是[104.566,112.9275]說明如果有大量樣本的話可以觀察到95%的四十歲女性肌肉量都在這個區間內。如果要估計80歲女性肌肉量的95%置信區間,同樣應該使用predict()函數,但interval要改為predict
> predict(Ex1.lm,newdata=data.frame(X=80),interval="pred",level=.9)fit lwr upr 1 61.14692 47.04494 75.24891結果說明80歲女性的平均肌肉量是61.14692,95%的置信區間是[47.04494,75.24891]。
總結
以上是生活随笔為你收集整理的UA MATH571A 一元线性回归II 统计推断2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH566 统计理论1 充分统
- 下一篇: UA MATH566 统计理论1 充分统