二次拟合r方_R方和线性回归拟合优度
我最近一直在教授建模課程,并一直在閱讀和思考適合度的概念。 R方由協(xié)變量X解釋的結(jié)果Y的變化比例通常被描述為擬合優(yōu)度的度量。這當(dāng)然看起來非常合理,因為R平方測量觀察到的Y值與模型的預(yù)測(擬合)值的接近程度。
然而,要記住的重要一點是,R平方不會向我們提供有關(guān)我們的模型是否正確指定的信息。也就是說,它沒有告訴我們我們是否正確地指定了結(jié)果Y的期望如何取決于協(xié)變量。特別是,R平方的高值并不一定意味著我們的模型被正確指定。用一個簡單的例子說明這是最簡單的。
首先,我們將使用R模擬一些數(shù)據(jù)。為此,我們從標(biāo)準(zhǔn)正態(tài)分布(均值為零,方差一)中隨機(jī)生成X值。然后,我們生成結(jié)果Y等于X加上隨機(jī)誤差,再次使用標(biāo)準(zhǔn)正態(tài)分布:
n < - 1000
set.seed(512312)
x < - rnorm(n)
y < - x + rnorm(n)
然后我們可以擬合Y的(正確的)線性回歸模型,其中X作為協(xié)變量:
summary(mod1)
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-2.8571 -0.6387 -0.0022 0.6050 3.0716
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.02193 0.03099 0.708 0.479
x 0.93946 0.03127 30.040 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.98 on 998 degrees of freedom
Multiple R-squared: 0.4748, Adjusted R-squared: 0.4743
F-statistic: 902.4 on 1 and 998 DF, p-value: < 2.2e-16
我們還可以繪制數(shù)據(jù),用模型中的擬合線覆蓋:
?
觀察到(Y,X)數(shù)據(jù)并重疊擬合線。
現(xiàn)在讓我們重新生成數(shù)據(jù),但是生成Y使得它的期望值是X的指數(shù)函數(shù):
x < - rnorm(n)
y < - exp(x)+ rnorm(n)
當(dāng)然,在實踐中,我們不模擬我們的數(shù)據(jù) - 我們觀察或收集數(shù)據(jù),然后嘗試將合理的模型擬合到它。因此,和以前一樣,我們可以從擬合簡單的線性回歸模型開始,該模型假設(shè)Y的期望是X的線性函數(shù):
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-3.5022 -0.9963 -0.1706 0.6980 21.7411
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.65123 0.05220 31.63 <2e-16 ***
x 1.53517 0.05267 29.15 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.651 on 998 degrees of freedom
Multiple R-squared: 0.4598, Adjusted R-squared: 0.4593
F-statistic: 849.5 on 1 and 998 DF, p-value: < 2.2e-16
與第一種情況不同,我們獲得的參數(shù)估計(1.65,1.54)不是“真實”數(shù)據(jù)生成機(jī)制中參數(shù)的無偏估計,其中Y的期望是exp(X)的線性函數(shù)。此外,我們看到我們得到的R平方值為0.46,再次表明X(包括線性)解釋了Y中相當(dāng)大的變化。我們可能認(rèn)為這意味著我們使用的模型,即期望Y在X中是線性的,是合理的。但是,如果我們再次繪制觀察到的數(shù)據(jù),并用擬合線覆蓋它:
?
將擬合線疊加到觀察到的數(shù)據(jù)上清楚地表明我們使用的模型未正確指定,盡管R平方值非常大。特別地,我們看到對于X的低值和高值,擬合值太小。這顯然是Y的期望取決于exp(X)這一事實的結(jié)果,而我們使用的模型假設(shè)它是X的線性函數(shù)。
這個簡單的例子說明,盡管R平方是一個重要的度量,但高值并不意味著我們的模型被正確指定。可以說,描述R平方的更好方法是“解釋變異”的度量。為了評估我們的模型是否正確指定,我們應(yīng)該使用模型診斷技術(shù),例如針對協(xié)變量的殘差圖或線性預(yù)測器。
如果您有任何疑問,請在下面發(fā)表評論。
總結(jié)
以上是生活随笔為你收集整理的二次拟合r方_R方和线性回归拟合优度的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 均方误差越大越好_超详细 | 如何写好计
- 下一篇: 转筋是什么意思