数学建模:线性回归模型
數(shù)學(xué)建模:線性回歸模型
1.多重線性回歸模型
1.1 引入
線性回歸分類
- 簡單線性回歸(一個(gè)自變量)
- 多重線性回歸(多個(gè)自變量)
線性回歸的前提條件:
- 線性(散點(diǎn)圖,散點(diǎn)圖矩陣)
- 獨(dú)立性
- 正態(tài)性(回歸分析過程中可以確定)
- 方差齊性(回歸分析過程中可以確定):建模中存在的誤差
兩個(gè)變量:X和Y
例1:人體的身高和體重
X:人體的身高
Y:人體的體重
身高X大時(shí),體重Y也會(huì)傾向于增大,但是X不能嚴(yán)格地決定Y
1.2相關(guān)關(guān)系
相關(guān)關(guān)系:自變量的取值一定時(shí),因變量的取值帶有一定的隨機(jī)性的兩個(gè)變量之間的關(guān)系。
相關(guān)關(guān)系是一種非確定關(guān)系。對(duì)具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的方法稱為回歸分析。
1.3經(jīng)驗(yàn)回歸方程
X:自變量或者預(yù)報(bào)變量
Y:因變量或者響應(yīng)變量
Y{X能夠決定的部分f(x)其他未考慮的因素e:誤差Y\begin{cases} X能夠決定的部分f(x)\\ 其他未考慮的因素e:誤差 \end{cases} Y{X能夠決定的部分f(x)其他未考慮的因素e:誤差?
? 則得到下面的模型:
Y=f(x)+e,E(e)=0特別的,當(dāng)f(X)=β0+β1X時(shí)是線性函數(shù)β0和β1都稱作回歸系數(shù)Y = f(x) + e,E(e) = 0\\ 特別的,當(dāng)f(X) = \beta_0+\beta_1X時(shí)是線性函數(shù)\\ \beta_0和\beta_1都稱作回歸系數(shù) Y=f(x)+e,E(e)=0特別的,當(dāng)f(X)=β0?+β1?X時(shí)是線性函數(shù)β0?和β1?都稱作回歸系數(shù)
- 第一步:確定模型
- 第二步:觀測(cè)模型
于是有n組觀測(cè)值(xi , yi ),如果Y與X 滿足回歸系數(shù)時(shí),則(xi , yi )滿足:
yi=β0+β1xi+ei,i=1,2,...,ny_i = \beta_0+\beta_1x_i+e_i,\qquad i=1,2,...,n yi?=β0?+β1?xi?+ei?,i=1,2,...,n
-
第三步:確定未知參數(shù)值
根據(jù)第二步得到的方程組,應(yīng)用用統(tǒng)計(jì)方法,可以得到β0\beta_0β0?和β1\beta_1β1?的估計(jì)值β^0\hat\beta_0β^?0?和β^1\hat\beta_1β^?1?
-
第四步:求得經(jīng)驗(yàn)方程
將估計(jì)值β^0\hat\beta_0β^?0?和β^1\hat\beta_1β^?1?帶入線性回歸方程,略去誤差項(xiàng):
Y=β^0+β^1XY = \hat\beta_0+\hat\beta_1X Y=β^?0?+β^?1?X
稱為經(jīng)驗(yàn)回歸方程
1.4多元線性模型
多元線性回歸的一般形式:
Y=β0+β1x+...++βp?1x+eiY = \beta_0+\beta_1 x+...++\beta_{p-1} x+e_i Y=β0?+β1?x+...++βp?1?x+ei?
同樣β0\beta_0β0?為常數(shù)項(xiàng),$\beta_1,…,\beta_{p-1} 為回歸系數(shù),為回歸系數(shù),為回歸系數(shù),e$為隨機(jī)誤差.
-
觀測(cè)數(shù)據(jù)
多元線性模型就是有多個(gè)未知數(shù)β\betaβ
y=[y1y2?yn],X=[1x11?x1,p?11x21?x2,p?1????1xn1?xn,p?1],β=[β0β1?βp?1],e=[e1e2?en]y=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix},X=\begin{bmatrix}1&x_{11}&\cdots&x_{1,p-1}\\1&x_{21}&\cdots&x_{2,p-1}\\\vdots&\vdots&\vdots&\vdots\\1&x_{n1}&\cdots&x_{n,p-1}\end{bmatrix},\beta=\begin{bmatrix}\beta_0\\\beta_1\\\vdots \\\beta_{p-1}\end{bmatrix},e=\begin{bmatrix}e_1\\e_2\\\vdots \\e_n\end{bmatrix} y=??????y1?y2??yn????????,X=??????11?1?x11?x21??xn1???????x1,p?1?x2,p?1??xn,p?1????????,β=??????β0?β1??βp?1????????,e=??????e1?e2??en???????? -
確定回歸系數(shù)
-
求經(jīng)驗(yàn)回歸方程
設(shè)β^=(β^0,β^1,?,β^p?1)′\hat\beta = (\hat\beta_0,\hat\beta_1,\cdots,\hat\beta_{p-1})'β^?=(β^?0?,β^?1?,?,β^?p?1?)′為β\betaβ的一種估計(jì),則經(jīng)驗(yàn)方程是:
Y=β^0+β^1X1+?+β^p?1Xp?1Y= \hat\beta_0+\hat\beta_1X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y=β^?0?+β^?1?X1?+?+β^?p?1?Xp?1?
1.5 非線性模型
非線性模型經(jīng)過適當(dāng)變換,轉(zhuǎn)換為線性模型:比如兩邊取對(duì)數(shù)
ln?Qt=ln?a+bln?Lt+cln?Kt\ln\limits Q_t=\ln\limits a+b\ln\limits L_t+c\ln\limits K_t lnQt?=lna+blnLt?+clnKt?
令
yt=ln?Qt;xt1=ln?Lt,β0=ln?a,β1=b,β2=cy_t = \ln\limits Q_t;x_{t1} = \ln\limits L_t,\beta_0 = \ln\limits a,\beta_1 = b,\beta_2 = c yt?=lnQt?;xt1?=lnLt?,β0?=lna,β1?=b,β2?=c
加上誤差項(xiàng)即是線性關(guān)系
2.參數(shù)估計(jì)(最小二乘法)
在高等數(shù)學(xué)中有最小二乘法的介紹。簡單地說就是要通過確定一系列的系數(shù)β\betaβ,使所有情況下的誤差最小,即:
e=∣y?Xβ∣e = |y-X\beta| e=∣y?Xβ∣
的值最小。由于絕對(duì)值不好處理,這里轉(zhuǎn)化成平方形式:
e=(y?Xβ)2e = (y-X\beta)^2 e=(y?Xβ)2
上式展開,對(duì)β\betaβ求偏導(dǎo),使其為0,得到線性方程組,解出βi\beta_iβi?即可,這一組β\betaβ即是估計(jì)出的參數(shù)值。即是通過這一步最終得到了經(jīng)驗(yàn)方程:
Y^=β^0+β^1X1+?+β^p?1Xp?1\hat Y = \hat\beta_0+\hat\beta_1 X_1+\cdots+\hat\beta_{p-1}X_{p-1} Y^=β^?0?+β^?1?X1?+?+β^?p?1?Xp?1?
上述方程還需要進(jìn)一步做統(tǒng)計(jì)分析,來確定是否, 描述了因變量與自變量的真實(shí)關(guān)系。
另外,進(jìn)行線性回歸之前,為了消除量綱等因素的影響,我們通常會(huì)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。預(yù)處理有
- 中心化
- 標(biāo)準(zhǔn)化
3.回歸方程假設(shè)檢驗(yàn)
但是經(jīng)驗(yàn)回歸方程是否真正刻畫了因變量與自 變量之間的關(guān)系?——回歸方程的顯著性檢驗(yàn)
因變量和所有自變量之間是否存在顯著的關(guān)系?——回歸系數(shù)的顯著性檢驗(yàn)
異常點(diǎn)檢驗(yàn)
3.1回歸方程的顯著性檢驗(yàn)
正態(tài)線性回歸模型:
yi=β^0+β^1xi1+?+β^p?1xi,p?1+eiei——N(0,σ2),i=1,?,ny_i = \hat\beta_0+\hat\beta_1 x_{i1}+\cdots+\hat\beta_{p-1}x_{i,p-1}+e_i\\ e_i——N(0,\sigma^2),i = 1,\cdots,n yi?=β^?0?+β^?1?xi1?+?+β^?p?1?xi,p?1?+ei?ei?——N(0,σ2),i=1,?,n
經(jīng)驗(yàn)方程是否正確刻畫因變量與自變量之間的關(guān)系需要進(jìn)行回歸方程的顯著性檢驗(yàn):
假設(shè)檢驗(yàn):所有回歸系數(shù)都為0,即H:β1=β2=,...,=βp?1=0H:\beta_1 = \beta_2 = ,...,=\beta_{p-1} = 0H:β1?=β2?=,...,=βp?1?=0
拒絕原假設(shè):至少有一個(gè)βi\beta_iβi?不等于0
接受原假設(shè):所有的βi\beta_iβi?都等于0,相對(duì)誤差而言,所有自變量對(duì)因變量Y 的影響是不重要的。
-
顯著性檢驗(yàn)
設(shè)m=p?1m = p-1m=p?1,檢驗(yàn)假設(shè)H:β1=?=βp?1=0\beta_1 = \cdots=\beta_{p-1} = 0β1?=?=βp?1?=0的統(tǒng)計(jì)量為:
F回=SS回/p?1RSS/n?pF_回 = \frac{{SS_回}/{p-1}}{{RSS}/{n-p}} F回?=RSS/n?pSS回?/p?1?
當(dāng)原假設(shè)成立時(shí),F回F_回F回?~Fp?1,n?pF_{p-1,n-p}Fp?1,n?p?對(duì)于某一置信度α\alphaα,F回>Fp?1,n?p(α)F_回>F_{p-1,n-p}(\alpha)F回?>Fp?1,n?p?(α)時(shí),拒絕原假設(shè),否則就接受H
-
回歸系數(shù)的顯著性檢驗(yàn)
-
異常點(diǎn)檢驗(yàn)
4.衡量多重回歸模型優(yōu)劣的標(biāo)準(zhǔn)
4.1判定系數(shù)
SST=SSE+SSR{SST=∑i=1n(yi?y ̄)2SSE=∑i=1n(yi?y^i)2SSR=∑i=1n(y^i?y ̄)2SST = SSE+SSR\begin{cases}SST = \sum\limits_{i=1}^{n}(y_i-\overline y)^2\\ SSE = \sum\limits_{i=1}^{n}(y_i-\hat y_i)^2\\ SSR = \sum\limits_{i=1}^{n}(\hat y_i-\overline y)^2\\\end{cases} SST=SSE+SSR??????????????SST=i=1∑n?(yi??y?)2SSE=i=1∑n?(yi??y^?i?)2SSR=i=1∑n?(y^?i??y?)2?
另外我們定義了R2R^2R2
R2=SSRSST,0≤R2≤1R^2 = \frac{SSR}{SST},0≤R^2≤1 R2=SSTSSR?,0≤R2≤1
R2R^2R2越接近1,表示X和Y有較大的相依關(guān)系
5.回歸自變量的選擇
6.多重復(fù)共線性判斷
一些大型線性回歸問題(自變量較多),最小二乘估計(jì)有時(shí)表現(xiàn)不理想 :
- 有些回歸系數(shù)的絕對(duì)值異常大
- 回歸系數(shù)的符號(hào)與實(shí)際意義相違背
復(fù)共線性:回歸自變量之間存在著近似線性關(guān)系。
復(fù)共線性嚴(yán)重程度的判斷
①方陣X′XX'XX′X的條件數(shù):最大特征值與最小特征值的比值
k=λ1λpk=\frac{\lambda_1}{\lambda_p} k=λp?λ1??
有下面的判斷標(biāo)準(zhǔn):
②方差膨脹因子
方差膨脹因子 𝐕𝐚𝐫𝐢𝐚𝐧𝐜𝐞 𝐈𝐧𝐟𝐥𝐚𝐭𝐢𝐨𝐧 𝐅𝐚𝐜𝐭𝐨𝐫, 𝐕𝐈𝐅 : 𝑽𝑰𝑭越大,表示共線性越嚴(yán)重。 𝑽𝑰𝑭一般不應(yīng)該大于𝟓, 當(dāng)𝑽𝑰𝑭>𝟏𝟎時(shí),提示有嚴(yán)重的多重共線性存在
- 解決方案
(1) 增大樣本含量,能部分解決復(fù)共線性問題。
(2) 把多種自變量篩選的方法結(jié)合起來組成擬合模型。建立一個(gè) “最優(yōu)”的逐步回歸方程,但同時(shí)丟失一部分可利用的信息
(3) 從專業(yè)知識(shí)出發(fā)進(jìn)行判斷,去除專業(yè)上認(rèn)為次要的,或者是 缺失值比較多、測(cè)量誤差較大的共線性因子。
(4) 進(jìn)行主成分分析,提取公因子代替原變量進(jìn)行回歸分析。
7.殘差分析和回歸診斷
7.1殘差分析
目的:
- 線性假設(shè)的檢驗(yàn)
- 所有水平的x的常數(shù)方差的檢驗(yàn)
- 正態(tài)分布的檢驗(yàn)
殘差圖分析
- 通過殘差圖判斷正態(tài)性
殘差:e^=y?Xb^\hat e = y-X\hat be^=y?Xb^,其中將$\hat e 稱為殘差;稱為殘差;稱為殘差;\hat y = X\hat b,,,\hat y_i$稱為擬合值。
以殘差為縱坐標(biāo),以任何其他的量為橫坐標(biāo)的散點(diǎn)圖,稱為殘差圖。
這里以擬合值y^i\hat y_iy^?i?為橫軸,rir_iri?為縱軸的殘差圖,平面上的點(diǎn)應(yīng)該落在寬度為4的水平帶?2≤ri≤2-2≤r_i≤2?2≤ri?≤2的區(qū)域內(nèi),且不呈任何趨勢(shì)。
,其中將$\hat e 稱為殘差;稱為殘差;稱為殘差;\hat y = X\hat b,,,\hat y_i$稱為擬合值。
以殘差為縱坐標(biāo),以任何其他的量為橫坐標(biāo)的散點(diǎn)圖,稱為殘差圖。
這里以擬合值y^i\hat y_iy^?i?為橫軸,rir_iri?為縱軸的殘差圖,平面上的點(diǎn)應(yīng)該落在寬度為4的水平帶?2≤ri≤2-2≤r_i≤2?2≤ri?≤2的區(qū)域內(nèi),且不呈任何趨勢(shì)。
[外鏈圖片轉(zhuǎn)存中…(img-TaQX83rE-1627610395779)]
[外鏈圖片轉(zhuǎn)存中…(img-8Xf0EFkx-1627610395781)]
總結(jié)
以上是生活随笔為你收集整理的数学建模:线性回归模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于-编码进阶
- 下一篇: floquet端口x极化入射波_hfss