多元线性回归分析(Stata)
??本文借鑒了數學建模清風老師的課件與思路,可以點擊查看鏈接查看清風老師視頻講解:清風數學建模:https://www.bilibili.com/video/BV1DW411s7wi
一、前言
二、回歸分析簡介
?
?
?
?該問題可通過后文提到的標準化回歸解決。
?
?
?三、數據的簡介
3.1 數據的分類
?
?3.2 數據的收集
四、對數據的處理
?詳見《Excel對數據進行預處理》文件。
五、內生性的探究(實際操作時不是很重要)
?
六、分類變量的設置
在Stata里操作時,會自動設置對照組,從而避免多重共線性的影響。?
七、案例背景
八、Stata實現多元線性回歸
8.1 Stata基礎
8.2 Stata里進行描述性統計分析
?這里的數據為連續性數據,得到的結果在Excel里優化一下再放入論文中。
?這里的數據為分類數據,tab命令可以得到分類數據的頻數分布表,gen命令可以對該分類變量生成虛擬變量。
?可將該指標總體情況放入論文中。
8.3 案例第1問求解
8.3.1 不加入分類變量時的回歸
?這里只用了兩個自變量進行演示。
其中,第一個表里,聯合顯著性檢驗=0<0.05代表在95%的置信水平下(這里看你自己定為95%還是90%),拒絕原假設,模型通過了聯合顯著性檢驗,所以該線性模型才是有意義的。調整后的R^2為0.0346,這里因為是對其進行分析而不是預測,所以可不用關注R^2,在預測的時候再重點關注即可。
第二個表里,Coef一列為兩個指標的回歸系數。團購價的P值是在t檢驗下得到的,表示在95%的置信水平下,有一個自變量(團購價)是顯著的,-35.39873代表在其他自變量不變的情況下,當團購價平均每增加1元,就會導致評價量平均減少35.39873,商品毛重該變量不顯著,故不對其進行分析;_cons為常數項,也是顯著的。
在回歸之后,可以通過下面的命令將回歸的結果保存到一個word里(詳見stata里操作),其中,*** p<0.01 ?** p<0.05 * p<0.1分別為在99%,95%,90%的置信水平下顯著。
regress 評價量 團購價元 商品毛重kg // 下面的語句可幫助我們把回歸結果保存在Word文檔中 // 在使用之前需要運行下面這個代碼來安裝下這個功能包(運行一次之后就可以注釋掉了) // ssc install reg2docx, all replace // 如果安裝出現connection timed out的錯誤,可以嘗試換成手機熱點聯網,如果手機熱點也不能下載,就不用這個命令吧,可以自己做一個回歸結果表,如果覺得麻煩就直接把回歸結果截圖。 est store m1 reg2docx m1 using m1.docx, replace // *** p<0.01 ** p<0.05 * p<0.1word里的結果如下:
8.3.2?加入分類變量時的回歸
這里Stata自動對多重共線性問題進行解決,即在分類變量里隨機設置 一組對照組。
?完整圖見Stata里操作。和上面的沒加入分類變量時的操作步驟類似,分析是一樣的,說明聯合顯著性檢驗、調整后的R^2、回歸系數和P值即可。
最終的結果為:
第一個表里,聯合顯著性檢驗=0<0.05代表在95%的置信水平下(,拒絕原假設,模型通過了聯合顯著性檢驗,所以該線性模型是有意義的。
第二個表里,Coef一列為兩個指標的回歸系數(這里可以參考Excel作圖這篇文章里的對回歸系數顯不顯著作可視化處理放入論文中)。團購價的P值是在t檢驗下得到的,表示在95%的置信水平下,自變量團購價和F1(分類=牛奶粉)是顯著的,-29.77274代表在其他自變量不變的情況下,當團購價平均每增加1元,就會導致評價量平均減少29.77274,?14894.55代表在其他自變量不變的情況下,分類為牛奶粉的評價量比羊奶粉(因為羊奶粉為對照組)的評價量平均高出29.77274。
8.3.3 關于調整后R^2值太小怎么辦
?在論文中放入調整后R^2時,可以將調整后R^2的介紹放進去。
8.4?案例第2問求解
所謂的標準化回歸就是在對數據標準化后再使用回歸。
關于回歸結果的可視化見??柱狀圖可視化回歸結果
?九、論文點評
9.1 一篇錯誤很多的論文《基于多元回歸模型的大學生期末數學成績影響因素探究》點評
其中,期末成績為y,其他四個變量為x。
?這里并沒有對回歸系數說明各自為多少,R^2也不是相關系數,是擬合優度,顯著性也沒告訴。在數據歸一化后,在對回歸系數解釋那里就不好說了。
也不用加入平方項,只是對數據進行分析,不用這么復雜,如果是預測的話還行,加入平方項之后也不好解釋。
數據也不用進行歸一化。
?這里就和上面案例第二問一樣,求哪個x對影響最大,這里可以直接用標準化回歸系數。
9.2 清風的畢業論文點評
詳見清風的論文和答辯PPT。一定要去看!!!
十、異方差(回歸之前檢驗數據是否存在異方差)
10.1 異方差介紹
10.2 檢驗異方差
10.2.1 圖形檢驗
這里是通過繪制殘差圖來看,但并不嚴謹。圖1為殘差與擬合值的散點圖,在擬合值較小時數據幾乎沒有波動,變大時波動就很明顯,故數據存在異方差;圖2為殘差與自變量x(這里x可以隨機給)的散點圖,在團購價較小時,波動很大,而當團購價變大時,波動較小,故數據存在異方差。
stata保存圖片的命令見? regress_stata
?
?10.2.2 假設檢驗
(1)BP檢驗
?
?(2)懷特檢驗(推薦使用這個檢驗)
10.3 異方差的處理方法
?可以將藍色字體寫入論文中,然后使用第一種方法。
十一、多重共線性(回歸結束后用)
11.1 多重共線性介紹
?前文提到的完全多重共線性Stata會自動幫我們解決。紅色框起來的為多重共線性帶來的問題。
11.2 多重共線性檢驗
?11.3 多重共線性的處理方法
(1):如果回歸是用來預測的話,可以不管多重共線性,只管R^2即可。
(2):如果只關心回歸系數也不用管。
(3):關心變量即核心解釋變量,可以嘗試刪除這些變量。
十二、逐步回歸
12.1 逐步回歸簡介
?使用向后逐步回歸就行。
12.2 Stata實現逐步回歸
?因為逐步回歸不能有完全多重共線性,所以運行該數據時報錯了,解決方法為:前面運行的回歸Stata檢測出了哪些變量為完全多重共線性的,此時只需剔除這些變量再重新運行即可。
?上面兩圖為Stata里向前、向后逐步回歸的演示。
?12.3?逐步回歸說明
?(2)可以忽略,使用的時候就用向后逐步回歸就行,然后分析顯著的變量。
總結
以上是生活随笔為你收集整理的多元线性回归分析(Stata)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VGA显示使用800*600的像素显示【
- 下一篇: Simulink子系统