excel线性拟合的斜率_协方差分析:方差分析与线性回归的统一
轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:協方差分析:方差分析與線性回歸的統一。
在進行數據分析時,有時候我們會遇到數據基線不平的情況,比如兩樣本的t檢驗的示例,比較Labe和Meto用藥13周的降壓效果,但一開始用藥的時候兩組舒張壓的差別便有統計學意義。除了文中使用的差值比較,協方差分析是一個非常不錯的選擇。
協變量是對觀察結果有影響但無法或難以控制的因素。協方差分析是通過直線回歸的方式把協變量值化為相等(協變量取值其總均數)后求得因變量的修正均數,以此控制混雜因素的影響后,用方差分析比較修正均值間的差別。
適用條件:
(1)協變量為連續變量,且各組因變量與協變量呈線性關系;
(2)各組因變量殘差呈正態分布;
(3)各組因變量殘差等方差;
(4)各組因變量和協變量的回歸線平行,即斜率相等。也就是要求對于不同的自變量,協變量對因變量的影響相同。如不滿足平行線假定,說明自變量和協變量存在交互作用,他們會同時對因變量產生影響,這樣混雜起來我們就無法控制協變量。
(5)在考察因變量與協變量的線性關系時,嚴格來講也需要考察建立每條回歸直線的前提:線性趨勢、獨立、正態、方差齊、不存在多重共線、無明顯異常點等,具體可參考“多因素線性回歸”。
示例“兩獨立樣本的t檢驗”數據來自excel的自動生成,沒有任何實際意義。嚴格來說,本例因變量與協變量的線性關系也不明顯,并不適合使用協方差分析。本例為演示操作步驟和結果解讀使用。
示例1 SPSS操作步驟與結果解讀
【1】條件考察
(1)因變量與協變量的線性關系考察
Graphs>>ChartBuilder…
結果顯示,不論Labe組還是Meto組,舒張壓的基線值與治療后結果線性關系并不明顯,不適合使用線性模型來統計推斷。注:本示例數據是通過Excel自動生成,沒有任何實際意義。
實際上使用線性模型進行擬合的結果也顯示,兩組的基線值與治療后的舒張壓并不成線性關系,線性擬合步驟如下:
Analyze>>Regression>>Linear…
- Dependent(因變量):Dw13;
- Independent(自變量):Dbl;變量篩選方法(Method):Enter
- SelectionVariables(篩選變量):通過Rule篩選Group=1和Grou=2,分別進行兩次線性擬合
主要結果:
Group=1:模型F=0.250,P=0.620;Dbl系數估計值-0.109,t=-0.500,P=0.620。
Group=2:模型F=0.190,P=0.666;Dbl系數估計值0.081,t=0.435,P=0.666。兩個模型均只有一個自變量,系數檢驗和模型檢驗是一致的。
線性關系不成立是不能直接進行協方差分析的。為更好的演示操作,本例繼續協方差進行分析的后續步驟。
(2)平行線假定檢驗:要檢驗治療前和治療后的舒張壓的回歸線是否平行,即治療前舒張壓對治療后舒張壓的影響在labe和meto兩個組中是否相同,可用治療前舒張壓(Dbl)與治療方法(Group)是否存在交互作用來表示。
Analyze>>GeneralLinear Model>>Univariate…
因變量:Dw13;固定因素:Group;協變量:Dbl
Model…對話框>>選擇“Build Term”構建含有“Group、Dbl、Group*Dbl”的模型
其他默認選項
注:Model…對話框:全因素模型可以考察所有因素及其之間的交互作用,但各因素與協變量的交互作用不會輸出,需要強行納入處理因素和協變量的交互作用以進行分析,即group處于不同水平時,Dw13隨Dbl變化的斜率是否相等。
結果顯示:Group與Dbl的交互項無統計學意義(F=0.442,P=0.508),可以認為兩組的斜率相同。
(3)殘差正態性與方差齊性考察
生成殘差:Analyze>>General Linear Model>>Univariate…
因變量:Dw13;固定因素:Group;協變量:Dbl。
Save…對話框>>PredictedValues:Unstandardized;Residuals:Unstandardized、Srandardized。
正態性與方差齊性考察:Analyze>>Descriptive Statistics >>Explore…
因變量列表選入新生成的變量“Residual for Dw13[RES_1]”,因素列表選入“Group”;
Plots…對話框>>選中Normality plots with tests、Spread vs Levelwith Levene Test中的Untransform。方差齊性檢驗也可以直接在“選項”對話框中選擇“Homogeneity tests”。
結果顯示:Labe組數據呈正態,Meto組數據正態性一般,結合QQ圖可以認為近似正態??梢哉J為兩組方差相等。
正態性和方差齊性的檢驗方法很多,具體可參考正態分布與方差齊性的檢驗方法與SPSS操作,若要求不嚴格,可以直接用原始數據代替殘差進行檢驗。
(4)因變量與協變量的線性回歸條件檢驗本例略,可參考“多因素線性回歸”。
【2】協方差分析
Analyze>>GeneralLinear Model>>Univariate…
因變量:Dw13;固定因素:Group;協變量:Dbl。
Model(模型)…>>選擇“Build Term”構建含有“Group、Dbl”的模型?;蛘咧苯舆x擇默認的全因素(Full factorial)模型。在適用條件的分析中,已經得出兩組斜率相同,Group和Dbl的交互項無統計學意義,因此Group*Dbl應從模型中剔除。
EMMeans(邊際均數)…>>顯示邊際均值框選入Group。選中“比較主效應”用于所選因素不同水平的主效應的邊際均值兩兩比較,默認LSD法,本例只有兩組,跟組間整體比較是一致的?!斑呺H均數”的各個選項在舊版本中存在于“選項”對話框中。邊際均數是剔除了其他變量的影響用于各水平比較的估計值,當分析模型含有協變量,邊際均值和原始均值并不對應。
Save(保存)…>>去掉在平行性檢驗中選中的變量。
Options(選項)…>>Display(輸出內容):Descriptive statistics(描述性統計量)、Parameterestimates(參數估計)、Homogeneity tests(方差齊性檢驗)。
其他默認選項。
【3】結果與解讀
(1)受試者間因素信息
(2)描述性統計量。兩組舒張壓在用藥13周后絕對數值上有差異。
(3)方差齊性檢驗:可以認為兩組殘差方差齊同(F=0.013,P=0.909>0.05)。
(4)受試者間效應檢驗??紤]了協變量之后的方差分析結果。舒張壓的基線水平對治療結束的舒張壓沒有影響(F=0.000,P=0.985>0.05),不同的用藥方案治療結束后舒張壓不同(F=6.599,P=0.012<0.05)。
(5)參數估計。給出模型方程的一些系數,Dw13=88.613-0.003Dbl+0.977Group。注意SPSS默認以取值較高的水平(Group=2)為對照。舒張壓的基線水平對治療結束的舒張壓水平沒有影響(t=-0.109,P=0.985>0.05),與Meto組相比,Labe組治療后血壓值偏高0.977(t=2.569,P=0.012<0.05)。
(6.1)修正均值估計。一般來說經過修正后組間差異會變小,原數據均值可參見描述性統計量表的結果。另外表格還顯示,Dw13的修正均值是按基線Dbl=100.2進行評估,這個值實際上就是協變量的總均數。
(6.2)修正均值成對比較。本例只有兩組,與6.3的整體比較結果一致。
(6.3)修正均值的單因素方差分析。組間效應的方差分析結果,同受試者間效應檢驗結果一致。不同的用藥方案治療結束后舒張壓不同(F=6.599,P=0.012<0.05)。
【4】多重線性回歸也可以用于這種協變量的分析。
Analyze>>Regression>>Linear…
- Dependent(因變量):Dw13;
- Independent(自變量):Dbl、Group;變量篩選方法(Method):Enter。
主要結果與協方差分析的參數估計一致,系數檢驗也與協方差分析的組間t檢驗結果完全一致,不再累述。系數表中Group的系數為-0.977,而協方差分析中為0.977,是參照水平不同造成的。
示例2 :60名糖尿病患者隨機分為3組,分別給與常規藥、新藥A和新藥B的降血糖治療,比較3組治療的血糖值。
這個案例,第一考慮就是采用完全隨機設計的方差分析,可以直接使用One-Way ANOVA過程或者Univariate過程進行,具體過程可參考方差分析。結果顯示,3組治療后效果沒有統計學差異(F=2.171,P=0.123)。但同時我們也發現治療前的血糖的基線值有統計學意義(F=4.457,P=0.016<0.05),其中常規藥和新藥B存在統計學差異(P=0.004)。我們很難說治療后的效果沒有統計學差異,是因為不同的給藥方法治療效果一樣,還是因為基線值的差異造成的。可以考慮使用協方差分析剔除基線值對結果的影響。
【1】條件考察。
(1)線性趨勢考察:Graphs>>Chart Builder…
結果顯示3組線性趨勢較為明顯。但從擬合線上看,3條回歸直線存在交叉,可能不滿足回歸線平行的條件,需要在統計學上進行檢驗。
(2)平行線檢驗:Analyze>>General Linear Model>>Univariate…
結果顯示協變量與分組變量交互作用沒有統計學意義(F=1.901,P=0.159>0.05),滿足回歸線平行的條件。
(3)正態性、方差齊性考察。步驟略,可參見示例1。各組數據殘差呈正態分布,方差齊同。
【2】協方差分析:Analyze>>General Linear Model>>Univariate…
主要結果:
(1)受試者間因素信息。
(2)描述性統計量。三組血糖值在用藥后平均值、標準差及案例數。
(3)方差齊性檢驗:三組殘差方差齊同(F=1.682,P=0.195>0.05)。
(4)受試者間效應檢驗。建立的分析模型有統計學意義(F=88.784,P<0.001),說明至少有一個因素(分組變量或協變量)對因變量有影響?;€值(協變量值)的確能對最終的結果產生影響(F=243.549,P<0.001),不同的用藥方案治療效果也不同(F=6.299,P=0.003<0.001)。
(5)模型參數估計。基線值(協變量值)對最終結果的影響有統計學意義(t=15.606, P<0.001),t值15.606=協方差分析中F值243.549的平方,治療前血糖每升高1mmol/L,治療后血糖升高0.604mmol/L。與藥物B(Group=3)相比,常規藥物(Group=1)有治療效果更差(t=2.216,P=0.031<0.05),將藥物B改用常規藥物進行治療,血糖升高0.665mmpl/L;與藥物B(Group=3)相比,藥物A(Group=2)有治療效果更差(t=3.523,P=0.001<0.05),將藥物B改用藥物A進行治療,血糖升高1.001mmpl/L。
(6)邊際均數的估計值。因變量邊際均數、標準誤及95%置信區間,治療后血糖值End的修正均值是按基線Baseline=13.298進行評估,該值是協變量基線值的的總均數。
(7)邊際均數的成對比較。結果顯示藥物B治療效果好于常規藥物(P=0.031)和藥物A(P=0.001),藥物A和常規藥物治療效果沒有統計學差異(P=0.244)。邊際均數是剔除了其他變量的影響用于各個水平比較的估計值,當分析模型含有協變量,邊際均值和原始均值并不對應,原始均值的Post Hoc比較可參見示例2開始處表格。
(8)受試者間邊際均數的總體比較。同受試者間效應檢驗結果一致,F=6.299,P=0.003,不同的用藥方案治療效果也不同。
【3】同樣的,該示例也可改用多因素線性回歸,可以得到與協方差分析相一致的結果,但需要對無序多分類的分組變量(Group)進行啞變量設置,以常規藥物(Group=1)為參考水平為例,步驟如下:
(1)DrugA啞變量編碼:Transform>>Recodeinto Different Variables…
重復以上操作(或在DrugA啞變量設置基礎上對Old and New Variable對話框中的賦值修改),進行DrugB的啞變量編碼。如果變量較多,可以直接在完成第一個啞變量的編碼后,點擊Paste按鍵進入程序編輯器,復制黏貼修改賦值的方法進行全部啞變量的設置,如本例可以復制第一行,然后對賦值進行修改,如下(黑體為粘貼修改后的內容):
RECODE Group (2=1) (ELSE=0) INTO DrugA.
RECODE Group(3=1) (ELSE=0) INTO DrugB.
EXECUTE.
然后點擊運行即可。
(2)多因素線性回歸:Analyze>>Regression>>Linear…
- Dependent(因變量):End;
- Independent(自變量):Baseline、DrugA、DrugB;變量篩選方法(Method):Enter。要特別注意,啞變量要遵循同進同出的原則,如進行變量篩選,可以將啞變量放在一個Block中進行。
(3)主要結果:回歸模型有統計學意義(F=88.784,P<0.001),基線值(協變量值)的確能對最終的結果產生影響(t=15.606, P<0.001), t值15.606=協方差分析中F值243.549的平方,治療前血糖每升高1mmol/L,治療后血糖升高0.604mmol/L。與常規藥物相比,藥物B具有更好的治療效果(t=-2.216,P=0.031<0.05),將常規藥物改用藥物B進行治療,血糖可以降低0.665mmpl/L,而藥物A的治療和常規藥物的治療效果類似(t=1.178,P=0.244>0.05)。
注意示例編碼是DrugA和DrugB是與常規藥物相比,如要比較藥物A和藥物B則需要對啞變量的賦值進行修改。此處有人可能會發現,系數與協方差分析的參數估計系數估計值不一致,這是因為SPSS默認以取值較高的水平(Group=3,DrugB)為對照,如將常規藥、藥物A和藥物B分別賦值為3、2、1,并在數據表中對應的記錄做修改后做協方差分析,結果和采用啞變量的分析完全一致,結果如下:
還有一個問題要考慮,當協變量與因變量的回歸線不平行,及分析因素與協變量存在交互作用時,該如何處理?除了數據變換處理,可以進行分段進行協方差分析,或者在分析因素不同水平上分別進行分析。在多因素線性回歸中,我們可以考慮引入交互項,但引入交互項和可能帶來的問題是分析因素與交互項存在多重共線,在多因素線性回歸一文的最后,我們采用的方法是將變量中心化。當然也可以不引入交互項,而在分析因素不同水平上分別進行線性回歸。最后,本例擬合多因素線性回歸將無序多分類的分組因素重新編碼為啞變量,對分類變量除了使用這種辦法,還可以使用分類變量的最優尺度回歸來進行。
END
轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:協方差分析:方差分析與線性回歸的統一。
總結
以上是生活随笔為你收集整理的excel线性拟合的斜率_协方差分析:方差分析与线性回归的统一的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: http --- http与https
- 下一篇: 算法 --- 回溯法