UA MATH571B 试验设计III 单因素试验设计1
UA MATH571B 試驗設計III 單因素試驗設計
- 單因素ANOVA
- 模型設定與假設
- ANOVA F檢驗
單因素ANOVA
方差分析(Analysis of Variance,ANOVA)是兩樣本均值的檢驗的擴展,其作用在于同時比較多組樣本的均值。最基礎最簡單的ANOVA是單因素ANOVA,這一講會介紹這個模型是什么,有什么用,以及使用這個模型需要的假設、如何驗證這些假設是否成立、不成立的話要怎么處理,之后所有的試驗設計模型都按這個套路來介紹。回到第一篇博客的例子,要研究二氧化碳濃度對天竺葵光合作用強度的影響,設置對照組(Control Group)二氧化碳濃度是410ppm,實驗組(Treatment Group)的二氧化碳濃度是400ppm、420ppm。假設對照組葉片累積的淀粉量均值為μ1\mu_1μ1?,實驗組累積的淀粉量為μ2\mu_2μ2?和μ3\mu_3μ3?,關于二氧化碳濃度是否影響天竺葵光合作用強度的假設檢驗可以寫成
H0:μ1=μ2=μ3H_0:\mu_1=\mu_2=\mu_3 H0?:μ1?=μ2?=μ3?
要兩兩比較的話需要C32C_3^2C32?次比較,設置n?1n-1n?1個實驗組就需要做Cn2C_n^2Cn2?次比較,因此兩兩比較的效率非常低,我們需要一種能同時處理多組樣本均值的假設檢驗方法。
模型設定與假設
對于有aaa組樣本均值的假設檢驗問題,可以將兩樣本均值假設檢驗的DGP推廣為
yij=μi+?ij,?ij~iidN(0,σ2)i=1,2,?,a;j=1,2,?,ny_{ij} = \mu_i+ \epsilon_{ij},\epsilon_{ij}\sim_{iid}N(0,\sigma^2)\\ i = 1,2,\cdots,a; j=1,2,\cdots,n yij?=μi?+?ij?,?ij?~iid?N(0,σ2)i=1,2,?,a;j=1,2,?,n
其中μi\mu_iμi?是第iii個level的組內平均或者treatment mean,?ij\epsilon_{ij}?ij?是試驗誤差,這個模型叫做均值模型(mean model)。另外一種等價的寫法是
yij=μ+τi+?ij,?ij~iidN(0,σ2)i=1,2,?,a;j=1,2,?,ny_{ij} = \mu + \tau_i + \epsilon_{ij},\epsilon_{ij}\sim_{iid}N(0,\sigma^2)\\ i = 1,2,\cdots,a; j=1,2,\cdots,n yij?=μ+τi?+?ij?,?ij?~iid?N(0,σ2)i=1,2,?,a;j=1,2,?,n
其中μ\muμ是總體均值(grand mean),τi\tau_iτi?是第iii種factor level的treatment effect,μi=μ+τi\mu_i=\mu+\tau_iμi?=μ+τi?,這個模型叫效應模型(effect model)。這里想研究的是單個treatment factor的不同level對response的影響,所以這個模型叫單因素ANOVA(one-way ANOVA)。假設只研究給定的這些factor level,那么這個模型叫固定效應模型(fixed effect model);如果這些factor level視為是factor level總體的一組隨機樣本,則treatment effect就是隨機的,這種模型叫隨機效應模型(random effect model)。本講只研究固定效應模型。ANOVA模型最終想做的檢驗是
H0:μ1=μ2=?=μaH_0:\mu_1=\mu_2=\cdots=\mu_a H0?:μ1?=μ2?=?=μa?
也可以寫成
H0:τ1=τ2=?=τaH_0:\tau_1=\tau_2=\cdots=\tau_a H0?:τ1?=τ2?=?=τa?
先定義幾個符號
yi.=∑j=1nyij,yˉi.=yi.ny..=∑i=1ayi.,yˉ..=y..ay_{i.} = \sum_{j=1}^n y_{ij}, \bar{y}_{i.} = \frac{y_{i.}}{n} \\ y_{..} = \sum_{i=1}^a y_{i.}, \bar{y}_{..} = \frac{y_{..}}{a} yi.?=j=1∑n?yij?,yˉ?i.?=nyi.??y..?=i=1∑a?yi.?,yˉ?..?=ay..??
要構造這個檢驗需要先估計這個模型,固定效應模型可以用最小二乘法來估計
L=∑i=1a∑j=1n(yij?μ^?τ^i)2L = \sum_{i=1}^a \sum_{j=1}^n (y_{ij}-\hat{\mu}-\hat{\tau}_i)^2 L=i=1∑a?j=1∑n?(yij??μ^??τ^i?)2
分別對μ^\hat{\mu}μ^?與τ^i\hat{\tau}_iτ^i?求偏導,并令其為零可得:
?2∑i=1a∑j=1n(yij?μ^?τ^i)=0?anμ^+∑i=1aτ^i=y..?2∑j=1n(yij+μ^?τ^i)=0?nμ^+nτ^i=yi.,i=1,?,a-2\sum_{i=1}^a \sum_{j=1}^n (y_{ij}-\hat{\mu}-\hat{\tau}_i)=0 \Rightarrow an\hat{\mu}+\sum_{i=1}^a \hat{\tau}_i=y_{..}\\ -2 \sum_{j=1}^n (y_{ij}+\hat{\mu}-\hat{\tau}_i)=0 \Rightarrow n\hat{\mu}+ n\hat{\tau}_i=y_{i.},i=1,\cdots,a ?2i=1∑a?j=1∑n?(yij??μ^??τ^i?)=0?anμ^?+i=1∑a?τ^i?=y..??2j=1∑n?(yij?+μ^??τ^i?)=0?nμ^?+nτ^i?=yi.?,i=1,?,a
注意到后aaa個方程加起來就是第一個方程,因此這其實是一個超靜定的線性系統(tǒng)。這是由于從兩樣本到多樣本的自然推廣其實是均值模型,均值模型恰好能讓方程數目與未知參數數目一致,而效應模型與均值模型相比多了一個參數,所以方程數就少了一個。對均值模型用最小二乘估計,簡單計算一下就知道
nμ^i=yi.?nμ^+nτ^i=yi.,i=1,?,an \hat{\mu}_i = y_{i.} \Rightarrow n\hat{\mu}+ n\hat{\tau}_i=y_{i.},i=1,\cdots,a nμ^?i?=yi.??nμ^?+nτ^i?=yi.?,i=1,?,a
所以明顯均值模型正好存在唯一的估計。為了估計效應模型,最常見的做法是增加一個約束
∑i=1aτ^i=0\sum_{i=1}^a \hat{\tau}_i = 0 i=1∑a?τ^i?=0
增加這個約束后,μ^=y../an\hat{\mu}=y_{..}/anμ^?=y..?/an正好是總體樣本均值,而τi\tau_iτi?的含義也可以解讀為因為第iii種treatment factor level,導致的treatment mean相對grand mean的偏離程度,正好可以用來衡量treatment的作用,所以增加這個約束是合理的。那么在有了這個約束的前提下,效應模型的參數最小二乘估計為
μ^=y..an=yˉ..,τ^i=yi.n?y..an=yˉi.?yˉ..\hat{\mu}=\frac{y_{..}}{an}=\bar{y}_{..} , \hat{\tau}_i = \frac{y_{i.}}{n}-\frac{y_{..}}{an}=\bar{y}_{i.} -\bar{y}_{..} μ^?=any..??=yˉ?..?,τ^i?=nyi.???any..??=yˉ?i.??yˉ?..?
殘差的估計量為
eij=yij?yˉi.e_{ij}=y_{ij}-\bar{y}_{i.} eij?=yij??yˉ?i.?
在最小二乘估計的基礎上,可以用廣義線性檢驗方法完成ANOVA檢驗,具體參考回歸那個系列。
ANOVA F檢驗
Response數據中的信息含量可以用總平方和表示
SST=∑i=1a∑j=1n(yij?yˉ..)2SST = \sum_{i=1}^a \sum_{j=1}^n (y_{ij}-\bar{y}_{..})^2 SST=i=1∑a?j=1∑n?(yij??yˉ?..?)2
現在考慮對總平方和做分解
SST=∑i=1a∑j=1n(yij?yˉi.+yˉi.?yˉ..)2=∑i=1a∑j=1n(yij?yˉi.)2+∑i=1a∑j=1n(yˉi.?yˉ..)2+∑i=1a∑j=1n(yˉi.?yˉ..)(yij?yˉi.)=∑i=1a∑j=1neij2+n∑i=1aτ^i2+0SST = \sum_{i=1}^a \sum_{j=1}^n (y_{ij}-\bar{y}_{i.}+\bar{y}_{i.}-\bar{y}_{..})^2 \\ = \sum_{i=1}^a \sum_{j=1}^n (y_{ij}-\bar{y}_{i.})^2 + \sum_{i=1}^a \sum_{j=1}^n (\bar{y}_{i.}-\bar{y}_{..})^2 + \sum_{i=1}^a \sum_{j=1}^n (\bar{y}_{i.}-\bar{y}_{..})(y_{ij}-\bar{y}_{i.}) \\ = \sum_{i=1}^a \sum_{j=1}^n e_{ij}^2 + n\sum_{i=1}^a \hat{\tau}_{i}^2 + 0 SST=i=1∑a?j=1∑n?(yij??yˉ?i.?+yˉ?i.??yˉ?..?)2=i=1∑a?j=1∑n?(yij??yˉ?i.?)2+i=1∑a?j=1∑n?(yˉ?i.??yˉ?..?)2+i=1∑a?j=1∑n?(yˉ?i.??yˉ?..?)(yij??yˉ?i.?)=i=1∑a?j=1∑n?eij2?+ni=1∑a?τ^i2?+0
其中第一項是殘差平方和(SSE),第二項是試驗平方和(SS of Treatment)記為SSM,第三項為零,因為
∑i=1a∑j=1n(yˉi.?yˉ..)(yij?yˉi.)=∑i=1a(yˉi.?yˉ..)(∑j=1n(yij?yˉi.))∑j=1n(yij?yˉi.)=nyˉi.?nyˉi.=0\sum_{i=1}^a \sum_{j=1}^n (\bar{y}_{i.}-\bar{y}_{..})(y_{ij}-\bar{y}_{i.}) = \sum_{i=1}^a (\bar{y}_{i.}-\bar{y}_{..}) (\sum_{j=1}^n (y_{ij}-\bar{y}_{i.}) ) \\ \sum_{j=1}^n (y_{ij}-\bar{y}_{i.}) = n\bar{y}_{i.}- n\bar{y}_{i.}=0 i=1∑a?j=1∑n?(yˉ?i.??yˉ?..?)(yij??yˉ?i.?)=i=1∑a?(yˉ?i.??yˉ?..?)(j=1∑n?(yij??yˉ?i.?))j=1∑n?(yij??yˉ?i.?)=nyˉ?i.??nyˉ?i.?=0
因此總平方和可以分解為
SST=SSM+SSESST = SSM + SSE SST=SSM+SSE
現在研究這個分解的分布特征。定義N=anN=anN=an為總樣本數。首先考慮,每一組的樣本方差為
Si2=∑j=1n(yij?yˉi.)2n?1S_i^2 = \frac{\sum_{j=1}^n (y_{ij}-\bar{y}_{i.})^2}{n-1} Si2?=n?1∑j=1n?(yij??yˉ?i.?)2?
考慮每一組樣本方差的平均
(n?1)S12+?+(n?1)Sa2(n?1)+?+(n?1)=∑i=1a∑j=1n(yij?yˉi.)2N?a=SSEN?a\frac{(n-1)S_1^2 + \cdots + (n-1)S_a^2}{(n-1)+\cdots+(n-1)}=\frac{\sum_{i=1}^a \sum_{j=1}^n (y_{ij}-\bar{y}_{i.})^2}{N-a}=\frac{SSE}{N-a} (n?1)+?+(n?1)(n?1)S12?+?+(n?1)Sa2??=N?a∑i=1a?∑j=1n?(yij??yˉ?i.?)2?=N?aSSE?
因為殘差獨立同方差,因此上式是方差的無偏估計,也就是說
E[SSEN?a]=σ2E \left[ \frac{SSE}{N-a}\right] = \sigma^2 E[N?aSSE?]=σ2
這個證明比較直接,就是把SSESSESSE仔細展開求期望就好。定義MSE=SSE/dfEMSE=SSE/df_EMSE=SSE/dfE?,dfEdf_{E}dfE?是其對應的自由度。類似地可以定義MSM=SSM/dfMMSM=SSM/df_MMSM=SSM/dfM?,dfM=a?1df_{M}=a-1dfM?=a?1是其對應的自由度,
E[MSM]=σ2+n∑i=1aτi2a?1E[MSM]=\sigma^2 + \frac{n\sum_{i=1}^a \tau_i^2}{a-1} E[MSM]=σ2+a?1n∑i=1a?τi2??
當ANOVA檢驗的原假設成立時,顯然MSMMSMMSM也是方差的無偏估計。根據Cochran定理(參考概率論那個系列的文章),可以構造統(tǒng)計量
F0=SSM/a?1SSE/N?a=MSMSSE~F(a?1,N?a)F_0 = \frac{SSM/a-1}{SSE/N-a} = \frac{MSM}{SSE} \sim F(a-1,N-a) F0?=SSE/N?aSSM/a?1?=SSEMSM?~F(a?1,N?a)
由此可以對原假設做ANOVA F檢驗。ANOVA Table可以表示為
| 試驗 | SSMSSMSSM | a-1 | MSM=SSMdfMMSM = \frac{SSM}{df_M}MSM=dfM?SSM? | F0=MSM/MSEF_0=MSM/MSEF0?=MSM/MSE |
| 殘差 | SSESSESSE | N-a | MSE=SSEdfEMSE = \frac{SSE}{df_E}MSE=dfE?SSE? | |
| 總平方和 | SSTSSTSST | N-1 | MST=SSTdfTMST = \frac{SST}{df_T}MST=dfT?SST? |
總結
以上是生活随笔為你收集整理的UA MATH571B 试验设计III 单因素试验设计1的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH566 统计理论2 点估计
- 下一篇: UA MATH571B 试验设计II 简