从线性模型到广义线性模型(2)——参数估计、假设检验
1.GLM參數估計——極大似然法
為了理論上簡化,這里把GLM的分布限定在指數分布族。事實上,實際應用中使用最多的分布就是指數分布族,所以這樣的簡化可以節省很多理論上的冗長論述,也不會限制實際應用。
如前文如述,指數分布族的概率密度函數可以統一地寫為:
fY(y;θ,Ψ)=exp[(yθ–b(θ))/Ψ+c(y;Ψ)]
這里為了在模型中體現散布參數(dispersion parameter)?,把上述密度函數中的Ψ記做
Ψ=ai(?)=?/wi
從而響應變量的單個觀測值的(加權)對數似然函數可以表示為:
logL(θi,?;yi)=wi[(yiθi?b(θi))/?]+c(yi,?)
再結合觀測值之間的獨立性,全體觀測值的對數似然函數可記做:∑ilogL(θi,?;yi)
一般情況下最大化上述的對數似然函數很難找到解析解(正態分布是特例之一),因而必須使用數值方法求解。McCullagh和Nelder(1989)證明了使用Newton-Raphson方法,結合Fisher scoring算法,上述對數似然函數的最大化等價于連續迭代的加權最小二乘法(iteratively weighted least squares, or IRWLS)。
廣義線性模型的IRWLS算法如下:
1.設置線性估計量和響應變量的均值的初始估計值:?η^0和μ^0
這里μ^0是根據經驗或是專家意見等信息對μ=E(Y)的一個估計值,而η^0可以利用模型建立時選用的聯接函數來獲得,即η^0=g(μ^0)。這一函數關系也用于計算步驟2和3中η對μ一階導數。
2.構造調整的因變量(adjusted dependent variable):z0=η^0+(y?μ^0)dηdμ|η^0
3.構造權重:w?10=(dηdμ)2|η^0V(μ^0)
這里V(μ^0)是利用方差函數(variance function)和μ^0構造的Var(Y)的估計值。
4.利用步驟2和3構造的調整的因變量和權重,擬合普通線性模型(ordinary linear model),預測/擬合(predict)新的線性估計量和均值:?η^1和μ^1
5.重復步驟2-4直到收斂(滿足一定的迭代步數或是精度要求)。
此時得到的模型就是極大似然估計方法下的廣義線性模型。IRWLS的算法思路也從另一個方面說明了廣義線性模型是普通線性模型的推廣。在廣義線性模型的實際應用中,IRWLS算法是最常用的極大似然估計求解方法。對于特殊的案例,也有其他的特殊的參數估計方法。比如對于在精算學科中最常用的列聯表(contigency table)數據或案例就有Bailey-Simon法、邊際總和法(marginal totals)、最小二乘法(least squares)、直接法(direct method)等。
2.假設檢驗
2.1 空模型和全模型
一個極端的情況,所有自變量xi對于響應變量Y都沒有影響,也即是為所有的響應變量Y擬合一個共同的均值,即只有一個參數。這樣的模型稱為空模型(null model)。對于普通線性模型(正態分布下的GLM)而言,空模型的具體形式就是y=μ+?。對于特殊的數據或案例類型,可能存在著其他的限制條件(constraints)從而空模型的參數個數大于1。比如非壽險精算中經常用到的列聯表(contigency table)數據,其空模型就可能包含了行號、列號、對角線序號等限制。
相反的一個極端情況就是,所有自變量xi的每一個觀測值或稱為數據的樣本點(data points)對于響應變量Y都有影響,這樣的模型稱為全模型(full or saturated model)。一般可以通過構造階數足夠高的多項式或者把所有的量化觀測值(quantitative)視為質化觀測值(qualitive),并且引入適當數量的交叉項(interactions)來構造全模型。
統計建模的目的之一就是把樣本數據劃分為隨機成分和系統成分兩大部分。在這一點上,空模型認為響應變量的變動(variation)完全由隨機性(random variation)造成,而全模型則認為響應變量的變動完全來自于系統成分(systematic)。一個直觀地理解就是全模型是在現有的數據或樣本的條件下,針對某一種分布所能擬合的最優模型,因而可以做為檢驗目標模型擬合優度的一個標準(measure)。
2.2 偏差(Deviance)
如果把全模型的對數似然函數記為l(y,?|y),把目標模型的對數似然函數記為l(μ^,?|y),那么目標模型與全模型在擬合優度上的偏離的定義可寫成2(l(y,?|y)?l(μ^,?|y))。再結合觀測值的獨立性假設和指數散布族的假設,那么上述偏離的定義可以簡化為:
∑i2wi(yi(θ^i–θ~i)–b(θ~i)+b(θ^i))/?
其中ai(?)=?/wi,θ~是全模型下的參數估計值,θ^是目標模型下的參數估計值。如果把上式寫成D(y,μ^)/?,那么D(y,μ^)稱為偏差(Deviance),D(y,μ^)/?則稱為標準化偏差(scaled deviace)。
此外,皮爾遜卡方統計量(Pearson’s chi-square statistics):
X2=∑i(yi–μ^i)2Var(μ^i)
也是衡量模型偏離程度(discrepancy)的統計量之一,在一些場合可以做為偏差的替代選擇。
2.3 擬合優度檢驗
廣義線性模型的假設檢驗可以分為兩種:一是檢驗目標模型相對于數據或預測值的擬合有效性的檢驗(goodness of fit test);另外一種則是對“大”模型以及對“大”模型的參數施加一定的線性約束(linear restrictions)之后得到的“小”模型之間的擬合優度比較檢驗。直觀上的理解就是,“大”模型具有更多的參數,即從參數的線性約束總可把一個或多個參數用其他參數的線性組合來表示,然后代入“大”模型,從而參數的個數減少,派生出所謂的“小”模型,也就是說“大”和“小”并非任意的,而是具有一種派生關系(nested models)。如果把全模型認為是“大”模型,而目標模型是“小”模型,那么上述兩種檢驗的本質是相同的。因而假設檢驗的零假設(null hypothsis)可以統一且直觀地設定為:“小”模型(目標模型)是正確的模型。
如果把大模型記做Ω,把小模型記做ω,其標準化偏差之差記做Dω–DΩ,其自由度之差記做dfω?dfΩ,則構造如下的統計量:(Dω–DΩ)/(dfω?dfΩ)?。
當?是已知常數時,比如泊松和二項分布的情況下?=1,上述統計量在零假設下漸近地(asymptotically)服從卡方分布(正態分布時正好是卡方分布)。當?未知時,通常需要用估計值代替。最常用的估計值是?^=X2/(n?p)這里n是數據中觀測值的數量,p是目標模型的參數個數。此時上述的統計量在零假設下近似地(approximately)服從F分布(正態分布時嚴格服從F分布)。注意上述兩種情況下,漸近和近似的區別。
對于某一個參數,可以使用其估計值的標準誤(standard error)來構造一個z統計量來檢驗其顯著性,即z=β^/se(β^)。在零假設下,z統計量在普通線性模型,也就是正態分布下的廣義線性模型中就是我們熟知的t統計量,嚴格服從t分布。在其他分布下的廣義線性模型中,漸近地服從正態分布。z檢驗也稱為Wald檢驗,在廣義線性模型中效果不如上述的偏差檢驗,因而較少使用。
總結
以上是生活随笔為你收集整理的从线性模型到广义线性模型(2)——参数估计、假设检验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机操作系统第四章测试题及答案
- 下一篇: 迅歌点歌系统服务器过期或不信任怎么办,点