EM算法【图像迭代】
最近在讀李航寫的《統(tǒng)計(jì)學(xué)習(xí)方法》,想要遷移一些知識(shí)到圖像重建領(lǐng)域,首先總結(jié)一下EM算法:
EM算法算是機(jī)器學(xué)習(xí)中有些難度的算法之一,也是非常重要的算法,曾經(jīng)被譽(yù)為10大數(shù)據(jù)挖掘算法之一,從標(biāo)題可以看出,EM專治帶有隱變量的參數(shù)估計(jì),我們熟悉的MLE(最大似然估計(jì))一般會(huì)用于不含有隱變量的參數(shù)估計(jì),應(yīng)用場(chǎng)景不同。
首先舉一個(gè)帶有隱變量的例子吧,假設(shè)現(xiàn)在有1000人的身高數(shù)據(jù),163、153、183、203、173等等,不出意外肯定是男生或者女生組成的這1000個(gè)人,那么這個(gè)163cm我們就沒辦法知道是男生的還是女生,這其中男女就是一個(gè)隱變量,我們只能看到163cm,但是看不到背后男女這個(gè)隱變量。
用Y表示觀測(cè)數(shù)據(jù),Z表示隱變量(男女身高例子中就是男女這個(gè)隱變量),Y和Z在一起表示為完全數(shù)據(jù),假設(shè)Y、Z的聯(lián)合分布概率為P(Y,Z|θ),對(duì)數(shù)似然為logP(Y,Z|θ),EM算法通過迭代求得L(θ)=logP(Y,Z|θ)的最大似然估計(jì),每次迭代分為兩步:E-step ,求期望。M-step,求最大化,下面來介紹EM算法。
EM算法的提出
假定有訓(xùn)練集:
現(xiàn)在有m個(gè)獨(dú)立樣本。希望從中找到該組數(shù)據(jù)的模型p(x, z)的參數(shù),
我們可以通過最大似然估計(jì)建立目標(biāo)函數(shù),然后取對(duì)數(shù)似然:
事實(shí)上,EM算法是通過迭代逐步接近最大化L(θ),那么我們現(xiàn)在不妨假設(shè)第i次迭代后θ的估計(jì)值為θi,我們當(dāng)然希望重新估計(jì)的θ能使似然函數(shù)L(θ)有所增大,并逐漸逼近最大值,因此,我們做差:
利用jensen不等式,我們找到其下界:
雖然看上去有點(diǎn)亂,其實(shí)就是在里邊偷偷的再里邊乘上一個(gè)P和除上一個(gè)P,沒任何難度,
令:
則:
由此可知B為L的一個(gè)下界,那么我們根據(jù)上式可得:
那么任何能使B增加的的θ一定也可以使L(θ)增大,為了使L(θ)盡可能的增大,我們可以選擇一個(gè)θi+1使得B達(dá)到最大:
既然是求θi+1,那么就省略掉常數(shù)項(xiàng):
這就完成了EM算法的一次迭代,EM算法其實(shí)就是通過不斷求解下界的極大化逼近求解歲數(shù)似然函數(shù)的極大值算法。
下圖使一個(gè)比較直觀表示EM算法求解過程:
從這幅圖中不難看出,EM算法不能保證找到全局最最優(yōu)值。
算法:
輸入:觀測(cè)數(shù)據(jù)Y,隱變量Z,聯(lián)合分布P(Y,Z|θ),條件分布P(Z|Y,θ);
輸出:模型的參數(shù);
(1): 選擇參數(shù)的初始值θ0,開始迭代;
(2): E步:記θi為第i次迭代的參數(shù)θ的估值,在第θ+1次的迭代,計(jì)算:
其中P(Z|Y,θi)是給定觀測(cè)數(shù)據(jù)Y和當(dāng)前參數(shù)估計(jì)θi的前提下,隱變量Z的條件概率分布。
(3): M步:求使Q(θ,θi)極大值的θ,確定第i+1次的參數(shù)估計(jì)值θi:
(4): 重復(fù)第2、3步,直到收斂。
說明:
完全數(shù)據(jù)的對(duì)數(shù)似然函數(shù)logP(Y,Z|θ)關(guān)于在給定Y和θi的前提下對(duì)未觀測(cè)數(shù)據(jù)Z的條件概率分布P(Z|Y,θi)的期望稱為Q函數(shù):
關(guān)于EM算法的幾點(diǎn)注意:
步驟(1):?θ參數(shù)初值是可以隨便給定的,但是EM算法對(duì)于初值選擇是敏感的。
步驟(2): E-step求得Q(θ,θi),Q函數(shù)中Z是隱變量,Y是觀測(cè)數(shù)據(jù),Q(θ,θi)中第一個(gè)變?cè)潜硎疽獦O大化的參數(shù),第二個(gè)表示當(dāng)前的估計(jì)值,每次迭代實(shí)際上是在求Q的最大化。
步驟(3): M-step中試求Q(θ,θi)的最大值,得到θi,完成一次迭代。
步驟(4): 給出迭代終止條件,一般是較小的正數(shù)ε1,ε2,若滿足:
關(guān)于圖像:
而對(duì)于圖像的模型,PSF模糊核一般是未知參數(shù),一般假設(shè)圖像符合泊松分布,似然函數(shù)沒有解析解,所以一般采用迭代的方式求解,完全數(shù)據(jù)(I,PSF),求x( I=Possion(PSF*x) );
假如缺失數(shù)據(jù)PSF己知,則可能得到一個(gè)關(guān)于I的簡(jiǎn)單的添加,利用p(I/x,PSF)的簡(jiǎn)單性可以進(jìn)行各種統(tǒng)計(jì)計(jì)算。然后當(dāng)然可以又對(duì)PSF做檢查。總結(jié)
以上是生活随笔為你收集整理的EM算法【图像迭代】的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 记录 FreeBSD
- 下一篇: java HashMap问题