机器学习之EM算法的原理推导及相关知识总结
文章目錄
- 1、知道先驗概率和后驗概率
- 2、了解高斯混合模型GMM
- 3、通過最大似然估計推導(dǎo)EM算法的過程的實例
- 4、EM算法
- 5、知道pLSA模型
1、知道先驗概率和后驗概率
先驗概率(prior probability)是指根據(jù)以往經(jīng)驗和分析得到的概率(理解為自定義概率)。而后驗概率是在考慮了一個事實之后的條件概率。
2、了解高斯混合模型GMM
EM是K-means的推廣
以下的兩個問題都是屬于無監(jiān)督學(xué)習(xí)(對于不知道樣本數(shù)的問題,采用EM算法)
高斯混合模型GMM:隨機(jī)變量x由k個高斯分布混合而成。
GMM參數(shù)估計的理解(相當(dāng)于由變量x的一部分樣本進(jìn)而去估計對應(yīng)的x發(fā)生的概率以及均值μ和方差 )
3、通過最大似然估計推導(dǎo)EM算法的過程的實例
首先知道最大似然估計:多個事件同事發(fā)生的概率。
由身高體重推測男女的例子(參考下圖理解)
1、先對給定的一組數(shù)據(jù)Xi假設(shè)初始自定義的均值μ和方差σ,以及對應(yīng)的分類概率(即使男性、女性的概率是多大)
2、代入對應(yīng)的高斯密度函數(shù)得到對應(yīng)的概率密度值
3、由對應(yīng)的概率密度值以及對應(yīng)的分類概率求的條件概率(即如1.88是男性的概率是多少)
4、重復(fù)以上步驟求其他組對應(yīng)的條件概率的值。(高斯混合分布)
5、將所有組得到的數(shù)據(jù)做條件概率的值乘以數(shù)據(jù)的操作(如1.88乘以0.67)得到整個樣本對應(yīng)的均值μ和方差σ(注意計算均值時對應(yīng)的除數(shù)N代表的是條件概率0.67等的加和)
6、將計算得到的均值和方差不斷的迭代,直到穩(wěn)定為止。
不斷迭代最終直到μ和σ達(dá)到穩(wěn)定值
下圖中所說的概率的加和代表的是0.67+0.4+…即對應(yīng)身高是男性的概率得到最終的N男
掌握每個組份的參數(shù)公式對應(yīng)的含義
4、EM算法
x對應(yīng)的是數(shù)據(jù),z代表的是隱變量如類別(男、女性)。
θ代表未知變量如π、μ、σ
除了想估計x還想估計z(這個z代表的是隱隨機(jī)變量,p代表估計1.88是男性的概率;x代表的是1.88,男性代表的z)
整個過程其實就由求f(θ)轉(zhuǎn)化為求r函數(shù)(下界函數(shù))的極值(減小了參數(shù)個數(shù)),直到r函數(shù)極值等于f函數(shù)的值。
當(dāng)θ0處兩個函數(shù)相等,這時候求r函數(shù)的極值處θ1,這時候若r函數(shù)小,則再固定z選取一條新的函數(shù)r1函數(shù)在θ1處等于p函數(shù),接著再求r1函數(shù)的極值…以此類推。(固定θ找z,再固定z找θ依次類推直到找到穩(wěn)定的值)
E步驟:Q對應(yīng)于實例已知θ求1.88條件下是男性的條件概率的值。
M步驟:θ代表的加權(quán)后求得的均值μ和方差σ。
整個過程就相當(dāng)于固定θ(初始給定的值)求Q(Q代表對應(yīng)的1.88條件下是男性的概率),固定Q(知道這組數(shù)據(jù)對應(yīng)的條件概率的值)求θ(求的對應(yīng)的μ和σ2)…不斷重復(fù)直到結(jié)果穩(wěn)定(Q可以看做是對應(yīng)的下界函數(shù))
5、知道pLSA模型
總結(jié)
以上是生活随笔為你收集整理的机器学习之EM算法的原理推导及相关知识总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Day05-循环和列表字符串、元组和字典
- 下一篇: 【机器学习】梯度下降原理