em notes
零
K 類個(gè)數(shù), M term個(gè)數(shù), N doc個(gè)數(shù)。
?
?
?
一
qmk是term m在類k中出現(xiàn)的概率。
16.14式的左邊含義就是在模型未知參數(shù)theta的情況下, 類k中包含文檔d的概率
右邊就是d內(nèi)的所有term出現(xiàn)在類k中的概率連乘積, 與d內(nèi)未出現(xiàn)的term的補(bǔ)(1-q)的連乘積
?
?
?
二
?
和16.14式不同的是, 無wk了。
那么16.15左式的含義就是, 在該模型未知參數(shù)下, 文檔d出現(xiàn)在該模型下的概率。
Alpha k是每個(gè)類的先驗(yàn)概率。
上式右邊就是文檔d出現(xiàn)在類k的概率, 然后加權(quán)求和
?
?
三
?
最大化步, 重新評(píng)估模型參數(shù)qmk, alpha k
r(nk) 是文檔dn 率屬于 類k的概率
?
I(tm, dn), 如果term m在文檔dn中出現(xiàn)則為1, 否則為0.
?
那么這里的qmk, 即term m在類k中出現(xiàn)的概率, 實(shí)際上就是個(gè)加權(quán)值(加權(quán)的DF)。 分母是類k中所有文檔的概率之和, 分子是類k中包含了term m的文檔的概率之和。
?
?
alpha k是先驗(yàn)概率, 表示類k的大小。 那么就是 所有文檔率屬于類k的概率之和除以文檔總數(shù)
?
?
?
四
?
期望步, 計(jì)算rnk的極大似然值
分子是文檔dn在類k中的概率乘以類k的先驗(yàn)概率。 (式16.14)
分母是文檔dn在所有類中的概率乘以對(duì)應(yīng)類的先驗(yàn)概率 得到的和。(式16.15)
因此, 文檔dn出現(xiàn)在類k中的概率理所當(dāng)然就是兩者之商。
?
?
?
EM算法對(duì)initial seeds的要求更嚴(yán)格。 一般使用k-means算法得到k個(gè)centroid,從而得到先驗(yàn)概率alpha k以及 qmk。
?
EM算法是generalized k-means。
K-means是硬的分類方法, 每個(gè)doc只能屬于一個(gè)類; EM是軟的分類方法, 每個(gè)doc在不同的類中都有一定的概率
?
?
?
?
具體算法見 weak, em http://blog.csdn.net/aalbertini/archive/2010/08/11/5804318.aspx
初始化
已知k個(gè)質(zhì)心、以及每類中的樣本數(shù)以及具體樣本, 因此可以得到:
m_priors, k個(gè)先驗(yàn)概率, 表示每個(gè)類的先驗(yàn)大小
m_num_clusters, 類個(gè)數(shù)k。 一般是輸入。
m_model[K][M], 每個(gè)類中每個(gè)屬性的概率, 就是上式中qmk的轉(zhuǎn)置形式
m_weights[N][K], 每個(gè)文檔在每個(gè)類中的概率, 就是16.14/16.15得到的矩陣。 初始值應(yīng)該為硬分類的結(jié)果, 即其中每行只有1個(gè)1, 其他都為0。 就是上式中的rnk
?
M step
根據(jù) m_priors, m_weights 重新計(jì)算m_model
?
E step
根據(jù) m_priors, m_model 重新計(jì)算 m_weights。 當(dāng)達(dá)到退出條件時(shí)結(jié)束
總結(jié)
- 上一篇: 贝叶斯与门后奖
- 下一篇: weka: best first sea