em 流程示例解释
?
1 極大似然估計:
已知兩枚硬幣, 每次等概率隨機選擇其中1枚擲10次, 正面記為H, 反面為T;
其中A被選中3次, B被選中2次; 每次的正反次數(shù)見圖上半部分。
則可以估計A擲出正面的概率就是 total(A.H)/total(A) = 24/30=0.8,??? 同理可得B正面的概率是 0.45
?
問題很簡單, 解答也很直觀。
?
問題改變?nèi)缦?#xff1a;
2 A,B總共擲了5次, 但不知道A被選中幾次、哪次是A擲出來的,更不知道A擲出正面的概率; 也不知道B的這些信息。 如何求出A、B擲出正面的概率?
解答過程:
A、B擲出正面是相互獨立的
1) 初始隨機選擇值: A.h=0.6, B.h=0.5
2) 對每次擲硬幣過程(每個觀測樣本), 根據(jù)擲硬幣結(jié)果計算此輪選中的硬幣是A、B的概率。 以第一輪5正5反為例:
Sa/Sb = C(10, 5) * 0.6^5 * 0.4^5 / [C(10, 5) * 0.5^5 * 0.5^5]; 且Sa + Sb = 1。
所以Sa = 0.45, Sb = 0.55;? A擲出正面為5 * 0.45 = 2.2 次, 反面為5 * 0.45 = 2.2次。
?
同理對另外4次擲硬幣過程, 也可得到選中A、B的概率以及A、B的正反面次數(shù)。
?
3) 重新估計A.h, B.h。 如何重新估計? 根據(jù)步驟2的結(jié)果中, A.h = total(A.H)/total(A)?= 21.3/29.9 = 0.71, B.h = 0.58;
使用該值,從步驟2重新循環(huán)計算, 迭代。 直到兩次迭代得到的A.h之差在閥值限制之內(nèi), 兩次迭代得到的B.h之差在閥值之內(nèi)
?
4) 迭代結(jié)束時得到A.h=0.8, B.h=0.52; 十分接近理想值【理想值無法得到】
over。
?
?
此示例中, 5次擲幣過程稱作Incomplete data(因為不知道每次擲幣過程選擇的到底是A還是B), 每次到底選擇的是A還是B稱作z,隱藏變量、潛在變量
?
杯具,業(yè)余選手, 各EM論文中對這些的描述都不一致, 讓人頭暈?zāi)X脹, 迷糊好幾天
?
但是, 但是, 從此過程中沒有看出E、M過程啊
總結(jié)
- 上一篇: cent os 下使用hashmap
- 下一篇: 优化