机器学习:最大似然估计与最大后验概率估计
在機(jī)器學(xué)習(xí)領(lǐng)域,概率估計(jì)是經(jīng)常用到的一種模型,而概率估計(jì)中,我們經(jīng)常會(huì)看到兩種估計(jì)模型,一種是最大似然估計(jì),即 Maximum likelihood, 另外一種就是最大后驗(yàn)概率估計(jì),即 Maximum posterior , 兩種模型可以由貝葉斯定理演化而來。
在介紹這兩種模型之前,我們先來看一下貝葉斯定理:
p(w|D)=p(D|w)p(w)p(D)
這里,D 表示觀察到的數(shù)據(jù),而 w 表示我們要求的變量或者參數(shù)。我們來看看貝葉斯定理中,每一項(xiàng)所表示的含義: 
p(D) 表示數(shù)據(jù)的概率分布 
p(w) 表示參數(shù)w 的概率分布,一般稱為先驗(yàn)概率分布,因?yàn)槲覀儽疽馐且?w 的,所以理論上來說,我們無法事先確切地知道 w 的概率分布,但是我們可以給出一個(gè)大概的經(jīng)驗(yàn)估計(jì),所以稱為先驗(yàn)分布 prior distribution。 
p(D|w) 表示似然函數(shù) likelihood function。 
p(w|D) 表示后驗(yàn)概率分布 posterior distribution。
p(D|w) 表示了一種 “似然率”, 對于不同的參數(shù)w, 我們觀測到數(shù)據(jù)D 的概率是不同的, 最大似然估計(jì), 就是找到 w, 使得我們觀測到數(shù)據(jù)D 的概率最大。所以最大似然估計(jì)可以表示為:
maxwp(D|w)
p(w|D) 表示后驗(yàn)概率,如果給定了觀測數(shù)據(jù), 我們可以推測參數(shù)w 的概率分布, 根據(jù)貝葉斯定理,我們可以看出:
posterior∝likelihood×prior
即:
p(w|D)∝p(D|w)×p(w)
而貝葉斯定理中的分母 p(D) 是一個(gè)歸一化變量, 可以看出
p(D)=∫p(D|w)p(w)dw
換句話說,后驗(yàn)概率與似然函數(shù)和先驗(yàn)概率之積是成比例的。
我們可以看到,無論是最大似然估計(jì)還是最大后驗(yàn)概率估計(jì),似然函數(shù)都發(fā)揮著重要作用。但這兩種估計(jì),反應(yīng)了兩種觀點(diǎn)。最大似然估計(jì)是古典統(tǒng)計(jì)學(xué)派的觀點(diǎn),古典統(tǒng)計(jì)學(xué)派認(rèn)為,參數(shù)w 是固定的,可以通過觀測到的數(shù)據(jù)直接求出來。而最大后驗(yàn)概率估計(jì)是貝葉斯學(xué)派的觀點(diǎn),貝葉斯學(xué)派認(rèn)為,只有數(shù)據(jù)是可見的,參數(shù)w 也是不固定的,而是滿足一定概率分布 p(w|D) 的。
這兩種模型,孰優(yōu)孰劣,一直以來都是莫衷一是,未有定論。最大似然估計(jì)被人詬病之處是估計(jì)存在bias,在某些極端情況下,是違反經(jīng)驗(yàn)與直覺的。最大后驗(yàn)概率估計(jì)可以有效地減弱這種bias,但是最大后驗(yàn)概率需要引入先驗(yàn)概率分布 p(w), 所以最大后驗(yàn)概率估計(jì)的效果,也取決于先驗(yàn)概率的設(shè)定,一個(gè)糟糕的先驗(yàn)概率將會(huì)導(dǎo)致一個(gè)糟糕的后驗(yàn)概率估計(jì)。
> 
 Andrew Ng, “Machine Learning”, Stanford University. 
 C.M.Bishop, “Pattern Recognition and Machine Learning”.
轉(zhuǎn)載于:https://www.cnblogs.com/mtcnn/p/9412495.html
總結(jié)
以上是生活随笔為你收集整理的机器学习:最大似然估计与最大后验概率估计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: JS与APP原生控件交互
 - 下一篇: [trouble shoot]atol和