【数学基础】参数估计之贝叶斯估计
從統(tǒng)計(jì)推斷講起
統(tǒng)計(jì)推斷是根據(jù)樣本信息對(duì)總體分布或總體的特征數(shù)進(jìn)行推斷,事實(shí)上,這經(jīng)典學(xué)派對(duì)統(tǒng)計(jì)推斷的規(guī)定,這里的統(tǒng)計(jì)推斷使用到兩種信息:總體信息和樣本信息;而貝葉斯學(xué)派認(rèn)為,除了上述兩種信息以外,統(tǒng)計(jì)推斷還應(yīng)該使用第三種信息:先驗(yàn)信息。下面我們先把是那種信息加以說明。
在之前介紹最后后驗(yàn)估計(jì)時(shí)已經(jīng)很清楚的講了MAP與MLE的區(qū)別,MAP就是貝葉斯估計(jì)的方法之一。貝葉斯學(xué)派的MAP方法與頻率學(xué)派的MLE方法的不同之處就在于先驗(yàn)信息的使用。
?
貝葉斯估計(jì)核心問題
這里定義已有的樣本集合為,而不是之前的。樣本集合中的樣本都是從一個(gè)?固定但是未知?的概率密度函數(shù)中獨(dú)立抽取出來的,要求根據(jù)這些樣本估計(jì)的概率分布,記為,并且使得盡量的接近,這就是貝葉斯估計(jì)的核心問題。
?
貝葉斯估計(jì)常用方法
被稱作后驗(yàn)分布(后驗(yàn)概率),使用它估計(jì)有三種常用的方法:
- 使用后驗(yàn)分布的密度函數(shù)最大值點(diǎn)作為的點(diǎn)估計(jì)的最大后驗(yàn)估計(jì)(MAP)。
- 使用后驗(yàn)分布的中位數(shù)作為的點(diǎn)估計(jì)的后驗(yàn)中位數(shù)估計(jì)(基本沒看到用過)。
- 使用后驗(yàn)分布的均值作為的點(diǎn)估計(jì)的后驗(yàn)期望估計(jì)。
用的最多的是后驗(yàn)期望估計(jì),它一般也直接簡(jiǎn)稱為貝葉斯估計(jì),即為.
?
貝葉斯定理:
邊緣概率(又稱先驗(yàn)概率)是某個(gè)事件發(fā)生的概率。邊緣概率是這樣得到的:在聯(lián)合概率中,把最終結(jié)果中那些不需要的事件通過合并成它們的全概率,而消去它們(對(duì)離散隨機(jī)變量用求和得全概率,對(duì)連續(xù)隨機(jī)變量用積分得全概率),這稱為邊緣化(marginalization),比如A的邊緣概率表示為P(A),B的邊緣概率表示為P(B)。
貝葉斯定理是關(guān)于隨機(jī)事件A和B的條件概率和邊緣概率的一則定理。
在參數(shù)估計(jì)中可以寫成下面這樣:
這個(gè)公式也稱為逆概率公式,可以將后驗(yàn)概率轉(zhuǎn)化為基于似然函數(shù)和先驗(yàn)概率的計(jì)算表達(dá)式,即
在貝葉斯定理中,每個(gè)名詞都有約定俗成的名稱:
P(A)是A的先驗(yàn)概率或邊緣概率。之所以稱為"先驗(yàn)"是因?yàn)樗豢紤]任何B方面的因素。
P(A|B)是已知B發(fā)生后A的條件概率(在B發(fā)生的情況下A發(fā)生的可能性),也由于得自B的取值而被稱作A的后驗(yàn)概率。
P(B|A)是已知A發(fā)生后B的條件概率,也由于得自A的取值而被稱作B的后驗(yàn)概率。
P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量(normalized constant)
按這些術(shù)語,Bayes定理可表述為:
后驗(yàn)概率 = (似然函數(shù)*先驗(yàn)概率)/標(biāo)準(zhǔn)化常量,也就是說,后驗(yàn)概率與先驗(yàn)概率和似然函數(shù)的乘積成正比。
另外,比例P(B|A)/P(B)也有時(shí)被稱作標(biāo)準(zhǔn)相似度(standardised likelihood),Bayes定理可表述為:
后驗(yàn)概率 = 標(biāo)準(zhǔn)相似度*先驗(yàn)概率
?
一個(gè)簡(jiǎn)單的例子
?
?
貝葉斯估計(jì)
貝葉斯估計(jì)是在MAP上做進(jìn)一步拓展,此時(shí)不直接估計(jì)參數(shù)的值,而是允許參數(shù)服從一定概率分布。極大似然估計(jì)和極大后驗(yàn)概率估計(jì),都求出了參數(shù)的值,而貝葉斯估計(jì)則不是,貝葉斯估計(jì)擴(kuò)展了極大后驗(yàn)概率估計(jì)MAP(一個(gè)是等于,一個(gè)是約等于)方法,它根據(jù)參數(shù)的先驗(yàn)分布和一系列觀察,求出參數(shù)的后驗(yàn)分布,然后求出的期望值,作為其最終值。另外還定義了參數(shù)的一個(gè)方差量,來評(píng)估參數(shù)估計(jì)的準(zhǔn)確程度或者置信度。
貝葉斯估計(jì):從分布的總體信息和參數(shù)的先驗(yàn)知識(shí)以及樣本信息出發(fā)。
不同于ML估計(jì),不再把參數(shù)看成一個(gè)未知的確定變量,而是看成未知的隨機(jī)變量,通過對(duì)第類樣本的觀察,使概率密度分布轉(zhuǎn)化為后驗(yàn)概率,再求貝葉斯估計(jì)。
假設(shè):將待估計(jì)的參數(shù)看作符合某種先驗(yàn)概率分布的隨機(jī)變量。
基本原理:
?我們期望在真實(shí)的值處有一個(gè)尖峰。
貝葉斯估計(jì)的本質(zhì):貝葉斯估計(jì)的本質(zhì)是通過貝葉斯決策得到參數(shù)的最優(yōu)估計(jì),使得總期望風(fēng)險(xiǎn)最小。
損失函數(shù):通常規(guī)定函數(shù)是一個(gè)二次函數(shù),即平方誤差損失函數(shù):
? ? ? ? 可以證明,如果采用平方誤差損失函數(shù),則θ的貝葉斯估計(jì)值是在給定x時(shí)θ的條件期望。
?
? ? ? ? 同理可得,在給定樣本集D下,θ的貝葉斯估計(jì)值是:
貝葉斯估計(jì)算法:
?
貝葉斯估計(jì)的增量學(xué)習(xí)
為了明確的表示樣本集合中有個(gè)樣本,這里采用記號(hào):。根據(jù)前一個(gè)公式,在的情況下有:
注:因?yàn)槊看纬闃又g是獨(dú)立的,所以前次抽樣與第次抽樣是獨(dú)立的。
可以很容易得到:
當(dāng)沒有觀測(cè)樣本時(shí),定義,為參數(shù)的初始估計(jì)。然后讓樣本集合依次進(jìn)入上述公式,就可以得到一系列的概率密度函數(shù):,這一過程稱為參數(shù)估計(jì)貝葉斯遞歸法,也叫貝葉斯估計(jì)的增量學(xué)習(xí)。這是一個(gè)在線學(xué)習(xí)算法,它和隨機(jī)梯度下降法有很多相似之處。
?
參考文章:
貝葉斯估計(jì)詳解
貝葉斯線性回歸(Bayesian Linear Regression)
貝葉斯估計(jì)
總結(jié)
以上是生活随笔為你收集整理的【数学基础】参数估计之贝叶斯估计的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数学基础】参数估计之极大似然估计
- 下一篇: 【机器学习】贝叶斯线性回归(最大后验估计