贝叶斯推断及其互联网应用(一):定理简介
貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用(一):定理簡(jiǎn)介
日期:?2011年8月25日
一年前的這個(gè)時(shí)候,我正在翻譯Paul Graham的《黑客與畫(huà)家》。
那本書(shū)的第八章,寫(xiě)了一個(gè)非常具體的技術(shù)問(wèn)題----如何使用貝葉斯推斷過(guò)濾垃圾郵件(英文版)。
我沒(méi)完全看懂那一章。當(dāng)時(shí)是硬著頭皮,按照字面意思把它譯出來(lái)的。雖然譯文質(zhì)量還可以,但是心里很不舒服,下決心一定要搞懂它。
一年過(guò)去了,我讀了一些概率論文獻(xiàn),逐漸發(fā)現(xiàn)貝葉斯推斷并不難。原理的部分相當(dāng)容易理解,不需要用到高等數(shù)學(xué)。
下面就是我的學(xué)習(xí)筆記。需要聲明的是,我并不是這方面的專家,數(shù)學(xué)其實(shí)是我的弱項(xiàng)。歡迎大家提出寶貴意見(jiàn),讓我們共同學(xué)習(xí)和提高。
=====================================
貝葉斯推斷及其互聯(lián)網(wǎng)應(yīng)用
作者:阮一峰
一、什么是貝葉斯推斷
貝葉斯推斷(Bayesian inference)是一種統(tǒng)計(jì)學(xué)方法,用來(lái)估計(jì)統(tǒng)計(jì)量的某種性質(zhì)。
它是貝葉斯定理(Bayes' theorem)的應(yīng)用。英國(guó)數(shù)學(xué)家托馬斯·貝葉斯(Thomas Bayes)在1763年發(fā)表的一篇論文中,首先提出了這個(gè)定理。
貝葉斯推斷與其他統(tǒng)計(jì)學(xué)推斷方法截然不同。它建立在主觀判斷的基礎(chǔ)上,也就是說(shuō),你可以不需要客觀證據(jù),先估計(jì)一個(gè)值,然后根據(jù)實(shí)際結(jié)果不斷修正。正是因?yàn)樗闹饔^性太強(qiáng),曾經(jīng)遭到許多統(tǒng)計(jì)學(xué)家的詬病。
貝葉斯推斷需要大量的計(jì)算,因此歷史上很長(zhǎng)一段時(shí)間,無(wú)法得到廣泛應(yīng)用。只有計(jì)算機(jī)誕生以后,它才獲得真正的重視。人們發(fā)現(xiàn),許多統(tǒng)計(jì)量是無(wú)法事先進(jìn)行客觀判斷的,而互聯(lián)網(wǎng)時(shí)代出現(xiàn)的大型數(shù)據(jù)集,再加上高速運(yùn)算能力,為驗(yàn)證這些統(tǒng)計(jì)量提供了方便,也為應(yīng)用貝葉斯推斷創(chuàng)造了條件,它的威力正在日益顯現(xiàn)。
二、貝葉斯定理
要理解貝葉斯推斷,必須先理解貝葉斯定理。后者實(shí)際上就是計(jì)算"條件概率"的公式。
所謂"條件概率"(Conditional probability),就是指在事件B發(fā)生的情況下,事件A發(fā)生的概率,用P(A|B)來(lái)表示。
根據(jù)文氏圖,可以很清楚地看到在事件B發(fā)生的情況下,事件A發(fā)生的概率就是P(A∩B)除以P(B)。
因此,
同理可得,
所以,
即
這就是條件概率的計(jì)算公式。
三、全概率公式
由于后面要用到,所以除了條件概率以外,這里還要推導(dǎo)全概率公式。
假定樣本空間S,是兩個(gè)事件A與A'的和。
上圖中,紅色部分是事件A,綠色部分是事件A',它們共同構(gòu)成了樣本空間S。
在這種情況下,事件B可以劃分成兩個(gè)部分。
即
在上一節(jié)的推導(dǎo)當(dāng)中,我們已知
所以,
這就是全概率公式。它的含義是,如果A和A'構(gòu)成樣本空間的一個(gè)劃分,那么事件B的概率,就等于A和A'的概率分別乘以B對(duì)這兩個(gè)事件的條件概率之和。
將這個(gè)公式代入上一節(jié)的條件概率公式,就得到了條件概率的另一種寫(xiě)法:
四、貝葉斯推斷的含義
對(duì)條件概率公式進(jìn)行變形,可以得到如下形式:
我們把P(A)稱為"先驗(yàn)概率"(Prior probability),即在B事件發(fā)生之前,我們對(duì)A事件概率的一個(gè)判斷。P(A|B)稱為"后驗(yàn)概率"(Posterior probability),即在B事件發(fā)生之后,我們對(duì)A事件概率的重新評(píng)估。P(B|A)/P(B)稱為"可能性函數(shù)"(Likelyhood),這是一個(gè)調(diào)整因子,使得預(yù)估概率更接近真實(shí)概率。
所以,條件概率可以理解成下面的式子:
后驗(yàn)概率 = 先驗(yàn)概率 x 調(diào)整因子
這就是貝葉斯推斷的含義。我們先預(yù)估一個(gè)"先驗(yàn)概率",然后加入實(shí)驗(yàn)結(jié)果,看這個(gè)實(shí)驗(yàn)到底是增強(qiáng)還是削弱了"先驗(yàn)概率",由此得到更接近事實(shí)的"后驗(yàn)概率"。
在這里,如果"可能性函數(shù)"P(B|A)/P(B)>1,意味著"先驗(yàn)概率"被增強(qiáng),事件A的發(fā)生的可能性變大;如果"可能性函數(shù)"=1,意味著B(niǎo)事件無(wú)助于判斷事件A的可能性;如果"可能性函數(shù)"<1,意味著"先驗(yàn)概率"被削弱,事件A的可能性變小。
五、【例子】水果糖問(wèn)題
為了加深對(duì)貝葉斯推斷的理解,我們看兩個(gè)例子。
第一個(gè)例子。兩個(gè)一模一樣的碗,一號(hào)碗有30顆水果糖和10顆巧克力糖,二號(hào)碗有水果糖和巧克力糖各20顆?,F(xiàn)在隨機(jī)選擇一個(gè)碗,從中摸出一顆糖,發(fā)現(xiàn)是水果糖。請(qǐng)問(wèn)這顆水果糖來(lái)自一號(hào)碗的概率有多大?
我們假定,H1表示一號(hào)碗,H2表示二號(hào)碗。由于這兩個(gè)碗是一樣的,所以P(H1)=P(H2),也就是說(shuō),在取出水果糖之前,這兩個(gè)碗被選中的概率相同。因此,P(H1)=0.5,我們把這個(gè)概率就叫做"先驗(yàn)概率",即沒(méi)有做實(shí)驗(yàn)之前,來(lái)自一號(hào)碗的概率是0.5。
再假定,E表示水果糖,所以問(wèn)題就變成了在已知E的情況下,來(lái)自一號(hào)碗的概率有多大,即求P(H1|E)。我們把這個(gè)概率叫做"后驗(yàn)概率",即在E事件發(fā)生之后,對(duì)P(H1)的修正。
根據(jù)條件概率公式,得到
已知,P(H1)等于0.5,P(E|H1)為一號(hào)碗中取出水果糖的概率,等于0.75,那么求出P(E)就可以得到答案。根據(jù)全概率公式,
所以,
將數(shù)字代入原方程,得到
這表明,來(lái)自一號(hào)碗的概率是0.6。也就是說(shuō),取出水果糖之后,H1事件的可能性得到了增強(qiáng)。
六、【例子】假陽(yáng)性問(wèn)題
第二個(gè)例子是一個(gè)醫(yī)學(xué)的常見(jiàn)問(wèn)題,與現(xiàn)實(shí)生活關(guān)系緊密。
已知某種疾病的發(fā)病率是0.001,即1000人中會(huì)有1個(gè)人得病。現(xiàn)有一種試劑可以檢驗(yàn)患者是否得病,它的準(zhǔn)確率是0.99,即在患者確實(shí)得病的情況下,它有99%的可能呈現(xiàn)陽(yáng)性。它的誤報(bào)率是5%,即在患者沒(méi)有得病的情況下,它有5%的可能呈現(xiàn)陽(yáng)性。現(xiàn)有一個(gè)病人的檢驗(yàn)結(jié)果為陽(yáng)性,請(qǐng)問(wèn)他確實(shí)得病的可能性有多大?
假定A事件表示得病,那么P(A)為0.001。這就是"先驗(yàn)概率",即沒(méi)有做試驗(yàn)之前,我們預(yù)計(jì)的發(fā)病率。再假定B事件表示陽(yáng)性,那么要計(jì)算的就是P(A|B)。這就是"后驗(yàn)概率",即做了試驗(yàn)以后,對(duì)發(fā)病率的估計(jì)。
根據(jù)條件概率公式,
用全概率公式改寫(xiě)分母,
將數(shù)字代入,
我們得到了一個(gè)驚人的結(jié)果,P(A|B)約等于0.019。也就是說(shuō),即使檢驗(yàn)呈現(xiàn)陽(yáng)性,病人得病的概率,也只是從0.1%增加到了2%左右。這就是所謂的"假陽(yáng)性",即陽(yáng)性結(jié)果完全不足以說(shuō)明病人得病。
為什么會(huì)這樣?為什么這種檢驗(yàn)的準(zhǔn)確率高達(dá)99%,但是可信度卻不到2%?答案是與它的誤報(bào)率太高有關(guān)。(【習(xí)題】如果誤報(bào)率從5%降為1%,請(qǐng)問(wèn)病人得病的概率會(huì)變成多少?)
有興趣的朋友,還可以算一下"假陰性"問(wèn)題,即檢驗(yàn)結(jié)果為陰性,但是病人確實(shí)得病的概率有多大。然后問(wèn)自己,"假陽(yáng)性"和"假陰性",哪一個(gè)才是醫(yī)學(xué)檢驗(yàn)的主要風(fēng)險(xiǎn)?
===================================
關(guān)于貝葉斯推斷的原理部分,今天就講到這里。下一次,將介紹如何使用貝葉斯推斷過(guò)濾垃圾郵件。
總結(jié)
以上是生活随笔為你收集整理的贝叶斯推断及其互联网应用(一):定理简介的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 无人超市不便宜 一包棒棒糖比传统超市贵5
- 下一篇: 从微信AI首席顾问到金融文档智能,一位中