十一、贝叶斯网络
- 一、貝葉斯網絡是什么
- 二、樸素貝葉斯
- 三、貝葉斯網絡的建立
一、貝葉斯網絡是什么
貝葉斯網絡的思考:
原本的問題:
給定一組樣本D,求得在這些樣本中出現某個結論A1,A2,...,AnA1,A2,...,An出現的概率,也就是P(Ai|D)P(Ai|D),表示求得給定數據后,哪個結論出現的概率最大。
問題轉化:
maxP(Ai|D)=maxP(D|Ai)P(Ai)P(D)=maxP(D|Ai)P(Ai)?maxP(D|Ai)maxP(Ai|D)=maxP(D|Ai)P(Ai)P(D)=maxP(D|Ai)P(Ai)?maxP(D|Ai)將問題轉化為,計算出在給定不同結論的條件下,事件D發生的概率,取最大的概率值,也就是在該結論A下,事件D發生的概率最大,所以可以看成是事件D產生結論A的概率最大。
P(D)P(D):是定值,因為該概率是已經發生的事件D的概率,是已知的東西,不會變化
P(Ai)P(Ai):各個結論發生的先驗概率是相等的。
maxP(D|Ai)maxP(D|Ai):可以看成是先驗性的假定結論A出現的概率都是相等的,而貝葉斯則要更多的探討先驗概率。
頻率學派:假定P(A_i)是相等的,事件與先驗無關。
示例1:
示例2:
二、樸素貝葉斯
拉普拉斯平滑:
如果一個詞出現的概率為0,則無意義,做拉普拉斯平滑。
三、貝葉斯網絡的建立
為什么要建立貝葉斯網絡:
對于一個聯合概率分布,我們需要跟多個獨立變量來表示,甚至獨立變量的個數會呈現指數級的增長。例如,考慮P(X 1 ,X 2 ,X 3 ,?,X n ) ,假如,每一個X i 都是二項分布的話。這樣聯合概率里面就有至少2 n ?1 個參數(對應的是X 1 ,?,Xn 的全排列數目減一,減掉1是因為最后一種情況可以用1減掉之前的所有概率)。
因此我們希望通過建立聯合概率與圖的關聯,從圖中找到條件獨立性論斷(并且我們可以證明,圖中的條件獨立性論斷在聯合概率中都是成立的),這樣就可以將原始的聯合概率寫成多個獨立因子的乘積,從而減少獨立變量的個數,使得模型更加“緊湊”。
將三個變量變為k個:
正常的貝葉斯網絡:
要求的該貝葉斯網絡的條件概率分布,也就是要求出1~7個節點各自所屬的條件分布連乘即可。
對4而言,只和1,2,3有關
正常而言有2525種不同的情況,但貝葉斯網絡有13種情況,因為我們簡化的網絡的連接情況,也就是有的點沒有直接相連,簡化了很多參數,越利于網絡建模。
抽煙:只需要一個抽煙的概率,參數為1
肺癌:只和抽煙有關,抽煙情況下有一個得肺癌的概率,不抽煙情況有一個肺癌的概率,參數為2
支氣管炎:只和抽煙有關,抽煙情況下有一個得肺癌的概率,不抽煙情況有一個肺癌的概率,參數為2
X-ray:和抽煙及肺癌都有關,所以是(0,0),(0,1),(1,0),(1,1)四種情況,參數為4
呼吸困:和支氣管炎及肺癌都有關,所以是(0,0),(0,1),(1,0),(1,1)四種情況,參數為4(圖中看起來是8個, 其實每行的和都為1,所以實質上給定一個另一個也不變)
特殊的貝葉斯網絡:
三個獨立性條件:
1. 觀測到的時候是阻斷的
2. 觀測到的時候是阻斷的
C未給定時,無法判斷a、b是否獨立,看不到c
3. 未觀測到的時候是阻斷的
如果c給定了,a、b就不獨立了,因為如果觀測到了c,就說明兩者之間建立了某種聯系。
貝葉斯網絡,可以通過三種基本的網絡拓撲,可以判斷a和b是否是獨立的。
I是獨立,D是不獨立
在沒有先驗的情況下,油箱有油和能開廣播是獨立的嗎?
答:是獨立的
如果已知電池有電,則油箱有油和能開廣播是獨立的嗎?
答:是獨立的,因為在Battery確定了之后,左邊的開廣播和右邊的四個節點是tial-to-tail的關系,所以是獨立的。
貝葉斯網絡的構建:
總結
- 上一篇: 基金上证指数什么意思?
- 下一篇: 小规模开普票交多少税