【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )
文章目錄
- I . 貝葉斯信念網絡
- II . 馬爾科夫假設
- III . 貝葉斯信念網絡 示例 1
- IV . 貝葉斯信念網絡 示例 2
- V . 貝葉斯信念網絡 聯合概率分布計算
- VI . 貝葉斯信念網絡 聯合概率分布計算 2
- VII . 貝葉斯信念網絡 訓練過程
I . 貝葉斯信念網絡
1 . 屬性關聯 : 貝葉斯信念網絡 允許數據集樣本屬性 之間存在依賴關系 ;
① 屬性概率 : 貝葉斯信念網絡中 , 每個節點的概率都可以使用貝葉斯公式計算 ;
② 弧 的 可信度 : 網絡中屬性之間的 弧 有可信度屬性 , 因此將該網絡命名為 貝葉斯信念網絡 ;
2 . 貝葉斯信念網絡 表示方法 :
① 有向無環圖 : 使用 有向無環圖 表示貝葉斯信念網絡 ;
② 隨機變量 : 圖中的每個節點 , 表示一個隨機變量 , 即樣本的屬性 ;
③ 概率依賴 : 圖 ( 有向無環圖 ) 中的每條 弧 表示一個概率依賴 , 即樣本的一個屬性 , 依賴與另外一個屬性 ;
④ 屬性概率依賴 : ZZZ 屬性依賴與 XXX 屬性 和 YYY 屬性 , PPP 屬性依賴于 YYY 屬性 ; 屬性 ZZZ 和 屬性 PPP 之間沒有依賴關系 ;
特別注意 : 圖中一定不能出現環 , 否則就會造成循環依賴 ;
3 . 概率圖模型 : 分為 222 大類 , 一類是有向依賴 , 一類是無向關聯 ;
-
貝葉斯信念網絡 : 使用 有向無環圖 表示 ;
-
馬爾科夫網絡 : 使用 無向圖模型 表示 ;
II . 馬爾科夫假設
模型復雜 : 在 貝葉斯信念網絡 中 , 如果考慮屬性依賴 , 屬性 ZZZ 依賴于 屬性 XXX 和 YYY 屬性 , 屬性 XXX 依賴于 屬性 AAA , 屬性 AAA 依賴于 ?\cdots? 這樣就會導致模型過于復雜 ;
馬爾科夫假設 : 為了便于計算 , 每個屬性只與其直接依賴的屬性有關 , 間接依賴的屬性沒有直接聯系 ;
III . 貝葉斯信念網絡 示例 1
| 得肺癌概率 | 0.8 | 0.5 | 0.7 | 0.1 |
| 不得肺癌概率 | 0.2 | 0.5 | 0.3 | 0.9 |
得肺癌的概率依賴于 是否有家族史 , 是否吸煙 , 兩個屬性 ;
使用貝葉斯信念網絡 的 有向無環圖 表示 :
IV . 貝葉斯信念網絡 示例 2
貝葉斯信念網絡中 每個節點都有一個概率表 ;
貝葉斯信念網絡 :
是否有家族病史 屬性節點 的 概率表 :
| 有家族病史 | 0.2 | 0.8 |
是否有高血脂 屬性節點 的 概率表 : 高血脂 屬性 依賴于 家族病史屬性 ;
| 有家族病史 | 0.4 | 0.6 |
| 沒有家族病史 | 0.1 | 0.9 |
是否有高血壓 屬性節點 的 概率表 : 高血壓 屬性 依賴于 高血脂屬性 和 家族病史屬性 ;
| 有家族病史 , 有高血脂 | 0.9 | 0.1 |
| 有家族病史, 沒有高血脂 | 0.4 | 0.6 |
| 沒有家族病史 , 有高血脂 | 0.4 | 0.6 |
| 沒有家族病史 , 沒有高血脂 | 0.1 | 0.9 |
V . 貝葉斯信念網絡 聯合概率分布計算
計算上述示例 222 中 :
使用貝葉斯公式計算 ,有 家族病史 , 高血脂 , 高血壓 , 三個屬性的聯合概率分布 ;
P(有家族史,有高血脂,有高血壓)=P(有家族史)×P(有高血脂∣有家族史)×P(有高血壓∣有高血脂,有家族史)=0.2×0.4×0.9=0.072\begin{array}{lcl} P(有家族史 , 有高血脂 , 有高血壓) & = & P( 有家族史 ) \times P( 有高血脂 | 有家族史 ) \times P ( 有高血壓 | 有高血脂 , 有家族史 ) \\\\ &=& 0.2 \times 0.4\times 0.9 \\\\ &=& 0.072 \end{array}P(有家族史,有高血脂,有高血壓)?===?P(有家族史)×P(有高血脂∣有家族史)×P(有高血壓∣有高血脂,有家族史)0.2×0.4×0.90.072?
-
P(有家族史)P( 有家族史 )P(有家族史) 表示有家族史 的概率 ;
-
P(有高血脂∣有家族史)P( 有高血脂 | 有家族史 )P(有高血脂∣有家族史) 表示有家族史 , 并且有高血脂的概率 ;
-
P(有高血壓∣有高血脂,有家族史)P ( 有高血壓 | 有高血脂 , 有家族史 )P(有高血壓∣有高血脂,有家族史) 表示同時有家族史 和 高血脂 時 , 有高血壓的概率 ;
VI . 貝葉斯信念網絡 聯合概率分布計算 2
計算 高血壓 由 家族史引起的概率 :
① 即計算有家族史時 , 多大概率有高血壓 :
P(有高血壓∣有家族史)=P(有高血壓,有家族史)/P(有家族史)\begin{array}{lcl} P(有高血壓 | 有家族史) &=& P( 有高血壓 , 有家族史 ) / P(有家族史)\\\\ \end{array}P(有高血壓∣有家族史)?=P(有高血壓,有家族史)/P(有家族史)
② 概率表中沒有 P(有高血壓,有家族史)P( 有高血壓 , 有家族史 )P(有高血壓,有家族史) 概率 , 需要計算 :
P(有高血壓,有家族史)=P(有高血壓,有家族史,有高血脂)+P(有高血壓,有家族史,無高血脂)P( 有高血壓 , 有家族史 ) = P( 有高血壓 , 有家族史 , 有高血脂 ) + P( 有高血壓 , 有家族史 , 無高血脂 )P(有高血壓,有家族史)=P(有高血壓,有家族史,有高血脂)+P(有高血壓,有家族史,無高血脂)
③ 概率表中沒有 P(有高血壓,有家族史,有高血脂)P( 有高血壓 , 有家族史 , 有高血脂 )P(有高血壓,有家族史,有高血脂) 概率 , 需要計算 ;
P(有家族史,有高血脂,有高血壓)=P(有家族史)×P(有高血脂∣有家族史)×P(有高血壓∣有高血脂,有家族史)=0.2×0.4×0.9=0.072\begin{array}{lcl} P(有家族史 , 有高血脂 , 有高血壓) & = & P( 有家族史 ) \times P( 有高血脂 | 有家族史 ) \times P ( 有高血壓 | 有高血脂 , 有家族史 ) \\\\ &=& 0.2 \times 0.4\times 0.9 \\\\ &=& 0.072 \end{array}P(有家族史,有高血脂,有高血壓)?===?P(有家族史)×P(有高血脂∣有家族史)×P(有高血壓∣有高血脂,有家族史)0.2×0.4×0.90.072?
④ 概率表中沒有 P(有高血壓,有家族史,無高血脂)P( 有高血壓 , 有家族史 , 無高血脂 )P(有高血壓,有家族史,無高血脂) 概率 , 需要計算 ;
P(有高血壓,有家族史,無高血脂)=P(有家族史)P(無高血脂∣有家族史)P(有高血壓∣無高血脂,有家族史)=0.2×0.6×0.4=0.048\begin{array}{lcl} P( 有高血壓 , 有家族史 , 無高血脂 ) &=& P(有家族史) P(無高血脂 | 有家族史) P ( 有高血壓 | 無高血脂 ,有家族史 ) \\\\ &=& 0.2 \times 0.6 \times 0.4 \\\\ &=& 0.048 \end{array}P(有高血壓,有家族史,無高血脂)?===?P(有家族史)P(無高血脂∣有家族史)P(有高血壓∣無高血脂,有家族史)0.2×0.6×0.40.048?
⑤ 計算 P(有高血壓,有家族史)P( 有高血壓 , 有家族史 )P(有高血壓,有家族史) 公式 ② 結果 : 將 ③ 和 ④ 中的計算結果代入到 ② 公式中 :
P(有高血壓,有家族史)=P(有高血壓,有家族史,有高血脂)+P(有高血壓,有家族史,無高血脂)=0.048+0.072=0.12\begin{array}{lcl} P( 有高血壓 , 有家族史 ) &=& P( 有高血壓 , 有家族史 , 有高血脂 ) + P( 有高血壓 , 有家族史 , 無高血脂 ) \\\\ &=& 0.048 + 0.072 \\\\ &=& 0.12 \end{array}P(有高血壓,有家族史)?===?P(有高血壓,有家族史,有高血脂)+P(有高血壓,有家族史,無高血脂)0.048+0.0720.12?
⑥ 計算公式 ① 結果 :
P(有高血壓∣有家族史)=P(有高血壓,有家族史)/P(有家族史)=0.120.2=0.6\begin{array}{lcl} P( 有高血壓 | 有家族史 ) &=& P( 有高血壓 , 有家族史 ) / P(有家族史)\\\\ \\\\ &=& \dfrac{0.12}{0.2} \\\\ &=& 0.6 \end{array}P(有高血壓∣有家族史)?===?P(有高血壓,有家族史)/P(有家族史)0.20.12?0.6?
⑦ 結果 : 如果有家族史 , 得高血壓的概率是 0.60.60.6 ;
VII . 貝葉斯信念網絡 訓練過程
1 . 貝葉斯信念網絡 模型 使用過程 : 給出訓練集 , 通過學習 , 獲得 貝葉斯信念網絡 , 通過 貝葉斯信念網絡 可以推斷某個事件發生的概率 ;
2 . 貝葉斯信念網絡由 結構 和 參數組成 ;
① 貝葉斯信念網絡 結構 : 有向無環圖 ;
② 貝葉斯信念網絡 參數 : 描述樣本間屬性依賴關系 , 即每個屬性節點對應的條件概率表 ;
3 . 貝葉斯信念網絡 機器學習過程 :
① 結構學習 : 確定貝葉斯網絡的結構 , 得到有向圖 ; 簡單的問題可以由人工給出 , 復雜的結構 , 需要計算機給出 ;
② 參數學習 : 最終目的是得到該屬性節點的條件概率表 ;
- 貝葉斯網絡 BBB , 結構 GGG , 參數 Θ\ThetaΘ , 貝葉斯信念網絡可以表示成 B=<G,Θ>B=<G, \Theta>B=<G,Θ> ;
- 結構 BBB 是有向無環圖 , 每個節點都代表樣本的一個屬性 ;
- 如果兩個屬性由依賴關系 , 使用 有向弧 連接起來 , 箭頭由被依賴屬性節點 , 指向需要依賴的屬性 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】贝叶斯信念网络 ( 马尔科夫假设 | 结构 | 有向无环图 | 参数 | 条件概率表 | 案例分析 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】拉普拉斯修正 ( 判别模型
- 下一篇: 【数据挖掘】神经网络 后向传播算法 向前