【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )
文章目錄
- I . 垃圾郵件過濾 需求 及 表示方法
- II . 貝葉斯方法 步驟 1 : 提出假設(shè)
- III . 貝葉斯方法 步驟 2 : 計(jì)算垃圾郵件假設(shè)概率
- IV . 貝葉斯方法 步驟 2 : 計(jì)算正常郵件假設(shè)概率
- V . 貝葉斯方法 步驟 3 : 比較假設(shè)的概率
- VI . 先驗(yàn)概率 P(H1)P(H_1)P(H1?) 和 P(H0)P(H_0)P(H0?)
- VII . 似然概率 P(D∣H1)P(D|H_1)P(D∣H1?) 和 P(D∣H0)P(D|H_0)P(D∣H0?)
I . 垃圾郵件過濾 需求 及 表示方法
1 . 需求 : 收到一封郵件 , 判斷該郵件是否是垃圾郵件 ;
2 . 表示方法 :
① 收到郵件 DDD : DDD 表示收到的郵件 , 其有一定的特征 , 如包含指定的單詞 等 ;
② 收到郵件 DDD 的概率 : DDD 是符合一定要求的郵件 , 不是每一個(gè)收到的郵件都有 DDD 的特征 ;
③ 垃圾郵件 H0H_0H0? : 表示收到 DDD 郵件是 H0H_0H0? 垃圾郵件 ; ( H0H_0H0? 泛指垃圾郵件 , 不是指某一封郵件 )
④ 正常郵件 H1H_1H1? : 表示收到 DDD 郵件是 H1H_1H1? 正常郵件 ; ( H1H_1H1? 泛指正常郵件 , 不是指某一封郵件 )
II . 貝葉斯方法 步驟 1 : 提出假設(shè)
1 . 提出假設(shè) : 收到郵件事件是 DDD , 該郵件是否是垃圾郵件 , 只有兩個(gè)假設(shè) , 是 或 否 ,
① 假設(shè) 111 : 假設(shè) 收到的 DDD 郵件 是垃圾郵件 H0H_0H0? ;
② 假設(shè) 222 : 假設(shè) 收到的 DDD 郵件 是正常郵件 H1H_1H1? ;
III . 貝葉斯方法 步驟 2 : 計(jì)算垃圾郵件假設(shè)概率
1 . 計(jì)算該郵件是垃圾郵件的概率 :
① 需要計(jì)算的概率 : 收到郵件 DDD 后 , 該郵件是垃圾郵件 H0H_0H0? , 概率是 P(H0∣D)P(H_0|D)P(H0?∣D) ;
② 問題 : 很明顯 , 這個(gè)概率求不出來 ;
2 . 引入貝葉斯公式 :
① 逆向概率 ( 似然概率 | 條件概率 ) : 收到垃圾郵件后 , 該郵件是 DDD 的概率 ; 這個(gè)概率可以由訓(xùn)練學(xué)習(xí)得到 , 數(shù)據(jù)量足夠大 , 是可以知道的 ;
② 先驗(yàn)概率 : 收到 H0H_0H0? 郵件的概率是已知的 ;
③ 后驗(yàn)概率 : 貝葉斯公式計(jì)算該郵件 DDD 是垃圾郵件的概率 :
P(H0∣D)=P(D∣H0)P(H0)P(D)P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}P(H0?∣D)=P(D)P(D∣H0?)P(H0?)?
IV . 貝葉斯方法 步驟 2 : 計(jì)算正常郵件假設(shè)概率
1 . 計(jì)算該郵件是正常郵件的概率 :
① 計(jì)算的概率 : 收到郵件 DDD 后 , 該郵件是正常郵件 H1H_1H1? , 概率是 P(H1∣D)P(H_1|D)P(H1?∣D) ;
② 問題 : 很明顯 , 這個(gè)概率求不出來 ;
2 . 引入貝葉斯公式 :
① 逆向概率 ( 似然概率 | 條件概率 ) : 收到正常郵件 H1H_1H1? 后 , 該郵件是 DDD 的概率 ; 這個(gè)概率可以由訓(xùn)練學(xué)習(xí)得到 , 數(shù)據(jù)量足夠大 , 是可以知道的 ;
② 先驗(yàn)概率 : 收到 H1H_1H1? 郵件的概率是已知的 ;
③ 后驗(yàn)概率 : 貝葉斯公式計(jì)算該郵件 DDD 是正常郵件的概率 :
P(H1∣D)=P(D∣H1)P(H1)P(D)P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}P(H1?∣D)=P(D)P(D∣H1?)P(H1?)?
V . 貝葉斯方法 步驟 3 : 比較假設(shè)的概率
1 . 假設(shè)概率 : 提出了 222 個(gè)假設(shè) , 郵件 DDD 是垃圾郵件的概率是 P(H0∣D)=P(D∣H0)P(H0)P(D)P(H_0 | D) = \frac{P(D|H_0)P(H_0)}{P(D)}P(H0?∣D)=P(D)P(D∣H0?)P(H0?)? , 郵件 DDD 是正常郵件的概率是 P(H1∣D)=P(D∣H1)P(H1)P(D)P(H_1 | D) = \frac{P(D|H_1)P(H_1)}{P(D)}P(H1?∣D)=P(D)P(D∣H1?)P(H1?)? ;
2 . 比較概率忽略分母 : 比較 上述兩個(gè)概率 , 明顯其分母都是 P(D)P(D)P(D) , 可以不考慮分母因素 , 只比較分子 ;
3 . 比較分子 : 比較 P(D∣H0)P(H0)P(D|H_0)P(H_0)P(D∣H0?)P(H0?) 和 P(D∣H1)P(H1)P(D|H_1)P(H_1)P(D∣H1?)P(H1?) 兩個(gè)值的大小 ;
VI . 先驗(yàn)概率 P(H1)P(H_1)P(H1?) 和 P(H0)P(H_0)P(H0?)
1 . 先驗(yàn)概率 : P(H1)P(H_1)P(H1?) 代表收到正常郵件的概率 , P(H0)P(H_0)P(H0?) 代表收到垃圾郵件的概率 ;
2 . 獲取這兩個(gè)概率 : 從系統(tǒng)后臺服務(wù)器中的郵件庫中獲取垃圾郵件 和 正常郵件比例即可 ;
VII . 似然概率 P(D∣H1)P(D|H_1)P(D∣H1?) 和 P(D∣H0)P(D|H_0)P(D∣H0?)
1 . P(D∣H1)P(D|H_1)P(D∣H1?) 概率 : 表示收到正常郵件時(shí) , 該郵是 DDD 郵件的概率 , 即具有 DDD 郵件的特征 ; 需要在當(dāng)前郵件庫中找到具有該郵件 DDD 特征的郵件出現(xiàn)的概率 ;
2 . P(D∣H0)P(D|H_0)P(D∣H0?) 概率 : 表示收到垃圾郵件時(shí) , 該郵是 DDD 郵件的概率 , 即具有 DDD 郵件的特征 ; 需要在當(dāng)前郵件庫中找到具有該郵件 DDD 特征的郵件出現(xiàn)的概率 ;
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】贝叶斯公式在垃圾邮件过滤中的应用 ( 先验概率 | 似然概率 | 后验概率 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】贝叶斯公式应用 拼写纠正示例
- 下一篇: 【数据挖掘】拉普拉斯修正 ( 判别模型