【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )
文章目錄
- I . 拼寫糾正 簡介
- II . 拼寫糾正 案例需求
- III . 計算每個假設的概率
- IV . 引入 貝葉斯公式
- V . 使用貝葉斯公式計算每個假設的概率
- VI . 比較每個假設概率時 P(D)P(D)P(D) 分母可忽略
- VII . P(Hn)×P(D∣Hn)P ( H_n ) \times P ( D | H_n )P(Hn?)×P(D∣Hn?) 含義
- VIII . 先驗概率 , 似然概率 與 后驗概率
I . 拼寫糾正 簡介
1 . 拼寫糾正 :
① 應用場景 : 用戶輸入錯誤的單詞 , 會自動為用戶糾正 ;
② 引入貝葉斯方法 : 這里就涉及到了貝葉斯公式的應用 ;
2 . 貝葉斯方法糾正單詞 :
① 提出假設 : 首先要猜測用戶想要輸入的是哪個單詞 , 給出幾個猜測的可能項 ;
② 計算概率 : 然后計算出每個猜測正確的可能性是多少 ;
③ 選取結果 : 最后將可能性最大的單詞確定為用戶想要輸入的單詞 , 自動將錯誤單詞糾正為該單詞 ;
3 . 涉及到兩個事件概率 :
① 事件 AAA : 用戶實際輸入的錯誤單詞 ;
② 事件 BBB : 猜測用戶想要輸入某個單詞單詞 ;
③ 事件轉化為公式變量 : 用戶實際輸入錯誤單詞時 ( 事件 AAA ) , 猜測用戶想要輸入的是某個單詞 的 概率 ( 事件 BBB ) ;
④ 計算公式為 :
P(猜測用戶想要輸入的是某個單詞∣用戶實際輸入單詞)P ( 猜測用戶想要輸入的是某個單詞 | 用戶實際輸入單詞 )P(猜測用戶想要輸入的是某個單詞∣用戶實際輸入單詞)
即 :
P(B∣A)P ( B | A )P(B∣A)
單詞糾正準確率 : 很明顯 ,用戶量越大 , 收集的數(shù)據(jù)越多 , 單詞糾正的準確率就越高 ;
II . 拼寫糾正 案例需求
1 . 用戶實際輸入錯誤單詞 : DDD ; ( 實際觀測數(shù)據(jù) Data )
2 . 猜測用戶想要輸入的單詞 : H1,H2,?,HnH_1 , H_2 , \cdots , H_nH1?,H2?,?,Hn? ; ( 假設 Hypothesis )
III . 計算每個假設的概率
計算每個假設的概率 :
① 用戶輸入錯誤單詞 DDD 時 , 想要輸入單詞 H1H_1H1? 的概率 : P(用戶想要輸入單詞H1∣用戶實際出入錯誤單詞D)P ( 用戶想要輸入單詞 H_1 | 用戶實際出入錯誤單詞 D )P(用戶想要輸入單詞H1?∣用戶實際出入錯誤單詞D) , 記做 P(H1∣D)P(H_1 | D)P(H1?∣D) ;
② 用戶輸入錯誤單詞 DDD 時 , 想要輸入單詞 H2H_2H2? 的概率 : P(用戶想要輸入單詞H2∣用戶實際出入錯誤單詞D)P ( 用戶想要輸入單詞 H_2 | 用戶實際出入錯誤單詞 D )P(用戶想要輸入單詞H2?∣用戶實際出入錯誤單詞D) , 記做 P(H2∣D)P(H_2 | D)P(H2?∣D) ;
?\vdots?
③ 用戶輸入錯誤單詞 DDD 時 , 想要輸入單詞 HnH_nHn? 的概率 : P(用戶想要輸入單詞Hn∣用戶實際出入錯誤單詞D)P ( 用戶想要輸入單詞 H_n | 用戶實際出入錯誤單詞 D )P(用戶想要輸入單詞Hn?∣用戶實際出入錯誤單詞D) , 記做 P(Hn∣D)P(H_n | D)P(Hn?∣D) ;
IV . 引入 貝葉斯公式
引入 貝葉斯公式 計算單個猜測的概率 :
① 用戶輸入錯誤單詞 DDD 時 , 想要輸入單詞 H1H_1H1? 的概率 : P(用戶想要輸入單詞H1∣用戶實際出入錯誤單詞D)P ( 用戶想要輸入單詞 H_1 | 用戶實際出入錯誤單詞 D )P(用戶想要輸入單詞H1?∣用戶實際出入錯誤單詞D) , 記做 P(H1∣D)P(H_1 | D)P(H1?∣D) ;
② 逆向概率引入 : P(H1∣D)P(H_1 | D)P(H1?∣D) 不容易計算出來 , 這里通過其 逆向概率 計算該概率 ,
③ 引入 逆向概率 : P(D∣H1)P(D | H_1)P(D∣H1?) , 即輸入 H1H_1H1? 單詞時 , 輸錯成 DDD 的概率 ;
④ 單個事件概率 ( 先驗概率 ) : 其中需要知道輸入 H1H_1H1? 單詞的概率 P(H1)P (H_1)P(H1?) , 和 輸入錯誤單詞 DDD 的概率 P(D)P ( D )P(D) ;
⑤ 已知概率 : 上述逆向概率 ( 似然概率 ) 和 單個事件概率 ( 先驗概率 ) , 都可以通過統(tǒng)計學方法得出 ;
P(H1∣D)=P(H1)×P(D∣H1)P(D)P(H_1 | D) = \frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) }P(H1?∣D)=P(D)P(H1?)×P(D∣H1?)?
V . 使用貝葉斯公式計算每個假設的概率
使用貝葉斯公式計算每個假設的概率 :
① 用戶輸入錯誤單詞 DDD 時 , 想要輸入單詞 H1H_1H1? 的概率 : P(H1∣D)=P(H1)×P(D∣H1)P(D)P(H_1 | D) = \frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) }P(H1?∣D)=P(D)P(H1?)×P(D∣H1?)?
② 用戶輸入錯誤單詞 DDD 時 , 想要輸入單詞 H2H_2H2? 的概率 : P(H2∣D)=P(H2)×P(D∣H2)P(D)P(H_2 | D) = \frac{ P ( H_2 ) \times P ( D | H_2 ) }{ P( D ) }P(H2?∣D)=P(D)P(H2?)×P(D∣H2?)?
?\vdots?
③ 用戶輸入錯誤單詞 DDD 時 , 想要輸入單詞 HnH_nHn? 的概率 : P(Hn∣D)=P(Hn)×P(D∣Hn)P(D)P(H_n | D) = \frac{ P ( H_n ) \times P ( D | H_n ) }{ P( D ) }P(Hn?∣D)=P(D)P(Hn?)×P(D∣Hn?)?
VI . 比較每個假設概率時 P(D)P(D)P(D) 分母可忽略
P(D)P(D)P(D) 分母可忽略 :
① 觀察公式 : 比較上述 nnn 個概率值 , P(H1∣D),P(H2∣D),?,P(Hn∣D)P(H_1 | D) , P(H_2 | D) , \cdots , P(H_n | D)P(H1?∣D),P(H2?∣D),?,P(Hn?∣D) 之間比較 , 即 P(H1)×P(D∣H1)P(D),P(H2)×P(D∣H2)P(D),?,P(Hn)×P(D∣Hn)P(D)\frac{ P ( H_1 ) \times P ( D | H_1 ) }{ P( D ) } , \frac{ P ( H_2 ) \times P ( D | H_2 ) }{ P( D ) } , \cdots , \frac{ P ( H_n ) \times P ( D | H_n ) }{ P( D ) }P(D)P(H1?)×P(D∣H1?)?,P(D)P(H2?)×P(D∣H2?)?,?,P(D)P(Hn?)×P(D∣Hn?)? 之間比較 , 其分母都是 P(D)P(D)P(D) , 比較時 , 可以忽略該變量 ;
② 忽略概率 : 即 輸入錯誤單詞 DDD 的概率可以不用考慮 ;
③ 比較概率 : 只比較公式中的分子即可 : P(H1)×P(D∣H1),P(H2)×P(D∣H2),?,P(Hn)×P(D∣Hn)P ( H_1 ) \times P ( D | H_1 ) , P ( H_2 ) \times P ( D | H_2 ) , \cdots ,P ( H_n ) \times P ( D | H_n )P(H1?)×P(D∣H1?),P(H2?)×P(D∣H2?),?,P(Hn?)×P(D∣Hn?) 之間進行比較 ;
VII . P(Hn)×P(D∣Hn)P ( H_n ) \times P ( D | H_n )P(Hn?)×P(D∣Hn?) 含義
1 . P(Hn)×P(D∣Hn)P ( H_n ) \times P ( D | H_n )P(Hn?)×P(D∣Hn?) 含義 :
① P(Hn)P ( H_n )P(Hn?) : 表示用戶輸入 HnH_nHn? 單詞的概率 ; 這個值可以通過統(tǒng)計得出 ;
② P(D∣Hn)P ( D | H_n )P(D∣Hn?) : 表示用戶輸入 HnH_nHn? 單詞時 , 輸錯成 DDD 錯誤單詞的概率 ;
2 . P(Hn,D)P(H_n , D)P(Hn?,D) : P(Hn)×P(D∣Hn)P ( H_n ) \times P ( D | H_n )P(Hn?)×P(D∣Hn?) , 其結果是 同時 輸入 HnH_nHn? 單詞 和 輸錯成 DDD 單詞的概率 , P(Hn,D)P(H_n , D)P(Hn?,D) ;
VIII . 先驗概率 , 似然概率 與 后驗概率
1 . 先驗 ( Prior ) 概率 : 某個假設獨立出現(xiàn)的概率 , 是一個單獨事件的概率 , 這個概率是已知的 ;
① 已知條件 : 這個對應求解的已知條件 ;
② 示例對應 : 這里對應用戶輸入 HnH_nHn? 單詞的概率 , 這可以通過統(tǒng)計得出來 ;
2 . 似然 ( Likelihood ) 概率 : 某個假設生成觀測到的數(shù)據(jù)的概率 , 是一個聯(lián)合概率事件 ;
① 示例對應 : 這里對應 : 用戶輸入 HnH_nHn? 單詞時 , 輸錯成 DDD 錯誤單詞的概率 ; 似然概率 又叫 條件概率 ;
3 . 后驗概率 : 針對提出的多個假設 , 每個假設出現(xiàn)的概率取決于 先驗概率 和 似然概率 的乘積大小 , 值越大 , 概率越大 ;
① 目標結果 : 這個對應貝葉斯公式的目標結果 ;
② 示例對應 : 這里對應用戶實際想要輸入的單詞 , 即 H1,H2,?,HnH_1 , H_2 , \cdots , H_nH1?,H2?,?,Hn? 中概率最大的那個單詞 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】贝叶斯公式应用 拼写纠正示例分析 ( 先验概率 | 似然概率 | 后验概率 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】贝叶斯分类 ( 贝叶斯分类器
- 下一篇: 【数据挖掘】贝叶斯公式在垃圾邮件过滤中的