机器学习实战 - 读书笔记(04) - 朴素贝叶斯
核心公式 - 貝葉斯準(zhǔn)則
\[p(c|x) = \frac{p(x|c)p(c)}{p(x)}\]
- p(c|x) 是在x發(fā)生的情況下,c發(fā)生的概率。
- p(x|c) 是在c發(fā)生的情況下,x發(fā)生的概率。
- p(c) 是c發(fā)生的概率。
- p(x) 是x發(fā)生的概率。
規(guī)則
如果P(c?|x) > P(c?|x),那么屬于類別c?。
 如果P(c?|x) < P(c?|x),那么屬于類別c?。
等價變化
\[p(c1|x) = \frac{p(x|c1)p(c1)}{p(x)}\]
\[p(c2|x) = \frac{p(x|c2)p(c2)}{p(x)}\]
 Therefore, comparing p(c1|x) and p(c2|x)
 are same as comparing
\(\frac{p(x|c1)p(c1)}{p(x)}\) and \(\frac{p(x|c2)p(c2)}{p(x)}\)
 same as comparing
\(p(x|c1)p(c1)\) and \(p(x|c2)p(c2)\)
多個獨立特征的變化
p(x|c1)中,x是多個獨立特征,即\(x=x_0,x_1...x_n\),
 則: \(p(x|c1)=p(x_0,x_1...x_n|c1)\)
\(p(x|c1)=p(x_0|c1)p(x_1|c1)...p(x_n|c1)\)
下溢出問題
為了解決下溢出問題,這是由于太多很小的數(shù)相乘造成的,所以程序會下溢出或者得到不正確的答案。
 在代數(shù)中有l(wèi)n(a*b) = ln(a)+ln(b),于是通過求對數(shù)可以避免下溢出或者浮點數(shù)舍入導(dǎo)致的錯誤。同時,采用自然對數(shù)進(jìn)行處理不會有任何損失。
 Therefore, comparing p(c1|x) and p(c2|x)
 same as comparing
\(log(p(x_0|c1)) + log(p(x_1|c1)) + ... + log(p(x_n|c1) + log(p(c1))\) and
\(log(p(x_0|c2)) + log(p(x_1|c2)) + ... + log(p(x_n|c2) + log(p(c2))\)
實際應(yīng)用
- 過濾侮辱性留言
- 過濾垃圾郵件
轉(zhuǎn)載于:https://www.cnblogs.com/steven-yang/p/5592582.html
總結(jié)
以上是生活随笔為你收集整理的机器学习实战 - 读书笔记(04) - 朴素贝叶斯的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: apache 的工作模式
- 下一篇: (转载)grep的使用
