NLP-基础知识-007(机器学习-朴素贝叶斯)
生活随笔
收集整理的這篇文章主要介紹了
NLP-基础知识-007(机器学习-朴素贝叶斯)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
舉個例子: 郵件是否是垃圾郵件
垃圾郵件里經(jīng)常出現(xiàn)“廣告”,“購買”,“產(chǎn)品”這些單詞。 也就是 p(“廣告”| 垃圾) > p(“廣告”| 正常),P(“購買”| 垃圾) > p(“購買”| 正常) …. 這些概率怎么計算?
假設(shè): 每個郵件包含10個單詞
正常郵件24個? => 單詞: 240個? 購買出現(xiàn)過3次
垃圾郵件12個? => 單詞: 120個? ?購買出現(xiàn)7次
p("購買|正常") = 3/240
p("購買|垃圾") = 1/120
貝葉斯定理:p(x,y) = p(x|y)p(y) = p(y|x)p(x) ==> p(x|y) = p(y|x)p(x)/p(y)條件獨立:
p(x,y|z) = p(x|z)p(y|z) x和y是條件獨立于變量z?
來了一個新郵件"購買物品,不是廣告"p(正常|內(nèi)容) >? p(垃圾|內(nèi)容)= p(內(nèi)容|正常)p(正常)/p(內(nèi)容) >? p(內(nèi)容|垃圾)p(垃圾)/p(內(nèi)容)= p(內(nèi)容|正常)p(正常) >? p(內(nèi)容|垃圾)p(垃圾)p(正常)、p(垃圾)是先驗2/3,1/3p(內(nèi)容|正常) = p(購買,物品、不是、廣告|正常) = p(購買|正常)p(物品|正常)p(不是|正常)p(廣告|正常) p(購買|正常)、p(物品|正常)、p(不是|正常)、p(廣告|正常)都是通過先驗知識計算通過下面例子即可了解模型過程
背景:判斷新郵件是否異常數(shù)據(jù)如下:垃圾郵件:點擊 獲得 更多 信息購買 最新 產(chǎn)品 獲得 優(yōu)惠優(yōu)惠 信息 點擊 鏈接正常郵件:明天 一起 開會開會 信息 詳見 郵件最新 競品 信息新郵件:最新 產(chǎn)品 實惠 點擊 鏈接解決方法:v = {點擊、獲得、更多、信息、購買、最新、產(chǎn)品、優(yōu)惠、鏈接、明天、一起、開會、詳見、郵件、競品} |v| = 15訓(xùn)練模型:p(垃圾) = 1/2 p(正常)=1/2p(點擊|垃圾) = 3/28p(獲得|垃圾) = 3/28p(最新|垃圾) = 1/14p(產(chǎn)品|垃圾) = 1/14p(實惠|垃圾) = 3/28p(鏈接|垃圾) = 1/14p(點擊|正常) = 1/24p(獲得|正常) = 2/25p(最新|正常) = 2/25p(產(chǎn)品|正常) = 1/25p(實惠|正常) = 1/25p(鏈接|正常) = 1/25預(yù)測 p(垃圾|郵件) >? p(正常|郵件)p(郵件|垃圾)p(垃圾) >? p(郵件|正常)p(正常)3/28*3/28*1/14*1/14*3/28*1/14 >? 1/24*2/25*2/25*1/25*1/25*1/25underflow:采取log形式 overflow:采取平滑?
總結(jié)
以上是生活随笔為你收集整理的NLP-基础知识-007(机器学习-朴素贝叶斯)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: NLP-基础知识-006(机器学习)
- 下一篇: Leetcode-一篇帖子就够啦