當前位置：首頁 > 编程语言 > php >内容正文

php

php贝叶斯,php – 将单个概率与朴素贝叶斯垃圾邮件过滤相结合

發布時間：2024/10/8 php 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 php贝叶斯,php – 将单个概率与朴素贝叶斯垃圾邮件过滤相结合小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

我正在嘗試通過分析我已經積累的語料庫來生成垃圾郵件過濾器。

我已經實現了代碼來計算消息是垃圾郵件的概率，因為它包含一個特定的單詞，通過從wiki實現以下公式：

我的PHP代碼

public function pSpaminess($word)

{

$ps = $this->pContentIsSpam();

$ph = $this->pContentIsHam();

$pws = $this->pWordInSpam($word);

$pwh = $this->pWordInHam($word);

$psw = ($pws * $ps) / ($pws * $ps + $pwh * $ph);

return $psw;

}

根據“組合個人概率”部分，我已經實現了代碼來組合測試消息中所有唯一字詞的概率來確定垃圾郵件。

從維基公式：

我的PHP代碼：

public function predict($content)

{

$words = $this->tokenize($content);

$pProducts = 1;

$pSums = 1;

foreach($words as $word)

{

$p = $this->pSpaminess($word);

echo "$word: $p\n";

$pProducts *= $p;

$pSums *= (1 - $p);

}

return $pProducts / ($pProducts + $pSums);

}

在測試字符串“這根本不是很糟糕”，產生以下輸出：

C:\projects\bayes>php test.php

this: 0.19907407407407

isn't: 0.23

very: 0.2

bad: 0.2906976744186

at: 0.17427385892116

all: 0.16098484848485

probability message is spam: float(0.00030795502523944)

這是我的問題：我是否正確實施個人概率？假設我正在生成有效的單詞概率，組合方法是否正確？

我關心的是計算結果的可能性很小。我已經測試了一個更大的測試消息，最終導致了科學計數的概率超過10個零位。我期待在10或100位的價值觀。

我希望問題在于我的PHP實現 – 但是當我從維基百科中檢查組合函數時，公式的分紅是分數的乘積。我看不出多個概率的組合最終會超過0.1％的概率。

如果是這種情況，那么信息越長，概率分數越低，如何補償垃圾郵件配額來正確預測垃圾郵件/火腿的小型和大型測試用例？

附加信息

我的語料庫實際上是一個約40k的評論的集合。我實際上是應用我的“垃圾郵件過濾器”反對這些評論。根據投票數量，我將個人評論評為垃圾郵件/火腿：如果投票少于投票數，則被認為是Ham，否則為垃圾郵件。

現在，由于語料庫的類型，事實證明，垃圾郵件中使用的詞幾乎比火腿更多。也就是說，這里列出了垃圾郵件的十大列表，比火腿更頻繁。

+-----------+------------+-----------+

| word | spam_count | ham_count |

+-----------+------------+-----------+

| krugman | 30 | 27 |

| fetus | 12.5 | 7.5 |

| boehner | 12 | 10 |

| hatred | 11.5 | 5.5 |

| scum | 11 | 10 |

| reserve | 11 | 10 |

| incapable | 8.5 | 6.5 |

| socalled | 8.5 | 5.5 |

| jones | 8.5 | 7.5 |

| orgasms | 8.5 | 7.5 |

+-----------+------------+-----------+

相反，大多數詞在火腿上比火腿更豐富。舉個例子，我排名前10位的垃圾郵件數最多的單詞列表。

+------+------------+-----------+

| word | spam_count | ham_count |

+------+------------+-----------+

| the | 4884 | 17982 |

| to | 4006.5 | 14658.5 |

| a | 3770.5 | 14057.5 |

| of | 3250.5 | 12102.5 |

| and | 3130 | 11709 |

| is | 3102.5 | 11032.5 |

| i | 2987.5 | 10565.5 |

| that | 2953.5 | 10725.5 |

| it | 2633 | 9639 |

| in | 2593.5 | 9780.5 |

+------+------------+-----------+

如您所見，垃圾郵件使用頻率明顯低于火腿使用量。在我的40k評論的語料庫中，2100評論被認為是垃圾郵件。

如下所述，對垃圾郵件發布率的測試短語如下：

短語

Cops are losers in general. That's why they're cops.

分析：

C:\projects\bayes>php test.php

cops: 0.15833333333333

are: 0.2218958611482

losers: 0.44444444444444

in: 0.20959269435914

general: 0.19565217391304

that's: 0.22080730418068

why: 0.24539170506912

they're: 0.19264544456641

float(6.0865969793861E-5)

據此，垃圾郵件的概率極低。但是，如果我現在分析一個火腿評論：

短語

Bill and TED's excellent venture?

分析

C:\projects\bayes>php test.php

bill: 0.19534050179211

and: 0.21093065570456

ted's: 1

excellent: 0.16091954022989

venture: 0.30434782608696

float(1)

好的，這很有趣我正在做這些例子，因為我正在撰寫這個更新，所以這是我第一次看到這個具體測試用例的結果。我認為我的預測是倒轉的。它實際上挑選了火腿的可能性，而不是垃圾郵件。這值得驗證。

對已知火腿的新測試。

短語

Complain about $174,000 salary being too little for self. Complain about $50,000 a year too much for teachers.

Scumbag congressman.

分析

C:\projects\bayes>php test.php

complain: 0.19736842105263

about: 0.21896031561847

174: 0.044117647058824

000: 0.19665809768638

salary: 0.20786516853933

being: 0.22011494252874

too: 0.21003236245955

little: 0.21134020618557

for: 0.20980452359022

self: 0.21052631578947

50: 0.19245283018868

a: 0.21149315683195

year: 0.21035386631717

much: 0.20139771283355

teachers: 0.21969696969697

scumbag: 0.22727272727273

congressman: 0.27678571428571

float(3.9604152477223E-11)

很不幸的是，不行。原來是巧合的結果。我開始懷疑是否也許不能輕易量化評論。或許垃圾郵件的性質與垃圾郵件的性質截然不同。

也許垃圾郵件過濾只有在您有特定的單詞類垃圾郵件時才可行？

最終更新

正如答復所指出的，奇怪的結果是由于語料庫的性質。使用沒有明確定義垃圾信息的評論語料庫貝葉斯分類不能執行。由于可能(可能)任何一個評論可能會收到各種用戶的垃圾郵件和火腿評級，所以不可能為垃圾評論生成硬分類。

最終，我想生成一個評論分類器，可以確定評論文章是否會根據貝葉斯分類進行評估，以便評論內容。我仍然可以調查分類器的電子郵件垃圾郵件，看看這樣的分類器是否可以猜測評論系統的業務響應。但是現在的問題得到回答。感謝大家的投入。

總結

以上是生活随笔為你收集整理的php贝叶斯,php – 将单个概率与朴素贝叶斯垃圾邮件过滤相结合的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： kirisun对讲机说明书
下一篇：什么是收费站应急可移动式车载式汽车称重仪

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

php

php贝叶斯,php – 将单个概率与朴素贝叶斯垃圾邮件过滤相结合

總結