华为LAB实验室4-朴素贝叶斯
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                华为LAB实验室4-朴素贝叶斯
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                各位好,我是乾頤堂大堂子。領取完整實戰指南可以私信我,關鍵詞:實戰指南
通過 jieba 文字分詞庫對郵件數據集的垃圾郵件和進行文本處理,提取特征。然后調用 sklearn 機器學習庫中的樸素貝葉斯算法訓練模型,最后推理測試集中郵件是否為垃圾郵件。
步驟 1 引入相關依賴的包
步驟 2 構建文本處理函數
?刪除其中的干擾字符,例如【】*。,等等,然后分詞,剩下的詞匯認為是有效詞匯。
步驟3構建文本讀取函數
獲取文件中所有詞,進行文本處理
步驟4構建數據集
統計全部訓練集中每個有效詞匯的出現次數,截取出現次數最多的前500個根據預處理后的垃圾郵件和非垃圾郵件內容生成特征向量,統計得到的500個詞語分別在該郵件中的出現概率
得到特征向量和已知郵件分類創建并訓練樸素貝葉斯模型。
步驟6模型測試
讀取測試郵件,對郵件文本進行預處理,提取特征向量。使用訓練好的模型,根據提取的特征向量對郵件進行分類
更多網工提升干貨,請關注公眾號:乾頤堂網絡實驗室
總結
以上是生活随笔為你收集整理的华为LAB实验室4-朴素贝叶斯的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: 在matlab中数组运算符,matlab
 - 下一篇: SQL:1082. 销售分析 1-3