Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略
生活随笔
收集整理的這篇文章主要介紹了
Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Py之SnowNLP:SnowNLP中文處理包的簡介、安裝、使用方法、代碼實現之詳細攻略
?
?
?
目錄
SnowNLP的簡介
SnowNLP的安裝
SnowNLP的使用方法
關于訓練
?
?
?
SnowNLP的簡介
? ? ? ? ?snowNLP是國人開發的python類庫,可以方便的處理中文文本內容,是受到了TextBlob的啟發而寫的。
snownlp主要可以進行中文分詞(算法是Character-Based Generative Model)、詞性標注、情感分析、文本分類(原理是樸素貝葉斯)、轉換拼音、繁體轉簡體、提取文本關鍵詞(原理TextRank)、提取摘要(原理TextRank)、分割句子、文本相似(原理BM25)。官網還有更多關于該庫的介紹。
- 中文分詞(Character-Based Generative Model)
- 詞性標注(TnT?3-gram 隱馬)
- 情感分析(現在訓練數據主要是買賣東西時的評價,所以對其他的一些可能效果不是很好,待解決)
- 文本分類(Naive Bayes)
- 轉換成拼音(Trie樹實現的最大匹配)
- 繁體轉簡體(Trie樹實現的最大匹配)
- 提取文本關鍵詞(TextRank算法)
- 提取文本摘要(TextRank算法)
- tf,idf
- Tokenization(分割成句子)
- 文本相似(BM25)
- 支持python3(感謝erning)
github:SnowNLP: Simplified Chinese Text Processing
snownlp pypi
?
SnowNLP的安裝
pip install snownlp
?
SnowNLP的使用方法
文章推薦
NLP之TEA:基于SnowNLP實現自然語言處理之對輸入文本進行情感分析(分詞→詞性標注→情感分析→測試)
?
關于訓練
現在提供訓練的包括分詞,詞性標注,情感分析,而且都提供了我用來訓練的原始文件 以分詞為例 分詞在snownlp/seg目錄下
from snownlp import seg seg.train('data.txt') seg.save('seg.marshal') # from snownlp import tag # tag.train('199801.txt') # tag.save('tag.marshal') # from snownlp import sentiment # sentiment.train('neg.txt', 'pos.txt') # sentiment.save('sentiment.marshal')?
?
?
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的Py之SnowNLP:SnowNLP中文处理包的简介、安装、使用方法、代码实现之详细攻略的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Py之jieba:Python包之jie
- 下一篇: TF之NN:利用神经网络系统自动学习散点