自然语言处理-nltk学习(二)
生活随笔
收集整理的這篇文章主要介紹了
自然语言处理-nltk学习(二)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
nltk里面重要的函數
一、similar
用來識別文章中和搜索詞相似的詞語,可以用在搜索引擎中的相關度識別功能中。
text1.similar("monstrous")查詢出了text1中與monstrous相關的所有詞語:
二、common_contexts
用來識別2個關鍵詞相似的詞語。
text2.common_contexts(["monstrous","very"])
三、generate
用來自動生成文章。
text3.generate()
四、len
可以用于判斷重復詞密度
from __future__ import divisionlen(text3) / len(set(text3))
圖中顯示 正文字數/不重復詞語字數 = 16,說明有15/16是無效字符。
五、count
可以用于判斷關鍵詞密度。
text3.count('smote') / len(text3)總結
以上是生活随笔為你收集整理的自然语言处理-nltk学习(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 自然语言处理-nltk学习(一)
- 下一篇: 坐标系统及投影概述