英文文本分词之工具NLTK
生活随笔
收集整理的這篇文章主要介紹了
英文文本分词之工具NLTK
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
英文文本分詞之工具NLTK
- 安裝NLTK
- 停用詞和標點符號包放置
- 驗證
安裝NLTK
pip install nltk分詞需要用到兩個包:stopwords和punkt,需要下載:
import nltknltk.download('stopwords') nltk.download('punkt')如果你能運行成功,那么恭喜,但多半要和我一樣,被墻,然后下載失敗。于是乎,需要手動下載,這里我已經打包好了,百度提取即可。
鏈接:https://pan.baidu.com/s/1ddVRG86W-dyk2O6TsIMXAw 提取碼:nltk此處也是要感激廣大網友的無私分享和幫助!!!
停用詞和標點符號包放置
言歸正傳,下載解壓后要注意,stopwords里面還有個stopwords文件,punkt文件里面還有個punkt文件,我們需要的是里面的這兩個文件,而不是最外圍的同名文件,雖然包含的內容一樣,但是python讀取的時候路徑會出錯。將里面的stopwords和punkt文件夾分別移動到python安裝目錄下的兩個子路徑中,比如我的路徑是F:\python38\Lib\nltk_data\corpora和F:\python38\Lib\nltk_data\tokenizers。需要說明的是,我的F:\python38\Lib路徑下并沒有nltk_data這個文件,沒有?沒有就讓他有!新建文件夾,重命名即可。
然后在nltk_data中再新建兩個文件夾:corpora和tokenizers。然后把停用詞和標點分別移動到這兩個文件里即可,亦即:corpora\stopwords和tokenizers\punkt。
驗證
此處提供一段驗證代碼,明日開始nltk分詞之旅!
from nltk.tokenize import word_tokenize from nltk.corpus import stopwordspunctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%'] data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy." words = word_tokenize(data) words = [word for word in words if word not in punctuations] # 去除標點符號 stopWords = set(stopwords.words('english')) wordsFiltered = []for w in words:if w not in stopWords:wordsFiltered.append(w)print(wordsFiltered)完結,可以愉快地聽歌了。
總結
以上是生活随笔為你收集整理的英文文本分词之工具NLTK的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c语言符号运算优先级6,c语言运算符号的
- 下一篇: CatBoost 模型中标称型特征转换成