當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

英文文本分词之工具NLTK

發布時間：2023/12/15 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了英文文本分词之工具NLTK 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

英文文本分詞之工具NLTK

安裝NLTK
停用詞和標點符號包放置
驗證

安裝NLTK

pip install nltk

分詞需要用到兩個包：stopwords和punkt,需要下載：

import nltknltk.download('stopwords') nltk.download('punkt')

如果你能運行成功，那么恭喜，但多半要和我一樣，被墻，然后下載失敗。于是乎，需要手動下載，這里我已經打包好了，百度提取即可。

鏈接：https://pan.baidu.com/s/1ddVRG86W-dyk2O6TsIMXAw 提取碼：nltk

此處也是要感激廣大網友的無私分享和幫助！！！

停用詞和標點符號包放置

言歸正傳，下載解壓后要注意，stopwords里面還有個stopwords文件，punkt文件里面還有個punkt文件，我們需要的是里面的這兩個文件，而不是最外圍的同名文件，雖然包含的內容一樣，但是python讀取的時候路徑會出錯。將里面的stopwords和punkt文件夾分別移動到python安裝目錄下的兩個子路徑中，比如我的路徑是F:\python38\Lib\nltk_data\corpora和F:\python38\Lib\nltk_data\tokenizers。需要說明的是，我的F:\python38\Lib路徑下并沒有nltk_data這個文件，沒有？沒有就讓他有！新建文件夾，重命名即可。
然后在nltk_data中再新建兩個文件夾：corpora和tokenizers。然后把停用詞和標點分別移動到這兩個文件里即可，亦即：corpora\stopwords和tokenizers\punkt。

驗證

此處提供一段驗證代碼，明日開始nltk分詞之旅！

from nltk.tokenize import word_tokenize from nltk.corpus import stopwordspunctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%'] data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy." words = word_tokenize(data) words = [word for word in words if word not in punctuations] # 去除標點符號 stopWords = set(stopwords.words('english')) wordsFiltered = []for w in words:if w not in stopWords:wordsFiltered.append(w)print(wordsFiltered)

完結，可以愉快地聽歌了。

總結

以上是生活随笔為你收集整理的英文文本分词之工具NLTK的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： c语言符号运算优先级6,c语言运算符号的
下一篇： CatBoost 模型中标称型特征转换成