中文分词后去除停用词
生活随笔
收集整理的這篇文章主要介紹了
中文分词后去除停用词
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
?中文分詞后去除停用詞
?當我們利用jieba進行中文分詞時,主要是句子中出現的詞語都會被劃分,而有些詞語是沒有實際意思的,對于后續的關鍵詞提取就會加大工作量,并且可能提取的關鍵詞是無效的。所以在分詞處理以后,我們便會引入停用詞去優化分詞的結果。
?對于停用詞,我們可以自己手動添加到一個txt文件中,然后在需要時導入文件,也可以利用已經整理好的停用詞表,這樣就會方便很多。當然,在已有的停用詞表基礎上,如果我們還有一些詞語不需要,也可以自己完善停用詞表。
?下載停用詞表請戳:stop_words.txt,提取碼:3si7
看實例:
import jiebadef stopwordslist(filepath): # 定義函數創建停用詞列表stopword = [line.strip() for line in open(filepath, 'r').readlines()] #以行的形式讀取停用詞表,同時轉換為列表return stopworddef cutsentences(sentences): #定義函數實現分詞print('原句子為:'+ sentences)cutsentence = jieba.lcut(sentences.strip()) #精確模式print ('\n'+'分詞后:'+ "/ ".join(cutsentence)) stopwords = stopwordslist(filepath) # 這里加載停用詞的路徑lastsentences = ''for word in cutsentence: #for循環遍歷分詞后的每個詞語if word not in stopwords: #判斷分詞后的詞語是否在停用詞表內if word != '\t':lastsentences += wordlastsentences += "/ "print('\n'+'去除停用詞后:'+ lastsentences) filepath= 'D:/大學工作所做文檔/學習資料/畢業設計學習準備/資料參考/stop_words.txt' sentences = '萬里長城是中國古代勞動人民血汗的結晶和中國古代文化的象征和中華民族的驕傲' stopwordslist(filepath) cutsentences(sentences)運行結果:
原句子為:萬里長城是中國古代勞動人民血汗的結晶和中國古代文化的象征和中華民族的驕傲分詞后:萬里長城/ 是/ 中國/ 古代/ 勞動/ 人民/ 血汗/ 的/ 結晶/ 和/ 中國/ 古代/ 文化/ 的/ 象征/ 和/ 中華民族/ 的/ 驕傲去除停用詞后:萬里長城/ 中國/ 古代/ 勞動/ 血汗/ 結晶/ 中國/ 古代/ 文化/ 象征/ 中華民族/ 驕傲/希望可以幫助到你,謝謝你的閱讀!
總結
以上是生活随笔為你收集整理的中文分词后去除停用词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 理发师问题
- 下一篇: 51精密线路板年终活动,爆款降临