完整的中英文词频统计
生活随笔
收集整理的這篇文章主要介紹了
完整的中英文词频统计
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
#讀取fire文本文件
f = open('fire.txt','r',encoding='utf-8')
fire = f.read()
f.close()
print(fire)
#預處理
print(fire.lower()) #全部字母小寫
a = ",.;:'`" #特殊符號歸集為字符串
for b in a:fire.replace(b,' ') #利用for循環(huán)語句把特殊符號替換成空格print(fire)#分別從空格提取單詞
firelist = fire.split()
print(firelist)#統(tǒng)計每個單詞出現(xiàn)的次數(shù)
fireset = set(firelist) #把列表firelist轉換成集合,使得單詞不會重復出現(xiàn)
#排除語法型詞匯,代詞、冠詞、連詞等無語義詞
se = {'a','the','and','we','you','of'}
fireset =fireset-se
firedict = {} #創(chuàng)建一個空字典,用于存儲
# #遍歷fireset集合,放入單詞為鍵,統(tǒng)計的次數(shù)為值的strdict字典
for word in fireset:firedict[word] = firelist.count(word)
print(len(firedict),firedict)
wordlist = list(firedict.items())
#按單詞的頻數(shù)排序
wordlist.sort(key=lambda x:x[1],reverse=True)
print(wordlist)
#輸出TOP(20)
for i in range(20):print(wordlist[i]) import jieba
f=open('cry.txt','r',encoding='utf-8')
cry=f.read()
f.close()
crylist=list(jieba.cut(cry))
crydict={}
for word in crylist:if len(word)==1:continueelse:crydict[word]=crydict.get(word,0)+1wordlist=list(crydict.items())
wordlist.sort(key=lambda x:x[1],reverse=True)for a in range(15):print(wordlist[a])
?
?
??
轉載于:https://www.cnblogs.com/xsxsx/p/9775957.html
《新程序員》:云原生和全面數(shù)字化實踐50位技術專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的完整的中英文词频统计的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: POJ2976——Dropping te
- 下一篇: 洛谷——P3807 【模板】卢卡斯定理