用Python统计中英文词频
生活随笔
收集整理的這篇文章主要介紹了
用Python统计中英文词频
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
本設計基于Python3.6實現中英文詞頻統計功能
英文詞頻統計
統計哈姆雷特英文版,txt格式文件地址:
hamlet.txt
思路分析:
代碼如下:
#獲取單詞函數定義 def getTxt():txt = open('hamlet.txt').read()txt = txt.lower()for ch in '!"@#$%^&*()+,-./:;<=>?@[\\]_`~{|}': #替換特殊字符txt.replace(ch, ' ')return txt #1.獲取單詞 hamletTxt = getTxt()#2.切割為列表格式 txtArr = hamletTxt.split()#3.遍歷統計 counts = {} for word in txtArr:counts[word] = counts.get(word, 0) + 1#4.轉換格式,方便打印,將字典轉換為列表 countsList = list(counts.items()) countsList.sort(key=lambda x:x[1], reverse=True)#按次數從大到小排序#5.打印 for i in range(10):word, count = countsList[i]print('{0:<10}{1:>5}'.format(word,count))注意:
1. 代碼counts[word] = counts.get(word, 0) + 1巧妙使用了字典的get函數,一句代碼實現復雜功能
2. 代碼countsList.sort(key=lambda x:x[1], reverse=True)中sort函數的參數要注意
輸出結果:
中文詞頻統計
本文中統計功能基于jieba三方庫統計三國演義,txt格式文件地址:
三國演義.txt
思路分析:
打印輸出
代碼如下:
輸出結果:
總結
以上是生活随笔為你收集整理的用Python统计中英文词频的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 政务大数据系列7:政务大数据的部署结构
- 下一篇: 60页政务大数据资源 平台项目可研方案