python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总
python的思維就是讓我們用盡可能少的代碼來解決問題。對于詞頻的統計,就代碼層面而言,實現的方式也是有很多種的。之所以單獨談到統計詞頻這個問題,是因為它在統計和數據挖掘方面經常會用到,尤其是處理分類問題上。故在此做個簡單的記錄。
統計的材料如下:
document = [
'look', 'into', 'my', 'eyes', 'look', 'into
本文實例講述了Python實現統計英文文章詞頻的方法。分享給大家供大家參考,具體如下:
應用介紹:
統計英文文章詞頻是很常見的需求,本文利用python實現。
思路分析:
1、把英文文章的每個單詞放到列表里,并統計列表長度;
2、遍歷列表,對每個單詞出現的次數進行統計,并將結果存儲在字典中;
3、利用步驟1中獲得的列表長度,求出每個單詞出現的頻率,并將結果存儲在頻率字典中;
4、以字典鍵值對的“值”為標準,對字典進行排序,輸出結果(也可利用切片輸出頻率最大或最小的特定幾
這些對文本的操作經常用到, 那我就總結一下。 陸續補充。。。
操作:
strip_html(cls, text) 去除html標簽
separate_words(cls, text, min_lenth=3) 文本提取
get_words_frequency(cls, words_list) 獲取詞頻
源碼:
class DocProcess(object):
@classmethod
def strip_html(cls, text):
""&q
本文實例講述了Python實現快速計算詞頻功能。分享給大家供大家參考,具體如下:
這幾天看到一位同事的代碼,方法如下:
def cut_word(body):
temp_dict={}
if body is not None:
temp=jieba.cut(body)
for t in temp:
temp_dict[t]=1
else:
pass
return temp_dict
這個函數的功能是,輸入一段字符串,比如
前兩天,班上同學寫論文,需要將很多篇論文題目按照中文的習慣分詞并統計每個詞出現的頻率。
讓我幫她實現這個功能,我在網上查了之后發現jieba這個庫還挺不錯的。
運行環境:
安裝python2.7.13:https://www.python.org/downloads/release/python-2713/
安裝jieba:pip install jieba
安裝xlwt:pip install xlwt
具體代碼如下:
#!/usr
本文介紹了python實現簡單中文詞頻統計示例,分享給大家,具體如下:
任務
簡單統計一個小說中哪些個漢字出現的頻率最高
知識點
1.文件操作
2.字典
3.排序
4.lambda
代碼
import codecs
import matplotlib.pyplot as plt
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指
使用方法:
python wordsworth --filename textfile.txt
python wordsworth -f textfile.txt
分析結果:
附上github項目地址:https://github.com/autonomoid/wordsworth
總結
以上是生活随笔為你收集整理的python英文词频统计代码_python实现中文和英文的词频统计功能方法汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android面试题(五) --重要
- 下一篇: DBLINK 无统计信息导致SQL变慢