jieba库词频统计_网购评论之词频分析
日常數(shù)據(jù)分析中,詞頻分析是一個很好的文本挖掘方法,這篇文章說說詞頻分析方法。
這里選用京東商場中購買手機(jī)的部分?jǐn)?shù)據(jù)信息,利用jieba詞庫對購物評論進(jìn)行分詞,提取客戶群體對手機(jī)的關(guān)注點(diǎn)。
數(shù)據(jù)集來源:https://www.kesci.com/home/project/5ece06fb12fba90036cf26bd/dataset
1.導(dǎo)出所需庫
#導(dǎo)入所需基本包 import pandas as pd # 導(dǎo)入擴(kuò)展庫 import re # 正則表達(dá)式庫 import jieba # 結(jié)巴分詞 import jieba.posseg # 詞性獲取 import collections # 詞頻統(tǒng)計(jì)庫2.導(dǎo)入文件
#導(dǎo)入數(shù)據(jù)集 data = pd.read_csv('C:/Users/dwhyx/Downloads/data/京東評論數(shù)據(jù).csv') #查看數(shù)據(jù)基本情況 data.info()共21個字段,基本上購物平臺后臺基本字段,如:sku_id,item_name(商品名稱),content(評論),creation_time(創(chuàng)建時間),其中content是我們本次主要分析對象。
#預(yù)覽文件,展示前3行 data.head(3)通過對文件預(yù)覽,可以對整個數(shù)據(jù)集有更加直觀了解。(若對本數(shù)據(jù)集涉及的字段比較熟悉,可以省略,這里方便第一次接觸網(wǎng)購后臺數(shù)據(jù)的同學(xué))
3.合并文本單元格
content= ("".join(i for i in data['content'])) #利用循環(huán)語句合并文本這里只分析首次評論(content),暫不考慮用戶追加的評論(after_user_comment)。
4.文本處理
#預(yù)處理 pattern = re.compile(u't|n|.|-|:|;|)|(|?| |"') # 定義正則表達(dá)式匹配模式(空格等) string_data = re.sub(pattern, '', content) # 將符合模式的字符去除#文本分詞 seg_list_exact = jieba.cut(string_data, cut_all=False, HMM=True) # 精確模式分詞+HMM object_list = []#獲取停用詞 with open(r'C:/Users/dwhyx/Downloads/data/中文停用詞庫.txt', encoding='gbk') as file:stopwords = [x.strip() for x in file.readlines()]#去除停用詞(目的是去掉一些意義不大的詞) for word in seg_list_exact: # 循環(huán)讀出每個分詞if word not in stopwords: # 如果不在去除詞庫中object_list.append(word) # 分詞追加到列表5.詞頻統(tǒng)計(jì)
word_counts = collections.Counter(object_list) # 對分詞做詞頻統(tǒng)計(jì) word_counts_top = word_counts.most_common(100) # 獲取前100個最高頻的詞 print(word_counts_top)輸入結(jié)果如下:
如果想把結(jié)果保存為Excel表格,可以將字典形式轉(zhuǎn)化為列表,寫入Excel。
import csv Excel = open("評論詞頻分析.csv", 'w', newline = '') #打開表格文件,若表格文件不存在則創(chuàng)建 write = csv.writer(Excel) #創(chuàng)建一個csv的writer對象用于寫每一行內(nèi)容 write.writerow(['詞語','出現(xiàn)次數(shù)']) #寫表格表頭 item = list(word_counts.items()) #將字典轉(zhuǎn)化為列表格式 item.sort(key = lambda x: x[1], reverse = True) #對列表按照第二列進(jìn)行排序 for i in range(100):write.writerow(item[i]) #把前100詞語寫入表格Excel只截取部分6.詞頻分析
從前100個高頻關(guān)鍵詞中看出,“不錯”出現(xiàn)了1294次,說明這批手機(jī)訂單客戶評價(jià)對商品較為滿意。這點(diǎn)也可以結(jié)合數(shù)據(jù)集中score(評分)字段,繪制直方圖發(fā)現(xiàn)5分好評占絕大部分。
其次,我們能看出“速度”、“屏幕”、“電池”、“好看”、“內(nèi)存”、“質(zhì)量”、“攝像頭”等高頻詞語,說明客戶對手機(jī)運(yùn)行的速度,電池容量大小,手機(jī)外觀、內(nèi)存等配置還是比較在意的,廠商可以針對這些客戶的關(guān)注點(diǎn),更好的改進(jìn),優(yōu)化。
最后,評論中出現(xiàn)“小米”、“華為”、“蘋果”等字眼,因?yàn)楸緮?shù)據(jù)集item_name(商品名稱)已脫敏,不太清楚具體每個訂單銷售的手機(jī)品牌,評論中出現(xiàn)各手機(jī)品牌,可能是本訂單是相關(guān)品牌手機(jī),也有可能評論中與其他手機(jī)品牌對比。我們可以通過關(guān)鍵詞匹配,查詢具體評論內(nèi)容,進(jìn)行瀏覽閱讀,這里以搜索“小米”相關(guān)評論內(nèi)容為例。
為了讓print內(nèi)容完全展示,便于閱讀,可以對pandas展示列表進(jìn)行設(shè)置總結(jié)
詞頻挖掘分析在運(yùn)營中用處很多,比如,某款新上產(chǎn)品,想要了解新產(chǎn)品具體情況,可以跟蹤分析發(fā)布后一個月的app評論或網(wǎng)上爬取貼吧論壇等相關(guān)文章,分析客戶的關(guān)注點(diǎn)和反饋比較多的問題,針對客戶關(guān)注點(diǎn)可以側(cè)重的優(yōu)化,對反饋比較的問題優(yōu)先解決。運(yùn)營中也可以根據(jù)時間序列對評論進(jìn)行分析,分析運(yùn)營過程中客戶關(guān)注點(diǎn)的變動,及時把握客戶心理等變化。畢竟市場是檢驗(yàn)需要的唯一標(biāo)準(zhǔn)。
總結(jié)
以上是生活随笔為你收集整理的jieba库词频统计_网购评论之词频分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 原生js已载入就执行函数_手写Commo
- 下一篇: accessdeniedexceptio