當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python jieba词频统计英文文本_python实战，中文自然语言处理，应用jieba库来统计文本词频...

發(fā)布時(shí)間：2024/7/23 python 35 豆豆

生活随笔收集整理的這篇文章主要介紹了 python jieba词频统计英文文本_python实战，中文自然语言处理，应用jieba库来统计文本词频... 小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

模塊介紹

安裝：pip install jieba 即可

jieba庫，主要用于中文文本內(nèi)容的分詞，它有3種分詞方法：

1. 精確模式, 試圖將句子最精確地切開，適合文本分析：

2. 全模式，把句子中所有的可以成詞的詞語都掃描出來，速度非常快，但是不能解決歧義；

3. 搜索引擎模式，在精確模式的基礎(chǔ)上，對(duì)長詞再詞切分，提高召回率，適合用于搜索引擎分詞。

我們用個(gè)小例子演示下

這上面的小例子中我們看到了一個(gè)問題，如果我們只是簡簡單單的將所有詞切分出來，然后去統(tǒng)計(jì)它們出現(xiàn)的次數(shù)，那么你會(huì)發(fā)現(xiàn)，其中的“是”，“的”等等詞語以及各種標(biāo)點(diǎn)符號(hào)是出現(xiàn)頻率最高的，那么這里有2種方式，1是直接去掉長度為1的所有詞語，比如上面所說的“是”，“的”或者標(biāo)點(diǎn)符號(hào)等等，還有一種呢，是用到了TF-IDF技術(shù)TF-IDF (term frequency-inverse document frequency)是一種用于信息檢索(information retrieval)與文本挖掘(text mining)的常用加權(quán)技術(shù)，比較容易理解的一個(gè)應(yīng)用場景是當(dāng)我們手頭有一些文章時(shí)或者微博評(píng)論，我們希望計(jì)算機(jī)能夠自動(dòng)地進(jìn)行關(guān)鍵詞提取。而TF－IDF就是可以幫我們完成這項(xiàng)任務(wù)的一種統(tǒng)計(jì)方法。它能偶用于評(píng)估一個(gè)詞語對(duì)于一個(gè)文集或一個(gè)語料庫中的其中一份文檔的重要程度。這個(gè)方法又稱為"詞頻－逆文本頻率"。

不好理解的話，我們一樣來寫一個(gè)小例子：

withWeight=True 參數(shù)為是否返回權(quán)重值，默認(rèn)是關(guān)閉的，我們直接打印出所有詞和它對(duì)于的權(quán)重，就可以用于計(jì)算了！

小說詞頻分析

簡單的寫個(gè)小demo，分析小說的詞頻，并將前10個(gè)打印出來！篇幅有限，就以《天龍八部》的第1章為例，大概有4萬多個(gè)字符，直接上代碼了！

在第425行，進(jìn)行分詞，然后將結(jié)果進(jìn)行遍歷(426-433行)，遍歷中，剔除單個(gè)字符，每個(gè)詞語和它所出現(xiàn)的次數(shù)寫入字典，第434、435行將字典轉(zhuǎn)化為元組所組成的列表，并依據(jù)出現(xiàn)次數(shù)進(jìn)行排序，然后遍歷列表，取出前10名。

第二段代碼(441-445行)是依據(jù)權(quán)重取出了關(guān)鍵詞，可以看出，這章小說，主要講的就是段譽(yù)的事情了，不論是權(quán)重還是詞頻都是他最高。。。

文本內(nèi)容有大概400多行，就折疊了，大家可以直接套用代碼，自己試試。

后記

今天的分享就這些了，python的自然語言處理其實(shí)還有好多內(nèi)容，比如停止詞的使用，詞性等等好多，大家如果有興趣，可以來找我一起深入學(xué)習(xí)！

總結(jié)

以上是生活随笔為你收集整理的python jieba词频统计英文文本_python实战，中文自然语言处理，应用jieba库来统计文本词频...的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： java getselecteditem
下一篇：模块 python_Python入门基础

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python jieba词频统计英文文本_python实战，中文自然语言处理，应用jieba库来统计文本词频...

總結(jié)