python jieba词频统计英文文本_python实战,中文自然语言处理,应用jieba库来统计文本词频...
模塊介紹
安裝:pip install jieba 即可
jieba庫,主要用于中文文本內(nèi)容的分詞,它有3種分詞方法:
1. 精確模式, 試圖將句子最精確地切開,適合文本分析:
2. 全模式,把句子中所有的可以成詞的詞語都掃描出來,速度非常快,但是不能解決歧義;
3. 搜索引擎模式,在精確模式的基礎(chǔ)上,對(duì)長詞再詞切分,提高召回率,適合用于搜索引擎分詞。
我們用個(gè)小例子演示下
這上面的小例子中我們看到了一個(gè)問題,如果我們只是簡簡單單的將所有詞切分出來,然后去統(tǒng)計(jì)它們出現(xiàn)的次數(shù),那么你會(huì)發(fā)現(xiàn),其中的“是”,“的”等等詞語以及各種標(biāo)點(diǎn)符號(hào)是出現(xiàn)頻率最高的,那么這里有2種方式,1是直接去掉長度為1的所有詞語,比如上面所說的“是”,“的”或者標(biāo)點(diǎn)符號(hào)等等,還有一種呢,是用到了TF-IDF技術(shù)TF-IDF (term frequency-inverse document frequency)是一種用于信息檢索(information retrieval)與文本挖掘(text mining)的常用加權(quán)技術(shù),比較容易理解的一個(gè)應(yīng)用場景是當(dāng)我們手頭有一些文章時(shí)或者微博評(píng)論,我們希望計(jì)算機(jī)能夠自動(dòng)地進(jìn)行關(guān)鍵詞提取。而TF-IDF就是可以幫我們完成這項(xiàng)任務(wù)的一種統(tǒng)計(jì)方法。它能偶用于評(píng)估一個(gè)詞語對(duì)于一個(gè)文集或一個(gè)語料庫中的其中一份文檔的重要程度。這個(gè)方法又稱為"詞頻-逆文本頻率"。
不好理解的話,我們一樣來寫一個(gè)小例子:
withWeight=True 參數(shù)為是否返回權(quán)重值,默認(rèn)是關(guān)閉的,我們直接打印出所有詞和它對(duì)于的權(quán)重,就可以用于計(jì)算了!
小說詞頻分析
簡單的寫個(gè)小demo,分析小說的詞頻,并將前10個(gè)打印出來!篇幅有限,就以《天龍八部》的第1章為例,大概有4萬多個(gè)字符,直接上代碼了!
在第425行,進(jìn)行分詞,然后將結(jié)果進(jìn)行遍歷(426-433行),遍歷中,剔除單個(gè)字符,每個(gè)詞語和它所出現(xiàn)的次數(shù)寫入字典,第434、435行將字典轉(zhuǎn)化為元組所組成的列表,并依據(jù)出現(xiàn)次數(shù)進(jìn)行排序,然后遍歷列表,取出前10名。
第二段代碼(441-445行)是依據(jù)權(quán)重取出了關(guān)鍵詞,可以看出,這章小說,主要講的就是段譽(yù)的事情了,不論是權(quán)重還是詞頻都是他最高。。。
文本內(nèi)容有大概400多行,就折疊了,大家可以直接套用代碼,自己試試。
后記
今天的分享就這些了,python的自然語言處理其實(shí)還有好多內(nèi)容,比如停止詞的使用,詞性等等好多,大家如果有興趣,可以來找我一起深入學(xué)習(xí)!
總結(jié)
以上是生活随笔為你收集整理的python jieba词频统计英文文本_python实战,中文自然语言处理,应用jieba库来统计文本词频...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java getselecteditem
- 下一篇: 模块 python_Python入门基础