當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python 文本相似度_python实现余弦相似度文本比较

發(fā)布時(shí)間：2024/7/23 python 24 豆豆

生活随笔收集整理的這篇文章主要介紹了 python 文本相似度_python实现余弦相似度文本比较小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

向量空間模型VSM：

VSM的介紹：

一個(gè)文檔可以由文檔中的一系列關(guān)鍵詞組成，而VSM則是用這些關(guān)鍵詞的向量組成一篇文檔，其中的每個(gè)分量代表詞項(xiàng)在文檔中的相對重要性。

VSM的例子：

比如說，一個(gè)文檔有分詞和去停用詞之后，有N個(gè)關(guān)鍵詞（或許去重后就有M個(gè)關(guān)鍵詞），文檔關(guān)鍵詞相應(yīng)的表示為（d1,d2,d3,...,dn），而每個(gè)關(guān)鍵詞都有一個(gè)對應(yīng)的權(quán)重（w1,w1,...,wn）。對于一篇文檔來說，或許所含的關(guān)鍵詞項(xiàng)比較少，文檔向量化后的向量維度可能不是很大。而對于多個(gè)文檔（2篇文檔或兩篇文檔以上），則需要合并所有文檔的關(guān)鍵詞（關(guān)鍵詞不能重復(fù)），形成一個(gè)不重復(fù)的關(guān)鍵詞集合，這個(gè)關(guān)鍵詞集合的個(gè)數(shù)就是每個(gè)文檔向量化后的向量的維度。打個(gè)比方說，總共有2篇文檔A和B，其中A有5個(gè)不重復(fù)的關(guān)鍵詞（a1,a2,a3,a4,a5）,B有6個(gè)關(guān)鍵詞（b1,b2,b3,b4,b5,b6）,而且假設(shè)b1和a3重復(fù)，則可以形成一個(gè)簡單的關(guān)鍵詞集（a1,a2,a3,a4,a5,,b2,b3,b4,b5,b6），則A文檔的向量可以表示為（ta1,ta2,ta3,ta4,ta5,0,0,0,0,0）,B文檔可以表示為（0,0,tb1,0,0,tb2,tb3,tb4,tb5,tb6），其中的tb表示的對應(yīng)的詞匯的權(quán)重。

最后，關(guān)鍵詞的權(quán)重一般都是有TF-IDF來表示，這樣的表示更加科學(xué)，更能反映出關(guān)鍵詞在文檔中的重要性，而如果僅僅是為數(shù)不大的文檔進(jìn)行比較并且關(guān)鍵詞集也不是特別大，則可以采用詞項(xiàng)的詞頻來表示其權(quán)重（這種表示方法其實(shí)不怎么科學(xué)）。

TF-IDF權(quán)重計(jì)算：

TF的由來：

以前在文檔搜索的時(shí)候，我們只考慮詞項(xiàng)在不在文檔中，在就是1，不在就是0。其實(shí)這并不科學(xué)，因?yàn)槟切┏霈F(xiàn)了很多次的詞項(xiàng)和只出現(xiàn)了一次的詞項(xiàng)會處于等同的地位，就是大家都是1.按照常理來說，文檔中詞項(xiàng)出現(xiàn)的頻率越高，那么就意味著這個(gè)詞項(xiàng)在文檔中的地位就越高，相應(yīng)的權(quán)重就越大。而這個(gè)權(quán)重就是詞項(xiàng)出現(xiàn)的次數(shù)，這樣的權(quán)重計(jì)算結(jié)果被稱為詞頻（term frequency）,用TF來表示。

IDF的出現(xiàn)：

在用TF來表示權(quán)重的時(shí)候，會出現(xiàn)一個(gè)嚴(yán)重的問題：就是所有的詞項(xiàng)都被認(rèn)為是一樣重要的。但在實(shí)際中，某些詞項(xiàng)對文本相關(guān)性的計(jì)算來說毫無意義，舉個(gè)例子，所有的文檔都含有汽車這個(gè)詞匯，那么這個(gè)詞匯就沒有區(qū)分能力。解決這個(gè)問題的直接辦法就是讓那些在文檔集合中出現(xiàn)頻率較高的詞項(xiàng)獲得一個(gè)比較低的權(quán)重，而那些文檔出現(xiàn)頻率較低的詞項(xiàng)應(yīng)該獲得一個(gè)較高的權(quán)重。

為了獲得出現(xiàn)詞項(xiàng)T的所有的文檔的數(shù)目，我們需要引進(jìn)一個(gè)文檔頻率df。由于df一般都比較大，為了便于計(jì)算，需要把它映射成一個(gè)較小的范圍。我們假設(shè)一個(gè)文檔集里的所有的文檔的數(shù)目是N，而詞項(xiàng)的逆文檔頻率（IDF）。計(jì)算的表達(dá)式如下所示：

通過這個(gè)idf，我們就可以實(shí)現(xiàn)罕見詞的idf比較高，高頻詞的idf比較低。

TF-IDF的計(jì)算：

TF-IDF = TF * IDF

有了這個(gè)公式，我們就可以對文檔向量化后的每個(gè)詞給予一個(gè)權(quán)重，若不含這個(gè)詞，則權(quán)重為0。

余弦相似度的計(jì)算：

有了上面的基礎(chǔ)知識，我們可以將每個(gè)分好詞和去停用詞的文檔進(jìn)行文檔向量化，并計(jì)算出每一個(gè)詞項(xiàng)的權(quán)重，而且每個(gè)文檔的向量的維度都是一樣的，我們比較兩篇文檔的相似性就可以通過計(jì)算這兩個(gè)向量之間的cos夾角來得出。下面給出cos的計(jì)算公式：

分母是每篇文檔向量的模的乘積，分子是兩個(gè)向量的乘積，cos值越趨向于1，則說明兩篇文檔越相似，反之越不相似。

文本比較實(shí)例：

對文本進(jìn)行去停用詞和分詞：

文本未分詞前，如下圖所示：

文本分詞和去停用詞后，如下圖所示：

詞頻統(tǒng)計(jì)和文檔向量化

對經(jīng)過上一步處理過的文檔，我們可以統(tǒng)計(jì)每個(gè)文檔中的詞項(xiàng)的詞頻，并且將其向量化，下面我直接給出文檔向量化之后的結(jié)果。注意：在這里由于只是比較兩篇文檔的相似性，所以我只用了tf來作為詞項(xiàng)的權(quán)重，并未使用tf-idf：

向量化后的結(jié)果是：

[1,1,1,1,1,1,1,1,1,1,1,1,1,1]

兩篇文檔進(jìn)行相似度的計(jì)算，我會給出兩篇文檔的原文和最終計(jì)算的相似度：

文檔原文如下所示：

文檔A的內(nèi)容

文檔B的內(nèi)容

余弦相似度代碼實(shí)現(xiàn)：

1 importmath2 #兩篇待比較的文檔的路徑

3 sourcefile = '1.txt'

4 s2 = '2.txt'

6 #關(guān)鍵詞統(tǒng)計(jì)和詞頻統(tǒng)計(jì)，以列表形式返回

7 defCount(resfile):8 t ={}9 infile = open(resfile, 'r', encoding='utf-8')10 f =infile.readlines()11 count =len(f)12 #print(count)

13 infile.close()14

15 s = open(resfile, 'r', encoding='utf-8')16 i =017 while i

總結(jié)

以上是生活随笔為你收集整理的python 文本相似度_python实现余弦相似度文本比较的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： IOC操作Bean管理注解方式（注入属性
下一篇：白中英计算机组成原理_计算机组成原理

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

python

python 文本相似度_python实现余弦相似度文本比较

總結(jié)