如何用余弦定理来进行文本相似度的度量
在做文本分析的時(shí)候,經(jīng)常會(huì)到說(shuō)將文本轉(zhuǎn)化為對(duì)應(yīng)的向量,之后利用余弦定理來(lái)計(jì)算文本之間的相似度。但是最近在面試時(shí),重復(fù)上面這句話,卻被面試官問(wèn)到:“什么是余弦定理?”當(dāng)時(shí)就比較懵逼,于是把余弦定理求文本相似度的過(guò)程敘述了一遍:“將樣本轉(zhuǎn)化為對(duì)應(yīng)的空間中的兩個(gè)向量,然后計(jì)算兩個(gè)向量余弦值,之后根據(jù)余弦值的大小來(lái)判斷兩個(gè)樣本相似度有多少”,但是話音剛落就被面試官否定了,當(dāng)時(shí)感覺(jué)自己說(shuō)的是正確的,但是由于自己的確記不記得余弦定理的數(shù)學(xué)含義以及公式,所以也就沒(méi)有和面試官辯論,當(dāng)時(shí)想請(qǐng)教下面試官他理解的余弦定理是什么,卻被一句“回去自己查”給堵死。。。之后對(duì)這件事一直耿耿于懷,不過(guò)又一想,也是,面試官問(wèn)的是余弦定理,但是我說(shuō)的是余弦定理在空間向量中如何計(jì)算相似度,好像是有點(diǎn)跑題。。。anyway,過(guò)去的已經(jīng)過(guò)去了,只要有收獲就行。于是回來(lái)查了一下余弦定理是怎么應(yīng)用于文本相似的度量的,下面是整個(gè)過(guò)程,其實(shí)很簡(jiǎn)單,只不過(guò)當(dāng)時(shí)把余弦定理的公式忘了,不然很容易就能解釋通(數(shù)學(xué)知識(shí)全還給老師了)。。。
相似度度量(Similarity),即計(jì)算個(gè)體間的相似程度,相似度度量的值越小,說(shuō)明個(gè)體間相似度越小,相似度的值越大說(shuō)明個(gè)體差異越大。
對(duì)于多個(gè)不同的文本或者短文本對(duì)話消息要來(lái)計(jì)算他們之間的相似度如何,一個(gè)好的做法就是將這些文本中詞語(yǔ),映射到向量空間,形成文本中文字和向量數(shù)據(jù)的映射關(guān)系,通過(guò)計(jì)算幾個(gè)或者多個(gè)不同的向量的差異的大小,來(lái)計(jì)算文本的相似度。下面介紹一個(gè)詳細(xì)成熟的向量空間余弦相似度方法計(jì)算相似度
向量空間余弦相似度(Cosine Similarity)
余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)個(gè)體間差異的大小。余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,這就叫”余弦相似性”。
上圖兩個(gè)向量a,b的夾角很小可以說(shuō)a向量和b向量有很高的的相似性,極端情況下,a和b向量完全重合。如下圖:
如上圖二:可以認(rèn)為a和b向量是相等的,也即a,b向量代表的文本是完全相似的,或者說(shuō)是相等的。如果a和b向量夾角較大,或者反方向。如下圖
如上圖三: 兩個(gè)向量a,b的夾角很大可以說(shuō)a向量和b向量有很底的的相似性,或者說(shuō)a和b向量代表的文本基本不相似。那么是否可以用兩個(gè)向量的夾角大小的函數(shù)值來(lái)計(jì)算個(gè)體的相似度呢?
向量空間余弦相似度理論就是基于上述來(lái)計(jì)算個(gè)體相似度的一種方法。下面做詳細(xì)的推理過(guò)程分析。
想到余弦公式,最基本計(jì)算方法就是初中的最簡(jiǎn)單的計(jì)算公式,計(jì)算夾角θ的余弦定值公式為:
但是這個(gè)是只適用于直角三角形的,而在非直角三角形中,余弦定理的公式是
三角形中邊a和b的夾角 的余弦計(jì)算公式為:
在向量表示的三角形中,假設(shè)a向量是(x1, y1),b向量是(x2, y2),那么可以將余弦定理改寫成下面的形式:
向量a和向量b的夾角 的余弦計(jì)算如下
擴(kuò)展,如果向量a和b不是二維而是n維,上述余弦的計(jì)算法仍然正確。假定a和b是兩個(gè)n維向量,a是 ,b是 ,則a與b的夾角 的余弦等于:
余弦值越接近1,就表明夾角越接近0度,也就是兩個(gè)向量越相似,夾角等于0,即兩個(gè)向量相等,這就叫”余弦相似性”。
總結(jié):
其實(shí)只要知道余弦定理余弦值的計(jì)算公式,然后轉(zhuǎn)化為空間中的兩個(gè)向量后,直接就能代入余弦定理來(lái)得到對(duì)應(yīng)的余弦值,畢竟你知道兩個(gè)向量的坐標(biāo),也就意味著你知道了余弦定理公式中三角形的三條邊a、b、c的值。
參考:https://blog.csdn.net/u012160689/article/details/15341303
總結(jié)
以上是生活随笔為你收集整理的如何用余弦定理来进行文本相似度的度量的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 肌电数据归一化并显示灰度图片
- 下一篇: 基于jquery实现身份证验证