向量空间模型(转)
一: 不同區(qū)域的權(quán)重計(jì)算
1.? 對(duì)出現(xiàn)在文檔的不通區(qū)域的term賦予不同的權(quán)值,例如title,author,body等,這樣需要在倒排表中記錄term每一次出現(xiàn)的位置
2. 對(duì)不同的區(qū)域賦予不通的權(quán)值,Gi, 使得 Sum(Gi) = 1
3. 對(duì)于這個(gè)Gi的值,可以通過機(jī)器學(xué)習(xí)的方法來確定:給定一個(gè)文檔集合和query,以及query與文檔之間的相似性,然后假定一個(gè)表達(dá)式,采用這個(gè)樣本來計(jì)算各種系數(shù)
二:出現(xiàn)頻率的權(quán)重計(jì)算
1. 在這種模型下,文檔被認(rèn)為是詞的集合,詞的出現(xiàn)位置和順序都不重要,重要的是詞的出現(xiàn)次數(shù),同樣地query也做這樣的處理,因此“我比你好”和“你比我好” 是一樣的
1. term在某一篇文檔中的頻率tf, 在一個(gè)文檔集合內(nèi)的頻率cf,在文檔集合內(nèi)包含該term的文檔數(shù)df
2. 如果只用tf,則語氣詞等的權(quán)重會(huì)最大,或者是專業(yè)文章內(nèi),例如自動(dòng)化的文章中自動(dòng)化會(huì)出現(xiàn)很多次,因此用自動(dòng)化就不能區(qū)分開這些文章,因此要借助于cf或者df
3. 由于df比cf具有更好的作用來區(qū)分不同詞與文檔的相關(guān)性,因此采用df配合tf來決定term在文檔里的權(quán)重
4. 定義idf = log(N / df), N是文檔總數(shù)
5. term的權(quán)重 = tf * idf
6. 因此,定義query與文檔的權(quán)重關(guān)系為:score(q,d) = for t in q :? sum += tf(t,d) * idf(t)
7. 因此,將文檔表示為一個(gè)term以及term權(quán)重的向量,V = (t1, t2, ..., tn), 因此計(jì)算V1 與 V2的相似性可以如下的公式:
sim(V1, V2) = V1 * V2 / (|V1| * | V2|), 分子是向量的點(diǎn)乘,分母是向量長(zhǎng)度的乘積,如果將V1, V2表示為有方向的直線,這實(shí)際是在計(jì)算這兩條線夾角的cos值
8. 將query也看成是term的向量集合,query中的term權(quán)重可以簡(jiǎn)單地設(shè)定為相等
三. 對(duì)tf,df的一些變化
1. 一般不會(huì)說如果詞在文檔內(nèi)出現(xiàn)20次,則記為20,因此必須采用公式來計(jì)算tf,一般是tf = 1 + log(出現(xiàn)次數(shù))
2. 上面計(jì)算出來的tf會(huì)在很大的范圍內(nèi),差別很大,因此需要將其范圍變小,同時(shí)引入平滑因子來降低不同值之間的差距,縮小范圍是因?yàn)閠f需要在不同的文檔間計(jì)算,否則一篇很長(zhǎng)的文章內(nèi)的詞會(huì)具有很大的tf值,這樣會(huì)降低其他文章的權(quán)重,會(huì)影響相關(guān)性。
?
本文來自CSDN博客,轉(zhuǎn)載請(qǐng)標(biāo)明出處:http://blog.csdn.net/tianqio/archive/2009/05/24/4212434.aspx
轉(zhuǎn)載于:https://www.cnblogs.com/Myhsg/archive/2010/01/07/1641018.html
總結(jié)
- 上一篇: ZZ:Business Analysis
- 下一篇: MasterPage事件使用