[搜索]一种改进的召回率准确率公式计算方式
在信息檢索系統中,召回率和準確率的定義為:
召回率:(Recall Ratio,簡稱R)是衡量信息檢索系統在實施某一檢索作業時檢出相關文獻能力的一種測度指標,其計算方法為:Recall=檢出的相關文獻量/檢索系統中的相關文獻總量.
準確率:(Precision Ratio,簡稱P)是衡量系統在實施某一檢索作業時檢索精準度的一個測度指標,其計算方法為:
Precision=檢出的相關文獻量/檢出的文獻總量.
比如一個系統中有100篇文檔,對于某一次查詢,有10篇相關的文檔,在這次檢索中,共檢出8篇文檔,其中4篇為相關文檔,則
召回率為:4/10 = 40%
準確率為:4/8 = 50%
但是如果另外一個系統中有10000篇文檔,針對同樣的一次查詢,有10篇相關文檔,并且也檢出8篇文檔,其中4篇為相關文檔,則
召回率為:4/10 = 40%
準確率為:4/8 = 50%
也就是兩個系統針對的這兩次查詢,檢索效果一樣,其實直觀的感覺,第二個系統的檢索效果明顯好于第一個檢索系統,打個比方,第一個系統的檢索好像是從一把沙中挑出幾個貝克,而第二個檢索系統是從一籮筐沙中挑出那幾個貝克,顯然第二個系統的難度大多了。這就是傳統召回率和準確率的弊端,并不能反映這些差別。
所以,需要一種新的召回率和準確率的度量方法來克服這個弊端,我們可以考慮非相關文檔在文檔集中的比重,因為在一個真實的檢索系統中,非相關文檔總是遠遠大于相關文檔,在此定義一個新的召回率和準確率公式,以不相關文檔與總文檔數的比值作為系數。公式如下:
新召回率=召回率*(不相關文檔數/總文檔數)
確率=準確率*(不相關文檔數/總文檔數)
我們用新的公式再來計算一下這兩個檢索系統的召回率和準確率,則
第一個系統的
新召回率=40%*(90/100) = 40%*90% = 36%
新準確率=50%*(90/100) = 50%*90 = 45%
第二個系統的
新召回率=40%*(9990/10000) = 40%*99.9%=39.6%
新準確率=50%*(9990/10000) = 50%*99.9%=49.5%
從新的公式來看,第二個系統的召回率和準確率都要比第一個系統要高,體現出來這種差別。
總結
以上是生活随笔為你收集整理的[搜索]一种改进的召回率准确率公式计算方式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [搜索]Trie树的一种实现
- 下一篇: [搜索]字符串的相似度问题-从编程之美说