lucene源码分析(4)Similarity相似度算法
生活随笔
收集整理的這篇文章主要介紹了
lucene源码分析(4)Similarity相似度算法
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
lucene 7.5.0默認(rèn)的評(píng)分Similarity是BM25Similarity (IndexSearcher.java)
// the default Similarityprivate static final Similarity defaultSimilarity = new BM25Similarity();IDF公式
- f(qi,D):就是詞頻
- |D|:[給定文檔]D長(zhǎng)度。
- avgdl:索引中所有文檔長(zhǎng)度。
早期的版本使用的是TFIDFSimilarity,
Lucene TFIDFSimilarity給出的理論評(píng)分公式:
對(duì)應(yīng)的還有
?
修改相似度算法的實(shí)現(xiàn)可以通過(guò)下面的方法實(shí)現(xiàn)
/** Expert: Set the Similarity implementation used by this IndexSearcher.**/public void setSimilarity(Similarity similarity) {this.similarity = similarity;}?
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/p/9959059.html
總結(jié)
以上是生活随笔為你收集整理的lucene源码分析(4)Similarity相似度算法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: lucene源码分析(3)facet实例
- 下一篇: elasticsearch版本不同,批量