hadoop学习-倒排索引
生活随笔
收集整理的這篇文章主要介紹了
hadoop学习-倒排索引
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
倒排索引是文檔搜索系統中常用的數據結構。它主要用來存儲某個詞組在一個或多個文檔中的位置映射。通常情況下,倒排索引由詞組以及相關的文檔列表組成。如下表所示。
表1:
單詞 文檔列表
| 單詞1 | 文檔1 | 文檔2 | 文檔3 |
| 單詞2 | 文檔2 | 文檔4 | 文檔5 |
| 單詞3 | 文檔3 | 文檔5 | 文檔6 |
從表1可以看出單詞1出現在{文檔1,文檔2,文檔3},單詞2出現在{文檔2,文檔4,文檔5},單詞3出現在{文檔3,文檔5,文檔6}。
實際使用中還需要給文檔添加一個權值,用來表示該詞組與文檔的相關性。如表2所示。
表2:
單詞 文檔列表
| 單詞1 | 文檔1 | 權 | 文檔2 | 權 | 文檔3 | 權 |
總結
以上是生活随笔為你收集整理的hadoop学习-倒排索引的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: hadoop学习-stream-Top
- 下一篇: Hadoop学习--HBase与MapR