solr从pdf、office文档中建立索引
使用solr從pdf、office文檔中建立索引和從數據庫中建立相似,只不過這里需要tika來解析這些文檔。8.1?配置一個handler 這個handler首先要在solrConfig.xml中配置,如下所示: ? ?? ?
? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ? 這里和7.1幾乎一樣,只不過修改了配置文件名(當然也可以不修改)。 8.2?文檔配置tika-data-config.xml ? ???
? ?? 這里只說上面(7.2)沒有說過的屬性。 ·? ?? ???fileName?:(必選)使用正則表達式匹配文件 ·? ?? ???baseDir?: (必選) 文件目錄 ·? ?? ???recursive?: 是否遞歸的獲取文件,默認false ·? ?? ???rootEntity?:在這里必須是false(除非你只想索引文件名)。在默認情況下,document元素下就是根實體了,如果沒有根實體的話,直接在實體下面的實體將會被看做跟實體。對于根實體對應的數據庫中返回的數據的每一行,solr都將生成一個document ·? ?? ???dataSource?:如果你是用solr1.3,那就必須設為"null",因為它沒使用任何dataSourde。不需要在solr1.4中指定它,它只是意味著我們不創建一個dataSource實例。在大多數情況下,只有一個DataSource(JdbcDataSource),當使用FileListEntityProcessor 的時候DataSource不是必須的 ·? ?? ???processor:只有當datasource不是RDBMS時才是必須的 ·? ?? ???onError?:默認是"abort","skip"表示跳過當前文檔,"continue"表示對錯誤視而不見 |
更多精彩內容請關注:http://bbs.superwu.cn
總結
以上是生活随笔為你收集整理的solr从pdf、office文档中建立索引的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 冬奥会纪念币有第二批吗?
- 下一篇: 顶格申购是什么意思