基于OAI-PMH的元数据搜索引擎的设计与实现
在設計和實現基于OAI-PMH的元數據搜索引擎過程中,需要解決很多方面的問題。
對于中小型搜索引擎,最好使用開放源代碼軟件來實現。
一、實現基于OAI-PMH的元數據搜索引擎,我采用了如下開放源代碼軟件:
(1)OAIHarvester:從支持元數據資源開放的DataProvider獲取元數據資源。
(2)?HTMLParser:用于解析HTML頁面,并從中解析出可以有效獲取與元數據對應的全文(fulltext)的url地址。
(3)Lucene:建立全文索引數據庫?,實現索引和檢索。
(3)CJKAnalyzer:中文分詞程序。
(4)PDFBox:用于處理PDF格式全文,可以輕易實現從PDF中提取文本、圖片。
(5)tm-extracter:用于從PDF和Doc文件中提取文本。
?
二、設計和實現過程中需要解決的關鍵問題:
(1) 改進OAIHarvester,使之基于多線程下載。
(2)設計和實現簡單的XMLParser。用于解析OAIHarvester的獲取結果:xml文檔。
(3)實現元數據對應的全文獲取。需要解析html文檔。
(4)各種格式文件(如:pdf、doc等)文件的索引問題。需要首先提取文本,然后對關鍵文本進行獲取。
(5)元數據的語種識別。該問題還沒有解決,如果有誰解決了該問題的話,請幫忙。據說TextCat(C語言實現)可以實現語種識別,但沒找到源代碼。如果誰有的話,希望能共享一下。
(6)檢索界面的設計與實現。仿照cnki的界面來設計。
?
三、在閱讀開放源碼軟件的時候,一定要認真分析其引用的第三方軟件。
在學習和實踐數字倉儲管理系統Dspace的過程中,我發現Dspace引用的開放源碼軟件非常豐富,而且引用得非常成功。
?
總結
以上是生活随笔為你收集整理的基于OAI-PMH的元数据搜索引擎的设计与实现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Kv缓存用法指南
- 下一篇: Flutter之Card组件