solr中文分词
1.簡介
Solr是一個高性能,采用Java5開發,Solr基于Lucene的全文搜索服務器。同時對其進行了擴展,提供了比Lucene更為豐富的查詢語言,同時實現了可配置、可擴展并對查詢性能進行了優化,并且提供了一個完善的功能管理界面,是一款非常優秀的全文搜索引擎。因為中文的特殊性,在對中文文檔建立全文索引時,需要利用分詞工具進行分詞。
目前比較知名的分詞工具有:
IK,庖丁等
2.下載
?solr鏈接:https://pan.baidu.com/s/1iitpaYgBVpXQSUABtkCm5Q?
提取碼:tuuo?
3.安裝
解壓文件。
進入bin 啟動solr
./solr start -p 8984
可以在ip:8984端口上查看solr情況
關閉solr
./solr stop -all
4.中文分詞配置
copy ik-analyzer-solr5-5.x.jar to server/solr-webapp/webapp/WEB-INF/lib
ik-analyzer-solr5-5.x.jar 下載地址:鏈接:https://pan.baidu.com/s/1MlzginuetwyONGQ5KbtnOg?
提取碼:7g7z?
?
/usr/local/solr/solr-5.4.0/server/solr-webapp/webapp/WEB-INF/lib
修改schema.xml
<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" /> </analyzer><analyzer type="query"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" /></analyzer></fieldType><field name="docContent" type="text_ik" indexed="true" stored="true" multiValued="true"/>
<field name="docType" type="text_ik" indexed="true" stored="true" multiValued="true"/>
<field name="docName" type="text_ik" indexed="true" stored="true" multiValued="true"/>
重啟solr
檢測:
進入solr管理頁面-->analysis 查看分詞結果
?
轉載于:https://www.cnblogs.com/pigdata/p/10305562.html
總結
- 上一篇: 字符串,那些你不知道的事
- 下一篇: 求梅森数