Coreseek-带中文分词的Sphinx
Sphinx并不支持中文分詞,?也就不支持中文搜索, Coreseek = Sphinx +?MMSEG(中文分詞算法)
1.下載
1).到官網(wǎng)下載
2).解壓后有三個文件夾
csft-3.2.14:?Sphinx
mmseg-3.2.14:?中文分詞組件
testpack: 接口開發(fā)包
2.安裝
1).先安裝mmseg,?因為Coreseek會用到
cd mmseg-3.2.14 ./configure --prefix=/usr/local/mmseg此時如果Makefile文件創(chuàng)建成功,?但是出現(xiàn)了一個config.status: error: cannot find input file: src/Makefile.in錯誤信息,?使用以下命令重新編譯
aclocal libtoolize --force automake --add-missing autoconf autoheader make clean ./configure --prefix=/usr/local/mmseg執(zhí)行安裝
make && make install2).安裝csft(即Coreseek)
./configure --prefix=/usr/local/coreseek --with-mysql=/usr/local/mysql --with-mmseg=/usr/local/mmseg --with-mmseg-includes=/usr/local/mmseg/include/mmseg --with-mmseg-libs=/usr/local/mmseg/lib make && make install3.中文分詞算法分類
1).基于字符串匹配的分詞方法
基于字典,?進(jìn)行挨個的詞條匹配
三個要素: 分詞詞典, 文本掃描順序, 匹配原則
掃描順序: 正向, 逆向, 雙向
匹配原則: 最大, 最小, 逐詞,最佳
2).基于理解的分詞方法,?正在測試階段
3).基于統(tǒng)計的分詞方法,?可以根據(jù)相鄰的字出現(xiàn)的次數(shù)和頻率等自動識別生詞,?自動消除歧義
?4.配置Coreseek
cp /usr/local/coreseek/etc/sphinx.conf.dist /usr/local/coreseek/etc/csft.conf #與Sphinx不同的是配置文件名不同 #接下來按照Sphinx配置即可, 注意索引中的此兩處配置 #charset_type = zh_cn.utf-8 #charset_dictpath = /usr/local/mmseg/etc/5.生成索引
cd /usr/local/coreseek/bin ./indexer --all6.查找內(nèi)容
cd /usr/local/coreseek/bin ./search 隨永杰?
轉(zhuǎn)載于:https://www.cnblogs.com/JohnABC/p/4733682.html
總結(jié)
以上是生活随笔為你收集整理的Coreseek-带中文分词的Sphinx的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: junit基础学习之-断言注解(3)
- 下一篇: Hive中排序和聚集