coreseek添加新词库
coreseek添加新詞庫
coreseek使用mmseg作為分詞工具,默認的詞庫是有限的,我們需要為mmseg增加自定義詞,用來豐富詞庫,實現更加精準的搜索服務。本文介紹如何自定義mmseg詞,并通過腳本和mmseg命令導入詞庫。
1、下載搜狗詞庫
搜狗詞庫下載地址:http://pinyin.sogou.com/dict/
2、然后通過以下工具 把搜狗詞庫scel轉txt/mmseg
https://www.toolnb.com/tools/scelto.html
3、將多個詞庫txt文本文件合并為一個文件
新建一個文本文檔,文本中輸入如下代碼:
copy *.txt unigram.txt
將文本文檔的擴展名改為bat,如“merge.bat”。
雙擊運行merge.bat,會將所有以.txt結尾的文件合并到unigram.txt中
4、生成uni.lib最終詞庫
用cmd命令行進入bin文件夾,里面有個mmseg.exe 程序
cd E:\..\coreseek-3.2.14-win32\coreseek-3.2.14-win32\bin
unigram.txt也放入這個文件夾
在cmd中運行以下命令
mmseg -u unigram.txt
將會在unigram.txt所在目錄中產生一個名為unigram.txt.uni的文件,
將該文件改名為uni.lib,
完成詞典的構造。
需要注意的是,unigram.txt需要預先準備,并且編碼格式必須為UTF-8編碼。
?
5. 測試新詞庫能否正解分詞。在C:\coreseek\bin下新建文本文件test.txt。輸入要測試的關鍵詞。 例如:四季服裝網中大面料輔料,然后保存。當中一定要包含你新加進詞庫的某個關鍵詞。例如四季服裝網是我新加的 關鍵詞。然后在剛才的命令行下執行mmseg -d C:\coreseek\bin test.txt>result.txt .執行完后打開新生產 的結果文件result.txt .如果看到分詞結果類似四季服裝網/x 中大/x 面料/x 輔料/x 的話證明詞庫已正確生成, 如果看到新關鍵詞被分切開如: 四/x 季/x 服/x 裝/x網/x 中大/x 面料/x 輔料/x的話就說明新的詞庫并不正確。 要檢查一下哪里出錯了,重新生產。
6. 再把得到的uni.lib復制到C:\coreseek\etc覆蓋原文件就大功告成了
?
把uni.lib放回uni.lib所在目錄
?
總結
以上是生活随笔為你收集整理的coreseek添加新词库的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Docker Kafka 单机版安装
- 下一篇: 前端学习(130):HTML和CSS发展