當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Elasticsearch 之（24）IK分词器配置文件讲解以及自定义词库

發布時間：2024/4/15 编程问答 41 豆豆

生活随笔收集整理的這篇文章主要介紹了 Elasticsearch 之（24）IK分词器配置文件讲解以及自定义词库小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1、ik配置文件

ik配置文件地址：es/plugins/ik/config目錄

IKAnalyzer.cfg.xml：用來配置自定義詞庫
main.dic：ik原生內置的中文詞庫，總共有27萬多條，只要是這些單詞，都會被分在一起
quantifier.dic：放了一些單位相關的詞
suffix.dic：放了一些后綴
surname.dic：中國的姓氏
stopword.dic：英文停用詞

ik原生最重要的兩個配置文件

main.dic：包含了原生的中文詞語，會按照這個里面的詞語去分詞
stopword.dic：包含了英文的停用詞

停用詞，stopword
a the and at but ...一般，像停用詞，會在分詞的時候，直接被干掉，不會建立在倒排索引中

2、自定義詞庫

IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties><comment>IK Analyzer 擴展配置</comment><entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry><entry key="ext_stopwords">custom/ext_stopword.dic</entry> </properties>（1）自己建立詞庫：每年都會涌現一些特殊的流行詞，網紅，藍瘦香菇，喊麥，鬼畜，一般不會在ik的原生詞典里
自己補充自己的最新的詞語，到ik的詞庫custom/mydict.dic?里面去

（2）自己建立停用詞庫：比如了，的，啥，么，我們可能并不想去建立索引，讓人家搜索
custom/ext_stopword.dic，已經有了常用的中文停用詞，可以補充自己的停用詞

補充自己的詞語，然后需要重啟es，才能生效

3、使用自定義詞庫分詞查詢

還未 ik\config\custom\mydict.dic 文件中添加 “喊麥”，進行分詞

GET /my_index/_analyze {"text": "喊麥","analyzer": "ik_max_word" }{"tokens": [{"token": "喊","start_offset": 0,"end_offset": 1,"type": "CN_WORD","position": 0},{"token": "麥","start_offset": 1,"end_offset": 2,"type": "CN_WORD","position": 1}] } 在mydict.dic 文件中添加 “喊麥”后，重啟es，測試

GET /my_index/_analyze {"text": "喊麥","analyzer": "ik_max_word" }{"tokens": [{"token": "喊麥","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "喊","start_offset": 0,"end_offset": 1,"type": "CN_WORD","position": 1},{"token": "麥","start_offset": 1,"end_offset": 2,"type": "CN_WORD","position": 2}] }

轉載于:https://www.cnblogs.com/wuzhiwei549/p/9113466.html

總結

以上是生活随笔為你收集整理的Elasticsearch 之（24）IK分词器配置文件讲解以及自定义词库的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： poj2976 Dropping tes
下一篇： Scrapy学习-24-集成elasti