Elasticsearch 英文分词 中文分词
生活随笔
收集整理的這篇文章主要介紹了
Elasticsearch 英文分词 中文分词
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
對于倒排索引來說,很重要的一件事情就是需要對文本進行分詞,經(jīng)過分詞可以獲取情感、詞性、質性、詞頻等等的數(shù)據(jù)。
Elasticsearch 分詞工作原理
在 Elasticsearch 中進行行分詞的需要經(jīng)過分析器的3個模塊,字符過濾器將文本進行替換或者刪除,在由分詞器進行拆分成單詞,最后由Token過濾器將一些無用語氣助詞刪掉。
英文分詞
在Elasticsearch 中共支持5種不同的分詞模式,在不同的場景下發(fā)揮不同的效果。
standard (過濾標點符號)
GET /_analyze {"analyzer": "standard","text": "The programmer's holiday is 1024!" }simple (過濾數(shù)字和標點符號)
GET /_analyze {"analyzer": "simple","text": "The programmer's holiday is 1024!" }whitespace (不過濾,按照空格分隔)
GET /_analyze {"analyzer": "whitespace","text": "The programmer's holiday is 1024!" }stop (過濾停頓單詞及標點符號,例如is are等等)
GET /_analyze {"analyzer": "stop","text": "The programmer's holiday is 1024!" }keyword (視為一個整體不進行任何處理)
GET /_analyze {"analyzer": "keyword","text": "The programmer's holiday is 1024!" }中文分詞
因為 Elasticsearch 默認的分詞器只能按照單字進行拆分,無法具體分析其語意等,所以我們使用 analysis-icu 來代替默認的分詞器。
GET /_analyze {"analyzer": "standard","text": "南京市長江大橋" }通過命令./bin/elasticsearch-plugin install analysis-icu進行安裝
GET /_analyze {"analyzer": "icu_analyzer","text": "南京市長江大橋" }其他的中文分詞器
elasticsearch-thulac-plugin 支持中文分詞和詞性標注功能
https://github.com/microbun/elasticsearch-thulac-plugin
elasticsearch-analysis-ik 支持熱更新分詞字典及自定義詞庫
https://github.com/medcl/elasticsearch-analysis-ik
總結
以上是生活随笔為你收集整理的Elasticsearch 英文分词 中文分词的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手机App将三年内消失,互联网世界的第二
- 下一篇: Java面试题总结一