當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

solr 中文分词器IKAnalyzer和拼音分词器pinyin

發布時間：2024/4/14 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了 solr 中文分词器IKAnalyzer和拼音分词器pinyin 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

solr分詞過程：

Solr Admin中，選擇Analysis，在FieldType中，選擇text_en

左邊框輸入 “冬天到了天氣冷了小明不想上學去了”，點擊右邊的按鈕，發現對每個字都進行分詞。這不符合中國人的習慣。

solr6.3.0自帶中文分詞包，在 \solr-6.3.0\contrib\analysis-extras\lucene-libs\lucene-analyzers-smartcn-6.3.0.jar，但是不能自定義詞庫

好在我們有IKAnalyzer（已無人更新，目前版本是2012）和pinyin分詞插件。

IKAnalyzer安裝

IKAnalyzer下載地址：https://github.com/EugenePig/ik-analyzer-solr5

因為原始的IKAnalyzer已經不支持solr5以后的版本，這里是修改過后的

用git clone到本地或者直接下載zip到本地，然后執行mvn clean instal（Java8），或者mvn clean -Djavac.src.version=1.7 -Djavac.target.version=1.7 install（jdk1.7）

執行完，在項目 /target 目錄下，看到jar文件

將改jar文件copy到 solr目錄：\solr-6.3.0\server\solr-webapp\webapp\WEB-INF\lib

然后修改core的配置文件：\solr-6.3.0\server\solr\test\conf\managed-schema

添加如下配置：

或者

保存重啟solr，到選擇test核心-Analysis，進入分詞頁面，輸入“冬天到了天氣冷了小明不想上學去了”，FieldType選擇“text_cn”，點擊Analyse Value按鈕：

看到已經分詞中文成功了。

pinyin安裝

pinyin下載地址：http://files.cnblogs.com/files/wander1129/pinyin.zip

?下載后將2個jar文件copy到\solr-6.3.0\server\solr-webapp\webapp\WEB-INF\lib目錄下，

然后修改core的配置文件：\solr-6.3.0\server\solr\test\conf\managed-schema，添加：

<fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0"><analyzer type="index"><tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/><filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /><filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /></analyzer><analyzer type="query"><tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory"/><filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /><filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /></analyzer></fieldType>

重啟solr

到選擇test核心-Analysis，進入分詞頁面，輸入“冬天到了天氣冷了小明不想上學去了”，FieldType選擇“text_pinyin”，點擊Analyse Value按鈕：

看到漢字轉成拼音了。

轉載于:https://www.cnblogs.com/yangzhenlong/p/8254264.html

總結

以上是生活随笔為你收集整理的solr 中文分词器IKAnalyzer和拼音分词器pinyin的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： jquery 中后代遍历之childre
下一篇： web前端入门必知的10个技术

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

solr 中文分词器IKAnalyzer和拼音分词器pinyin

IKAnalyzer安裝

pinyin安裝

總結