當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

中文分词器

發布時間：2025/3/15 编程问答 11 豆豆

生活随笔收集整理的這篇文章主要介紹了中文分词器小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.IKAnalyzer

IK Analyzer 是一個開源的，基于java語言開發的輕量級的中文分詞工具包?？膳clucene配合使用。

IK Analyzer是一個結合詞典分詞和文法分詞的中文分詞開源工具包。它使用了全新的正向迭代最細粒度切分算法。

項目地址：http://www.oschina.net/p/ikanalyzer/

下載頁面：http://git.oschina.net/wltea/IK-Analyzer-2012FF

central repository中似乎沒有。

示例代碼：

該代碼的工程結構：下圖

1.1部署在web應用

把IKAnalyzer.cfg.xml與stopword.dic配置在WEB-INF\lib\目錄下就行了。

1.2中文停用詞

中文停用詞所在文件（一般就直接加在stopword.dic中）要求utf-8無bom格式編碼,否則無效。

2.SmartChineseAnalyzer

org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer
是一個中文、中英混合的分詞器。

2.1依賴

compile 'org.apache.lucene:lucene-analyzers-smartcn:6.0.0'

2.2 效果

Example phrase： "我是中國人"
StandardAnalyzer: 我－是－中－國－人
CJKAnalyzer: 我是－是中－中國－國人
SmartChineseAnalyzer: 我－是－中國－人

3.ansj_seg

github地址：https://github.com/NLPchina/ansj_seg 它是ict 的java實現，分詞效果速度都超過開源版的ict. 。
特點是中文分詞，人名識別，詞性標注，用戶自定義詞典。分詞示例： String str = "歡迎使用ansj_seg,(ansj中文分詞)在這里如果你遇到什么問題都可以聯系我.我一定盡我所能.幫助大家.ansj_seg更快,更準,更自由!" ;System.out.println(ToAnalysis.parse(str));歡迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分詞/n,),在/p,這里/r,如果/c,你/r,遇到/v,什么/r,問題/n,都/d,可以/v,聯系/v,我/r,./m,我/r,一定/d,盡我所能/l,./m,幫助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,準/a,,,更/d,自由/a,!

總結

以上是生活随笔為你收集整理的中文分词器的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：股票开盘的最大成交额-----一道不错的
下一篇：使用 Azure Site Recove