中文分词器
1.IKAnalyzer
IK Analyzer 是一個開源的,基于java語言開發的輕量級的中文分詞工具包??膳clucene配合使用。
IK Analyzer是一個結合詞典分詞和文法分詞的中文分詞開源工具包。它使用了全新的正向迭代最細粒度切分算法。
下載頁面:http://git.oschina.net/wltea/IK-Analyzer-2012FF
central repository中似乎沒有。
示例代碼:
該代碼的工程結構:下圖
1.1部署在web應用
把IKAnalyzer.cfg.xml與stopword.dic配置在WEB-INF\lib\目錄下就行了。
1.2中文停用詞
中文停用詞所在文件(一般就直接加在stopword.dic中)要求utf-8無bom格式編碼,否則無效。2.SmartChineseAnalyzer
org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer是一個中文、中英混合的分詞器。
2.1依賴
compile 'org.apache.lucene:lucene-analyzers-smartcn:6.0.0'2.2 效果
Example phrase: "我是中國人"StandardAnalyzer: 我-是-中-國-人
CJKAnalyzer: 我是-是中-中國-國人
SmartChineseAnalyzer: 我-是-中國-人
3.ansj_seg
github地址:https://github.com/NLPchina/ansj_seg 它是ict 的java實現,分詞效果速度都超過開源版的ict. 。特點是中文分詞,人名識別,詞性標注,用戶自定義詞典。 分詞示例: String str = "歡迎使用ansj_seg,(ansj中文分詞)在這里如果你遇到什么問題都可以聯系我.我一定盡我所能.幫助大家.ansj_seg更快,更準,更自由!" ;System.out.println(ToAnalysis.parse(str));歡迎/v,使用/v,ansj/en,_,seg/en,,,(,ansj/en,中文/nz,分詞/n,),在/p,這里/r,如果/c,你/r,遇到/v,什么/r,問題/n,都/d,可以/v,聯系/v,我/r,./m,我/r,一定/d,盡我所能/l,./m,幫助/v,大家/r,./m,ansj/en,_,seg/en,更快/d,,,更/d,準/a,,,更/d,自由/a,!
總結
- 上一篇: 股票开盘的最大成交额-----一道不错的
- 下一篇: 使用 Azure Site Recove