小叮咚切分词方法加入sourceforge.net中WebLucene分词模块
??? 小叮咚采用的是逆向最大匹配分詞法,算法簡單,可以滿足大部分的分詞應用。現在已經集成到WebLucene項目中,開放源代碼。有需要的朋友可以下載代碼使用。
??? 這個版本還沒有實現我在一種面向搜索引擎的中文切分詞方法 一文中提到的分詞思路。比如: 漢字的StopWords,對標點符號的處理等等。
??? 也希望對分詞感興趣的朋友一起討論實現改進實現小叮咚分詞的切分效果。
???
??? 下面是Readme.txt中的內容:
使用說明:
-------------------------------------------------------------------------
||| !!! 注意分詞的詞庫位置:
||| Util.java 中的配置路徑一定要正確,指向:dict\chinesePhraseIndex
||| 詞庫包括3個文件:
||| 2005-01-13 16:05 4 deletable
||| 2005-01-13 16:24 0 a.txt
||| 2005-01-13 16:05 30 segments
||| 2005-01-13 16:05 1,485,193 _11p5.cfs
||| 4 個文件 1,485,227 字節
-------------------------------------------------------------------------
java類說明:
SentenceSpliter.java
分詞主類,可以直接運行來打印測試分詞語句.
ChineseAnalyzer.java
ChineseTokenizer.java
是為lucene寫的中文分詞算法,其中調用了SentenceSpliter.java來獲得分詞結果。
SearchUtil.java 中說明了使用ChineseAnalyzer的方法。
-------------------------------------------------------------------------
使用的類庫:
java jdk 1.4.2
lucene-1.4.3.jar
java-getopt.jar
下載地址:http://apache.justdn.org/jakarta/lucene/binaries/lucene-1.4.3.zip
相關說明:
http://jakarta.apache.org/lucene/docs/index.html
http://blog.csdn.net/accesine960/archive/2004/12/23/227134.aspx
可以使用eclipse 直接打開這個項目
-------------------------------------------------------------------------
其他信息:
**************************************************************************
作者信息:
* @time Created on 2005-1-13
* @author tcf
* @mail xiaodingdong@gmail.com
* @website http://blog.csdn.net/accesine960
* @info 歡迎大家來 http://blog.csdn.net/accesine960/category/35308.aspx
* 這個算法還是beta版本,大家共同努力,把中文分詞做的更好
**************************************************************************
?? 近期將推出C#版本的實現。
?
??? 有相關問題請寫信給小叮咚: xiaodingdong A T Gmail dot Com
轉載于:https://www.cnblogs.com/tianchunfeng/archive/2005/01/18/93799.html
總結
以上是生活随笔為你收集整理的小叮咚切分词方法加入sourceforge.net中WebLucene分词模块的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于《用C#编写ActiveX控件》的几
- 下一篇: AspectJ的实现机制