當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

小叮咚切分词方法加入sourceforge.net中WebLucene分词模块

發布時間：2024/6/3 编程问答 40 豆豆

生活随笔收集整理的這篇文章主要介紹了小叮咚切分词方法加入sourceforge.net中WebLucene分词模块小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

??? 小叮咚采用的是逆向最大匹配分詞法，算法簡單，可以滿足大部分的分詞應用。現在已經集成到WebLucene項目中，開放源代碼。有需要的朋友可以下載代碼使用。
??? 這個版本還沒有實現我在一種面向搜索引擎的中文切分詞方法一文中提到的分詞思路。比如：漢字的StopWords,對標點符號的處理等等。
??? 也希望對分詞感興趣的朋友一起討論實現改進實現小叮咚分詞的切分效果。
???

??? 下面是Readme.txt中的內容：

使用說明：
-------------------------------------------------------------------------
||| !!! 注意分詞的詞庫位置：
||| Util.java 中的配置路徑一定要正確,指向：dict\chinesePhraseIndex
||| 詞庫包括3個文件：
||| 2005-01-13 16:05 4 deletable
||| 2005-01-13 16:24 0 a.txt
||| 2005-01-13 16:05 30 segments
||| 2005-01-13 16:05 1,485,193 _11p5.cfs
||| 4 個文件 1,485,227 字節
-------------------------------------------------------------------------
java類說明：
SentenceSpliter.java
分詞主類,可以直接運行來打印測試分詞語句.
ChineseAnalyzer.java
ChineseTokenizer.java
是為lucene寫的中文分詞算法，其中調用了SentenceSpliter.java來獲得分詞結果。
SearchUtil.java 中說明了使用ChineseAnalyzer的方法。
-------------------------------------------------------------------------
使用的類庫：
java jdk 1.4.2
lucene-1.4.3.jar
java-getopt.jar
下載地址：http://apache.justdn.org/jakarta/lucene/binaries/lucene-1.4.3.zip
相關說明：
http://jakarta.apache.org/lucene/docs/index.html
http://blog.csdn.net/accesine960/archive/2004/12/23/227134.aspx
可以使用eclipse 直接打開這個項目
-------------------------------------------------------------------------
其他信息：
**************************************************************************
作者信息：
* @time Created on 2005-1-13
* @author tcf
* @mail xiaodingdong@gmail.com
* @website http://blog.csdn.net/accesine960
* @info 歡迎大家來 http://blog.csdn.net/accesine960/category/35308.aspx
* 這個算法還是beta版本，大家共同努力，把中文分詞做的更好
**************************************************************************

?? 近期將推出C#版本的實現。

??? 有相關問題請寫信給小叮咚： xiaodingdong A T Gmail dot Com

轉載于:https://www.cnblogs.com/tianchunfeng/archive/2005/01/18/93799.html

總結

以上是生活随笔為你收集整理的小叮咚切分词方法加入sourceforge.net中WebLucene分词模块的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：关于《用C#编写ActiveX控件》的几
下一篇： AspectJ的实现机制

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

小叮咚切分词方法加入sourceforge.net中WebLucene分词模块

總結