去停用词 java代码_如何在java中去除中文文本的停用词
1.? 整體思路
第一步:先將中文文本進行分詞,這里使用的HanLP-漢語言處理包進行中文文本分詞。
第二步:使用停用詞表,去除分好的詞中的停用詞。
2.? 中文文本分詞環境配置
使用的HanLP-漢語言處理包進行中文文本分詞。
·HanLP-漢語言處理包下載,可以去github上下載
·HanLP?的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。
·官方環境配置步驟也可以在github上查詢到。
·環境配置好后,java使用HanLP進行中文分詞文檔如下:hanlp.linrunsoft.com/doc.html
3.? 下載停用詞表
停用詞表可以去百度或者其他搜索引擎檢索一份,很容易就找到!
4.??去除停用詞工具類
使用這個工具類的之前,請先完成中文文本分詞環境配置,并測試一下。停用詞 .txt 文件路徑請修改為自己的本地路徑。
圖1
5. ?工具類測試
5.1 ?測試代碼
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 ?測試結果
總結
以上是生活随笔為你收集整理的去停用词 java代码_如何在java中去除中文文本的停用词的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java 读取webservice_ja
- 下一篇: java dayofweek_Java