中科院分词ICTCLAS5.0_JNI 使用方法
1.簡介
中國科學(xué)院計算技術(shù)研究所在多年研究基礎(chǔ)上,耗時一年研制出了基于多層隱碼模型的漢語詞法分析系統(tǒng) ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識別。分詞正確率高達97.58%(最近的973專家組評測結(jié)果),基于角色標(biāo)注的未登錄詞識別能取得高于90%召回率,其中中國人名的識別召回率接近98%,分詞和詞性標(biāo)注處理速度為31.5KB/s。ICTCLAS 和計算所其他14項免費發(fā)布的成果被中外媒體廣泛地報道,國內(nèi)很多免費的中文分詞模塊都或多或少的參考過ICTCLAS的代碼。
2.下載
下載地址:
下載以后解壓。
解壓后的目錄結(jié)構(gòu):
必要說明:
user.lic,用戶授權(quán)文件。
3.新建Eclipse項目。
然后將打開API文件夾下的ICTCLAS文件夾拷貝到src目錄下,其它的文件夾和文件全部拷貝到工程目錄下。工程結(jié)構(gòu)如圖所示:
4.測試
你可以自己新建一個測試類,也可以使用已有的測試類。
比如Sample文件夾里有個例子:TestMain.java,你可以將它復(fù)制到Eclipse中。然后運行。就可以看到結(jié)果了。
注意,ICTCLAS會自動生成一個ICTCLAS.log文件,查看這個文件能獲取許多有用的信息。
5.各種問題。
?
[java]?view plaincopy解決辦法:
這種情況是你把ICTCLAS50_Windows_32_JNI\API\ICTCLAS\I3S\AC目錄下的類ICTCLAS50.java 沒有放到包ICTCLAS.I3S.AC里。
b.將Data文件夾和其它文件,放置到一個configure文件夾下ICTLAS不識別:
?
[java]?view plaincopy即加載庫文件和Data文件夾、用戶授權(quán)文件user.lic的錯誤。
?
解決辦法:
一種方法是:修改ICTCLAS50類和測試類的參數(shù),指定庫文件。
[java]?view plaincopy然后再修改TestMain類中的testICTCLAS_ParagraphProcess()方法的argus的值,告訴ICTCLAS,你改變了工程目錄。
?
部分代碼如下:
?
[java]?view plaincopy還有testICTCLAS_FileProcess()方法。
修改后的工程目錄:
?
轉(zhuǎn)載于:https://www.cnblogs.com/liuchaogege/p/5405697.html
總結(jié)
以上是生活随笔為你收集整理的中科院分词ICTCLAS5.0_JNI 使用方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在O(N)时间内求解 正数数组中 两个数
- 下一篇: 数据结构(五)位图算法