Hanlp的安装和配置
Hanlp簡介
HanLP 是由一系列模型與算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。
HanLP 具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
HanLP 提供下列功能:
- 中文分詞
- 最短路分詞
- N-最短路分詞
- CRF分詞索引分詞
- 極速詞典分詞
- 用戶自定義詞典
- 詞性標注命名實體識別
- 中國人名識別
- 音譯人名識別
- 日本人名識別
- 地名識別
- 實體機構名識別
- 關鍵詞提取
- TextRank關鍵詞提取
- 自動摘要
- TextRank自動摘要
- 短語提取
- 基于互信息和左右信息熵的短語提取拼音轉換
- 多音字聲母韻母
- 聲調簡繁轉換
- 繁體中文分詞
- 簡繁分歧詞
- 文本推薦
- 語義推薦
- 拼音推薦
- 字詞推薦
- 依存句法分析
- MaxEnt依存句法分析
- CRF依存句法分析
- 語料庫工具
- 分詞語料預處理
等一些列自然語言處理功能
下載與配置
方式一
Maven為了方便用戶,特提供內置了數據包的Portable版,只需在pom.xml加入:
零配置,即可使用基本功能(除由字構詞、依存句法分析外的全部功能)。如果用戶有自定義的需求,可以參考方式二,使用hanlp.properties進行配置(Portable版同樣支持hanlp.properties)。
方式二
下載jar、data、hanlp.propertiesHanLP將數據與程序分離,給予用戶自定義的自由。
1、下載:data.zip下載后解壓到任意目錄,接下來通過配置文件告訴HanLP數據包的位置。HanLP中的數據分為詞典和模型,其中詞典是詞法分析必需的,模型是句法分析必需的。data
│
├─dictionary
└─model
用戶可以自行增刪替換,如果不需要句法分析等功能的話,隨時可以刪除model文件夾。
- 模型跟詞典沒有絕對的區別,隱馬模型被做成人人都可以編輯的詞典形式,不代表它不是模型。
- GitHub代碼庫中已經包含了data.zip中的詞典,直接編譯運行自動緩存即可;模型則需要額外下載。
2、下載jar和配置文件:hanlp-release.zip配置文件的作用是告訴HanLP數據包的位置,只需修改第一行root=D:/JavaProjects/HanLP/為data的父目錄即可,比如data目錄是/Users/hankcs/Documents/data,那么root=/Users/hankcs/Documents/ 。最后將hanlp.properties放入classpath即可,對于多數項目,都可以放到src或resources目錄下,編譯時IDE會自動將其復制到classpath中。除了配置文件外,還可以使用環境變量HANLP_ROOT來設置root。安卓項目請參考demo。如果放置不當,HanLP會提示當前環境下的合適路徑,并且嘗試從項目根目錄讀取數據集。
一般方法:
步驟一:
通過方式二獲取Hanlp的數據包和jar包并解壓;其中,數據包放在任何位置都可以,我們會通過修改配置文件來對數據包進行定位;
步驟二:
以eclipse為例,說明如何在java項目中使用Hanlp;
總結
以上是生活随笔為你收集整理的Hanlp的安装和配置的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Leetcode--27. 移除元素
- 下一篇: Leetcode--329. 矩阵中的最