當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Hanlp的安装和配置

發布時間：2024/7/19 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Hanlp的安装和配置小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

Hanlp簡介

HanLP 是由一系列模型與算法組成的 Java 工具包，目標是普及自然語言處理在生產環境中的應用。
HanLP 具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
HanLP 提供下列功能：

中文分詞
最短路分詞
N-最短路分詞
CRF分詞索引分詞
極速詞典分詞
用戶自定義詞典
詞性標注命名實體識別
中國人名識別
音譯人名識別
日本人名識別
地名識別
實體機構名識別
關鍵詞提取
TextRank關鍵詞提取
自動摘要
TextRank自動摘要
短語提取
基于互信息和左右信息熵的短語提取拼音轉換
多音字聲母韻母
聲調簡繁轉換
繁體中文分詞
簡繁分歧詞
文本推薦
語義推薦
拼音推薦
字詞推薦
依存句法分析
MaxEnt依存句法分析
CRF依存句法分析
語料庫工具
分詞語料預處理
等一些列自然語言處理功能

下載與配置

方式一
Maven為了方便用戶，特提供內置了數據包的Portable版，只需在pom.xml加入：

<dependency><groupId>com.hankcs</groupId><artifactId>hanlp</artifactId><version>portable-1.7.8</version> </dependency>

零配置，即可使用基本功能（除由字構詞、依存句法分析外的全部功能）。如果用戶有自定義的需求，可以參考方式二，使用hanlp.properties進行配置（Portable版同樣支持hanlp.properties）。

方式二
下載jar、data、hanlp.propertiesHanLP將數據與程序分離，給予用戶自定義的自由。
1、下載：data.zip下載后解壓到任意目錄，接下來通過配置文件告訴HanLP數據包的位置。HanLP中的數據分為詞典和模型，其中詞典是詞法分析必需的，模型是句法分析必需的。data
│
├─dictionary
└─model
用戶可以自行增刪替換，如果不需要句法分析等功能的話，隨時可以刪除model文件夾。

模型跟詞典沒有絕對的區別，隱馬模型被做成人人都可以編輯的詞典形式，不代表它不是模型。
GitHub代碼庫中已經包含了data.zip中的詞典，直接編譯運行自動緩存即可；模型則需要額外下載。

2、下載jar和配置文件：hanlp-release.zip配置文件的作用是告訴HanLP數據包的位置，只需修改第一行root=D:/JavaProjects/HanLP/為data的父目錄即可，比如data目錄是/Users/hankcs/Documents/data，那么root=/Users/hankcs/Documents/ 。最后將hanlp.properties放入classpath即可，對于多數項目，都可以放到src或resources目錄下，編譯時IDE會自動將其復制到classpath中。除了配置文件外，還可以使用環境變量HANLP_ROOT來設置root。安卓項目請參考demo。如果放置不當，HanLP會提示當前環境下的合適路徑，并且嘗試從項目根目錄讀取數據集。

一般方法：
步驟一：
通過方式二獲取Hanlp的數據包和jar包并解壓；其中，數據包放在任何位置都可以，我們會通過修改配置文件來對數據包進行定位；

步驟二：
以eclipse為例，說明如何在java項目中使用Hanlp；

創建一個新的java項目，將解壓后的jar包導入到項目；

使用Build Path將jar包引入；

修改配置文件hanlp.properities，定位數據包；修改方式見上方的方式2；

將配置文件導入到項目文件的bin目錄下，測試是否能夠正常使用Hanlp；

總結

以上是生活随笔為你收集整理的Hanlp的安装和配置的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

HanLP

上一篇： Leetcode--27. 移除元素
下一篇： Leetcode--329. 矩阵中的最

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

Hanlp的安装和配置

Hanlp簡介

下載與配置

總結