中科院分词系统整理笔记
NLPIR簡介
?????? 一套專門針對原始文本集進行處理和加工的軟件,提供了中間件處理效果的可視化展示,也可以作為小規模數據的處理加工工具。可以使用該軟件對自己的數據進行處理。
??????? NLPIR分詞系統前身為2000年發布的ICTCLAS詞法分析系統,從2009年開始,為了和以前工作進行大的區隔,并推廣NLPIR自然語言處理與信息檢索共享平臺,調整命名為NLPIR分詞系統,增加了十一項功能。
??????? NLPIR 系統支持多種編碼(GBK 編碼、UTF8 編碼、BIG5 編碼)、多種操作系統(Windows, Linux, FreeBSD 等所有主流操作系統)、多種開發語言與平臺(包括:C/C++/C#,Java,Python,Hadoop 等)。
新增功能
?????? 全文精準檢索-JZSearch:支持多數據類型、多字段、多語言;
??????? 新詞發現:挖掘新詞列表
??????? 分詞標注:對原始語料進行分詞、自動識別人名地名機構名等未登錄詞、新詞標注以及詞性標注。并可在分析過程中,導入用戶定義的詞典。
??????? 統計分析與術語翻譯:一元詞頻統計、二元詞語轉移概率統計,并且可以針對常用的術語,會自動給出相應的英文解釋。
???????大數據聚類及熱點分析-Cluster:自動分析出熱點事件,并提供事件話題的關鍵特征描述。
???????大數據分類過濾:從海量文檔中篩選出符合需求的樣本。
???????自動摘要-Summary:能夠對單篇或多篇文章,自動提煉出內容的精華,方便用戶快速瀏覽文本內容。
?????? 關鍵詞提取-KeyExtract:能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的詞匯或短語,可用于精化閱讀、語義查詢和快速匹配等
???????文檔去重-RedupRemover:能夠快速準確地判斷文件集合或數據庫中是否存在相同或相似內容的記錄,同時找出所有的重復記錄。
???????HTML正文提取-HTMLPaser:自動剔除導航性質的網頁,剔除網頁中的HTML標簽和導航、廣告等干擾性文字,返回有價值的正文內容。適用于大規模互聯網信息的預處理和分析。
??????編碼自動識別與轉換:自動識別文檔內容的編碼,并進行自動轉換,目前支持Unicode/BIG5/UTF-8等編碼自動轉換為簡體的GBK,同時將繁體BIG5和繁體GBK進行繁簡轉化。
相關技術
1.網絡信息實時采集與正文提取
NLPIR大數據搜索與挖掘演示平臺根據新浪rss摘要,利用NLPIR的精準網絡采集系統實時抓取新浪最新的新聞(每次刷新均會重新抓取),NLPIR正文提取系統將網頁中的導航、廣告等內容去除,利用網絡文本鏈接密度作為主要參數,采用深度神經網絡模型,實現文本正文內容的自動提取。這里,也可由用戶人工隨意輸入任意的文章。
2.基于層疊隱馬模型的分詞標注
NLPIR/ICTCLAS分詞系統,采用層疊隱馬模型(算法細節請參照:張華平,高凱,黃河燕,趙燕平,《大數據搜索與挖掘》科學出版社。2014.5?ISBN:978-7-03-040318-6),分詞準確率接近98.23%,具備準確率高、速度快、可適應性強等優勢。它能夠真正理解中文,利用機器學習解決歧義切分與詞性標注歧義問題。張博士先后傾力打造十余年,內核升級10次,全球用戶突破30萬。
3.基于角色標注的實體抽取
NLPIR實體抽取系統能夠智能識別文本中出現的人名、地名、機構名、媒體、作者、及文章的主題關鍵詞,所提煉出的詞語不需要在詞典庫中事先存在,是對語言規律的深入理解和預測。NLPIR實體抽取系統采用基于角色標注算法自動識別命名實體(算法細節請參照:張華平,高凱,黃河燕,趙燕平《大數據搜索與挖掘》科學出版社2014.5ISBN:978-7-03-040318-6),可在此基礎上搭建各種多樣化的大數據挖掘應用。
4.基于完美雙數組TRIE樹的詞頻統計
NLPIR的詞頻統計算法的效率較高,采用了我們的完美雙數組TRIE樹的專利算法(近期有進一步的優化),是常規算法速度的十倍以上,該算法的效率不會隨著待統計結果數目的劇增而指數級增長,一般是亞線性增長。建議大家調用NLPIR/ICTCLAS開放的詞頻統計接口。
5。基于深度機器學習的文本分類
NLPIR采用了深度神經網絡對分類體系進行了綜合訓練,目前訓練的類別只是廠家的政治、經濟、軍事等。我們內置的算法支持類別自定義訓練,該算法對常規文本的分類準確率較高,綜合開放測試的F值接近86%。NLPIR深度文本分類,可以用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區域分類等諸多應用。此外還可以實現文本過濾,能夠從大量文本中快速識別和過濾出符合特殊要求的信息,可應用于品牌報道監測、垃圾信息屏蔽、敏感信息審查等領域。
6。基于深度神經網絡的文本情感分析
NLPIR情感分析提供兩種模式:全文的情感判別(左圖)與指定對象的情感判別(右圖)。情感分析主要采用了兩種技術:1.情感詞的自動識別與權重自動計算,利用共現關系,采用Bootstrapping的策略,反復迭代,生成新的情感詞及權重;2.情感判別的深度神經網絡:基于深度神經網絡對情感詞進行擴展計算,綜合為最終的結果。
7。基于上下文條件熵的關鍵詞提取
NLPIR關鍵詞提取能夠在全面把握文章的中心思想的基礎上,提取出若干個代表文章語義內容的詞匯或短語,相關結果可用于精化閱讀、語義查詢和快速匹配等。NLPIR主要采用交叉信息熵計算每個候選詞的上下文條件熵,所處理的文檔不受行業領域限制,且能夠識別出最新出現的新詞語,所輸出的詞語可以配以權重。
8.基于POS-CBOW的word2vec語義擴展
POS-CBOW方法綜合了詞性、詞的分布特點,采用word2vector改進模型,對5GB的新聞語料進行訓練,自動提取出了語義關聯關系。如果訓練文本調整為專業領域的生語料,該模型同樣可以產生專業領域的本體關聯關系。
9.基于全局結構預測模型的轉移依存句法分析
NLPIR提出使用Yamada算法的結構化轉移依存句法分析模型,在Yamada算法的基礎上,加入全局的訓練以及預測,優化了特征集合。該模型的精度(85.5%)接近于目前轉移依存句法最好結果(86.0%),并且在所有精度85%以上的依存句法模型中,達到了最快的分析速度。
10.簡繁轉化
NLPIR根據中文簡繁詞庫,對照抽取互譯。
11.基于隱馬模型的自動注音
NLPIR可根據詞庫,基于語意理解,對字詞自動進行語音標注。準確率99%
12.基于關鍵詞提取的自動摘要
自動文本摘要中間件能夠實現文本內容的精簡提煉,從長篇文章中自動提取關鍵句和關鍵段落,構成摘要內容,方便用戶快速瀏覽文本內容,提高工作效率。
自動摘要中間件不僅可以針對一篇文檔生成連貫流程的摘要,還能夠將具有相同主題的多篇文檔去除冗余、并生成一篇簡明扼要的摘要;用戶可以自由設定摘要的長度、百分比等參數;處理速度達到每秒鐘20篇。
下載地址
??????? NLPIR的下載地址:http://ictclas.nlpir.org/downloads
????????GitHub的地址:https://github.com/NLPIR-team/NLPIR
導入工程
官網版:
(1)新建一個工程導入sample下java工程目錄JnaTest_NLPIR,導入后的情形如下:
???????????????????
(2)code目錄下的NlpirTest.java文件就可以測試。
???????? 有兩個地方需要配置參數值:
???????? 第一:加載庫文件
???????
???????? 第二:初始化時需要的參數
??????????????
?????????? “XXXX”為解壓后的包路徑。
Github上下載的代碼:
(1)找到NLPIR SDK目錄的NLPIR-ICTCLAS導入工程,結果如下:
?????? ??????
(2)使用nlpir下的NlpirTest.java進行測試。
???????? 注意:這個文件是單元測試,只需要在要測試的方法上右擊,選擇“JUint Test”即可;
??????????????????? 可能會有license問題,將License文件夾下的所有.user文件抽出來放到Dada目錄下即可。
至此,兩種方式都可以跑起來了。
總結
以上是生活随笔為你收集整理的中科院分词系统整理笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 函数的基础
- 下一篇: matlab模糊推理,模糊推理系统的ma