大规模领域词汇库项目DomainWordsDict:涵盖68个领域、共计916万的词汇库资源开放
項目概述
DomainWordsDict, Chinese words dict that contains more than 68 domains, which can be used as text classification、knowledge enhance task。涵蓋68個領域、共計916萬詞的專業詞典知識庫,可用于文本分類、知識增強、領域詞匯庫擴充等自然語言處理應用。在利用學習模型進行自然語言處理任務時候,領域詞匯可以作為一項重要的領域特征加入到模型當中,可以提升領域性模型的性能。
地址:https://github.com/liuhuanyong/DomainWordsDict
項目由來
1、領域性是自然語言處理中十分重要的一類問題,不同的領域之間在文本形式、用詞、表達上都存在差異。而領域詞匯作為一個領域的表示是用來區分領域的常規手段,例如,在沒有標注語料進行有監督的領域文本分類中,利用領域關鍵詞進行匹配、計數、排序的方式即可以完成這一任務。
2、當前,縱觀中文開放語言資源,并未有出現較大規模的領域性資源,如領域的wordembedding詞向量、領域的關鍵詞庫。而這一資源在傳統方法進行文本處理具有較大價值。
為了填補這一空白以及對領域性詞庫進行基礎語言資源建設,本項目被提出。
數據來源
通過對領域垂直網站的解析、領域文本的特征詞提取,近幾年來對領域詞典的收集與整理,人工清洗等處理工作之后, 最終形成了數學科學、人力招聘、天文科學、餐飲食品、外語學習等共計68個領域,共計916萬詞的較大規模領域詞匯庫。
數據介紹
數據放在data文件夾下,共68個txt文件,每個文件以領域的名稱命名。每個文件中的每一行包括兩列(以tab符分開),分別代表詞語名稱以及對應的權重。文件中的詞語按照權重從大到小的方式排列,權重越高,該詞對于領域的代表性或區分能力就越強。在使用的過程中,我們可以設定具體的權重域值在選用不同的詞語來用于特定任務。
詞典樣例
項目總結
1、本項目開放了一個涵蓋68個領域,帶有行業代表性權重的領域詞庫,規模達到了916萬詞,是目前開放詞典資源中較大規模的一個,填補了一定的空缺。
2,領域詞匯庫的構建和開放,是一項基礎、必要且重要的工作。可以通過領域開放文本進行挖掘,如基于垂直網站解析、文本特征詞提取等諸多方法來實現。
3,關于領域詞匯知識庫的構建方法和理論,可以參考之前寫的博客《領域詞匯知識庫的類型、可用資源與構建技術漫談》:https://blog.csdn.net/lhy2014/article/details/103995629。
4,語言資源、經典詞庫的構建,與目前盛行的深度學習自然語言處理并行不悖。將已構建好的領域詞庫或者知識庫融合到深度學習模型當中,是一個很好的前進方向。需要且必要地關注底層語義資源的建設。
關于作者
劉煥勇,liuhuanyong,現任360人工智能研究院算法專家,前中科院軟件所工程師,主要研究方向為知識圖譜、事件圖譜在實際業務中的落地應用。
得語言者得天下,得語言資源者,分得天下,得語言邏輯者,爭得天下。
1、個人主頁:https://liuhuanyong.github.io。
2、個人博客:https://blog.csdn.net/lhy2014/。
3、個人公眾號:老劉說NLP。
歡迎對自然語言處理、知識圖譜、事件圖譜理論技術、技術實踐等落地應用的朋友一同交流。
總結
以上是生活随笔為你收集整理的大规模领域词汇库项目DomainWordsDict:涵盖68个领域、共计916万的词汇库资源开放的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DGL_图的打印
- 下一篇: 以DES的方式实现对称加密,并提供密钥