中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)
ChineseHumorSentiment
chinese Humor Detection or Computation based on corpus and nlp methods, 基于語料庫與NLP方法的中文幽默計算與檢測項目
項目地址:https://github.com/liuhuanyong/ChineseHumorSentiment
項目介紹
幽默多指令人發笑的品質或者具有發笑的能力,它是一種特殊的語言表達方式,是生活中活躍氣氛、化解尷尬的重要元素。近年來隨著人工智能的快速發展,如何利用計算機技術識別和生成幽默逐漸稱為自然語言處理領域研究熱點之一,即幽默計算。幽默計算旨在賦予計算機識別、生成幽默的能力,它涉及信息科學、認知語言學、心理學等多個學科的交叉,在人類語言的理解乃至世界文化的交流方面,都具有重要的理論和應用價值。
幽默無處不在,計算機若能夠理解各種幽默形式,將會極大程度地提高人機交互系統的性能。
本項目將從中文的幽默性出發,嘗試完成以下兩個目標:
1)建立起一個中文幽默文本語料庫。
2)幽默計算模型的構建包括:
幽默等級識別模型
幽默類型識別模型
隱喻類型識別模型
隱喻情緒識別模型
中文幽默文本語料庫的構建
程序主目錄:BuildCorpus
語料收集:BuildCorpus/corpus_spider.py
語料整理:BuildCorpus/collect_news.py
相聲小品語料:對話集,BuildCorpus/dialog
語料簡介
數量:6032個劇本、也稱話題集, 352834條對話
對話舉例:
中文幽默計算模型
模型思想:采用四層雙向lstm進行網絡搭建,給出一個初步的baseline.以下是訓練實際情況.
| 幽默等級 | 6436 | 1610 | 0.8891 | 0.6137 | 5分類 |
| 幽默類型 | 5938 | 1460 | 0.9357 | 0.7096 | 3分類 |
| 隱喻類別 | 3515 | 879 | 0.9166 | 0.8089 | 2分類 |
| 隱喻情緒 | 2904 | 726 | 0.8134 | 0.5399 | 7分類 |
總結
1,一直在想如何更多地從社會語言學的角度去進行自然語言處理的研究和探索工作,幽默計算可以是其中一個,本項目是對該想法的一個實現.
2,本項目完成了幽默語料庫的構建工作,并使用基本的雙向lstm模型,訓練了四個模型,準確率還有很大優化空間
3,本項目后期將逐步加入Attention等機制,對現有模型基礎進行更新,嘗試是否可以進一步提高準確性
4,本項目的受到大連理工大學信息檢索實驗室工作的啟發.
any question?
請聯系我:
郵箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然語言處理項目: https://liuhuanyong.github.io/
總結
以上是生活随笔為你收集整理的中文幽默语料库构建与计算项目(幽默等级识别,幽默类型识别,隐喻类型识别,隐喻情绪识别)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android官方开发文档Trainin
- 下一篇: 【论文翻译】统一知识图谱学习和建议:更好