【每周NLP论文推荐】 掌握实体关系抽取必读的文章
歡迎來到《每周NLP論文推薦》。在這個專欄里,還是本著有三AI一貫的原則,專注于讓大家能夠系統性完成學習,所以我們推薦的文章也必定是同一主題的。
實體關系抽取作為信息抽取領域的重要研究課題,其主要目的是抽取句子中已標記實體對之間的語義關系,即在實體識別的基礎上確定無結構文本中實體對間的關系類別,并形成結構化的數據以便存儲和取用。
作者&編輯 | 小Dream哥
1 早期機器學習方面的探索
文獻[1] 利用實體詞、實體類型、引用類型等特征構造特征向量,采用最大熵分類器構建抽取模型,在ACE RDC 2003 英文語料上的實體關系抽取實驗表明, 該方法在關系分類上獲得的F1值為52.8% 。
文獻[2]?在之前的研究的基礎上, 分類組織各種特征,形成平面組合核,并采用SVM分類器在ACE RDC 2004 英文語料上進行實體關系抽取,獲得了 70. 3% 的F1值。
文獻[3]?在已有特征的基礎上,引入字特征, 并采用條件隨機場進行醫學領域實體間關系的抽取,F1值達到 75% 以上。
文章引用量:300+
推薦指數:?????
[1] Kambhatla N. Combining Lexical, Syntactic and Semantic Features with Maximum Entropy Models for Extracting Relationships[C]? ?Proceedings of the ACL 2004 on Interactive Poster and Demonstration Sessions. 2004: 22.
[2] Zhao S, Grishman R. Extracting Relations with Integrated Information using Kernel Methods[C]? Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics. 2005: 419-426.
[3] Miao Q, Zhang S, Zhang B, et al. Extracting and Visualizing Semantic Relationships from Chinese Biomedical Text[C] Proceedings of the Pacific Asia Conference on Language. 2012: 99-107.
2 CNN與LSTM的應用?
現有的有監督學習關系抽取方法已經取得了較好的效果,但它們嚴重依賴詞性標注、句法解析等自然語言處理標注提供分類特征。而自然語言處理標注工具往往存在大量錯誤,這些錯誤將會在關系抽取系統中不斷傳播放大,最終影響關系抽取的效果。近年來,很多研究人員開始將深度學習框架的神經網絡模型應用到關系抽取中,神經網絡模型能夠自動學習句子特征,無需依賴復雜的特征工程以及領域專家知識,具有很強的泛化能力。
文獻[4]提出采用卷積神經網絡進行關系抽取。他們在詞匯層面特征(Lexical-level Feature)的基礎上引入目標實體與句子其他詞的相對位置信息,來構造句子層面的特征(Sentence-level Feature),然后通過池化層和非線性層獲取句子表示。在沒有使用NLP處理工具(POS、NER、syntactic analysis)的情況下,取得了最優的實驗效果。
文獻[5]提出提出了一種基于端到端神經網絡的關系抽取模型。該模型使用雙向LSTM和樹形LSTM同時對實體和句子進行建模。
文章引用量:150+
推薦指數:?????
[4] Santos C N D , Xiang B , Zhou B . Classifying Relations by Ranking with Convolutional Neural Networks[J]. Computer Science, 2015, 86(86):132-137.
[5]?Miwa M , Bansal M . End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures[J]. 2016.
3 聯合抽取
一般傳統的串聯抽取方法是在實體抽取的基礎上進行實體之間關系的識別。在這種方法中,先期實體識別的結果會影響到關系抽取的結果,前后容易產生誤差累積。針對這一問題,基于傳統機器學習的聯合模(Joint model)被提出并逐步用于對這一類的NLP任務進行聯合學習。
文章引用量:
推薦指數:?????
[6]?Zheng S , Hao Y , Lu D , et al. Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017: S0925231217301 -613.
[7] Zheng S , Wang F , Bao H , et al. Joint Extraction of Entities and Relations Based on a Novel Tagging Scheme[J]. 2017.
4?FewRel
據了解,這是目前最大的精標注關系抽取數據集。該數據集包含 100 個類別、70000 個實例,全面超越了以往的同類精標注數據集。FewRel 不僅可以應用在經典的監督/遠監督關系抽取任務中,在新興的少次學習(few-shot learning)任務上也有極大的探索價值和廣闊的應用前景。
文章引用量:較少
推薦指數:?????
[8]?FewRel: A Large-Scale Supervised Few-Shot Relation Classification Dataset with State-of-the-Art Evaluation
5 多任務和強化學習
介紹一些新近的關于實體關系抽取的研究,包括多任務和強化學習的方法,感興趣的同學可以基于此繼續跟進。
文章引用量:較少
推薦指數:?????
[9]?Zhepei Wei,?Yantao Jia. Joint Extraction of Entities and Relations with a Hierarchical Multi-task Tagging Model. arXiv:1908.08672v1. 2019
[10]?Takanobu R , Zhang T , Liu J , et al. A Hierarchical Framework for Relation Extraction with Reinforcement Learning[J]. 2018.
6 如何獲取文章與交流
找到有三AI開源項目即可獲取。
https://github.com/longpeng2008/yousan.ai
文章細節眾多,閱讀交流在有三AI-NLP知識星球中進行,感興趣可以加入。
總結
以上就是實體關系抽取必讀的文章,下一期我們將介紹FAQ相關的文章。
有三AI夏季劃
有三AI夏季劃進行中,歡迎了解并加入,系統性成長為中級CV算法工程師。
轉載文章請后臺聯系
侵權必究
往期精選
【NLP】自然語言處理專欄上線,帶你一步一步走進“人工智能技術皇冠上的明珠”。
【NLP】用于語音識別、分詞的隱馬爾科夫模型HMM
【NLP】用于序列標注問題的條件隨機場(Conditional Random Field, CRF)
【NLP】經典分類模型樸素貝葉斯解讀
【NLP】 NLP專欄欄主自述,說不出口的話就交給AI說吧
【NLP】 深度學習NLP開篇-循環神經網絡(RNN)
【NLP】 NLP中應用最廣泛的特征抽取模型-LSTM
【NLP】 聊聊NLP中的attention機制
【NLP】 理解NLP中網紅特征抽取器Tranformer
【NLP】TransformerXL:因為XL,所以更牛
【NLP】GPT:第一個引入Transformer的預訓練模型
【NLP】 深入淺出解析BERT原理及其表征的內容
【NLP】XLnet:GPT和BERT的合體,博采眾長,所以更強
【每周NLP論文推薦】從預訓練模型掌握NLP的基本發展脈絡
【每周NLP論文推薦】 NLP中命名實體識別從機器學習到深度學習的代表性研究
【每周NLP論文推薦】 介紹語義匹配中的經典文章
【每周NLP論文推薦】 開發聊天機器人必讀的重要論文
【技術綜述】深度學習在自然語言處理中的應用
總結
以上是生活随笔為你收集整理的【每周NLP论文推荐】 掌握实体关系抽取必读的文章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【完结】 12篇文章带你完全进入NLP领
- 下一篇: 【每周CV论文推荐】 初学高效率CNN模