中文事件抽取研究综述
中文事件抽取研究綜述
- 中文事件抽取研究綜述
- 摘要
- 2 事件抽取任務定義
- 2.1 公開評測事件抽取
- 評估
- 2.2 框架表示事件抽取
- 2.3 實例表示事件抽取
- 3 中文事件抽取技術方法
- 3.1 基于模式匹配的方法
- 3.2 基于機器學習的方法
- (1)基于特征工程的方法
- (2)基于神經網絡的方法
- (3)弱監督的方法
- 3.3 中文事件抽取的方法
- 參考文獻
中文事件抽取研究綜述
項威,王邦 ( 華中科技大學電子信息與通信學院,湖北武漢430074)
摘要
事件抽取是構建知識圖譜的關鍵任務之一,也是當前自然語言處理的研究熱點和難點問題。
事件抽取研究從非結構化的自然語言文本中自動抽取用戶感興趣的事件信息,對人們認知世界有著深遠的意義,在信息檢索、智能問答、情感分析等應用場景有著重要的意義和價值。
在公開國際測評和語料的推動下,事件抽取研究受到越來越多的學者關注,取得了許多的研究成果。
按照事件抽取任務定義,有:
- 預先定義結構化的事件表示框架的框架表示事件抽取和
- 通過事件實例中觸發詞及事件元素進行聚類的實例表示事件抽取。
根據事件抽取方法的不同,可以分為:
- 基于模式匹配的方法
- 基于機器學習的方法
中文事件抽取方法還要考慮中文語言特性問題。
自動內容抽取國際評測會議 Automatic content extraction, ACE
將事件定義為:
發生在某個特定時間點或時間段,某個特定地域范圍內,由一個或者多個角色參與的一個或者多個動作組成的事情或者狀態的改變。
- 早期的事件抽取任務采用基于模式匹配的方式,隨著機器學習的興起,采用特征工程和神經網絡的方法進行事件抽取受到關注。
- 中文事件抽取還存在中文語言特性方面的問題
本文首先簡要介紹了事件抽取的研究意義,再從事件抽取的任務定義和技術方法兩個維度全面闡述事件抽取工作。
2 事件抽取任務定義
事件抽取在相關公開測評和語料的推動下展開,不同的公開測評和語料關注的領域和事件粒度不同。
- 框架表示事件抽取任務是參照公開測評事件抽取任務,也稱為限定域事件抽取。
- 實例表示事件抽取是在沒有預先定義結構化的事件表示框架下,通過事件實例的觸發詞和事件元素詞用無監督方法聚類來進行的事件抽取任務,也稱為開放域事件抽取
2.1 公開評測事件抽取
公開評測語料通常面向通用背景,沒有特定的領域背景,如ACE僅僅對新聞語料中關注的33種常用事件類型進行了標注。
公開評測極大推動了事件抽取的研究和發展,但公開評測語料通常面向通用背景,沒有特定的領域背景,如ACE僅對新聞語料中關注的33種常用事件類型進行了標注。
- 雖然有少量的特定領域事件抽取語料,如BioNLP生物醫學領域語料等,但不能滿足豐富多樣的實際應用需求。同時公開評測語料還存在數據量級小、事件類型稀疏和語料時效性差等問題,目前最優性能也無法滿足知識圖譜構建等應用需求。
ACE認為事件是事物狀態的改變或事情的發生,并將事件抽取任務定義為從非結構化的文本中識別并抽取事件信息并結構化表示,包括事件觸發詞、事件類型、事件元素、元素角色。
相關術語:
- 實體 entity
- 事件提及 event mention:描述事件的短語 或 句子,包括事件觸發詞和事件元素。
- 事件觸發詞 event trigger
- 事件元素 event arguments
- 元素角色 argument roles
ACE事件抽取任務通常分為:事件檢測 & 元素識別
事件檢測:通過識別文本中的事件觸發詞檢測事件,并判斷事件類型。
每種事件類型對應唯一的事件表示框架(如生活-出生類型事件表示框架為{人物,時間,地點})
元素識別:根據事件表示框架判斷文本中的實體是否為事件元素,并確定元素角色
ACE語料沒有指定具體的領域和場景,主要來自新聞語料,包括新聞專線、廣播新聞等6個來源,同時包含英語、漢語、西班牙語三種語言,由美國賓夕法尼亞大學等語言數據聯盟 linguistic data consortium, LDC 標注。ACE定義了8種類型和33種子類型事件及其對應的表示框架。
事件抽取任務往往依賴于文本的命名實體識別、共指消解、關系抽取等自然語言處理任務結果,但其并不是事件抽取任務本身所關注的。
ACE數據集同時對實體及其類型、關系、共指等內容進行了標注,在ACE事件抽取任務中通常直接使用實體標注內容。ACE事件抽取任務通常采用以下標準評估正確性:
評估
ACE事件抽取任務通常采用以下標準評估正確性:
- 如果一個事件觸發詞的位置偏移和事件類型與標注內容匹配,則正確識別該事件觸發詞
- 如果一個事件元素詞的位置偏移和對應事件與標注內容匹配,則正確識別該事件元素
- 如果一個事件元素詞的位置偏移、對應事件及元素角色與標注內容匹配,則正確識別并分類該事件元素
2.2 框架表示事件抽取
通過自頂向下的方式,預先定義事件表示框架,包括事件類等等,然后制作相應的標注語料數據進行事件抽取。
- Perroni等在2018年提出一種從新聞報道和社交媒體中抽取突發事件等框架表示,用于公共安全預警、政府組織決策支持等。文章定義了“洪水”、“風暴”、“火災”等7種突發事件類型,并結合6何分析法(5W1H: Who, What, Where, When, Why, How)設計各類事件元素的表示框架。
- 劉振[7]等在2018年提出了常見科技政策領域內的事件類型與對應的事件表示框架,幫助獲取科研領域內有價值的信息,把握學科發展趨勢。
框架表示事件抽取任務 按照不同的領域背景和應用需求自由靈活地構建事件框架表示,解決了公開評測語料的事件類型稀疏,數據量級小等問題。
【優點】框架表示的事件類型可擴展性強,結合遠程監督的方法可以自動生成大規模標注數據,提高語料的時效性。
【缺點】但事件的框架表示通常結構復雜,通用性差,不同的領域背景和實際應用需要不同的事件框架表示,這都需要耗費大量的人力勞動和時間,并且嚴重依賴領域專家系統。
==> 所以框架表示事件的標注語料雖然可以保證每種事件類型的數量,但大部分標注語料規模仍然較小。
- 框架
- 某個類型的事件必定有一個表述的框架:
- 如,死亡類型的事件:肯定有實施者、有受害者、有時間。。。
- 故,可以用這樣的框架來抽取信息:先有 觸發詞 識別出該事件類型是 “死亡”事件,然后用“死亡”事件的模版去找出對應的 元素。Done!
2.3 實例表示事件抽取
實例表示事件抽取可以面向不同領域背景和應用需求的事件,也可以面向通用領域的事件語料。通過自底向上的方式,利用文本的上下文語境、句法依存結構等信息,采用無監督的方法聚類事件類型和事件元素,自動發現新的事件實例,不需要人工制作標注數據。
例如,如果事件觸發詞具有相似的上下文語境,那么它們可能屬于同類事件;如果事件元素與事件觸發詞具有類似的句法依存結構,那么它們可能具有相同的事件元素角色。
- Huang等[9]在2016年提出一種自由事件抽取模型,適用于所有語料輸入,利用符號特征和分布式語義自動生成輸入語料的事件表示,檢測事件并結構化表示。
- Zhou等[10]在2017年從推特中用無監督模型抽取有價值的新聞事件并結構化表示,文章假設相同的事件擁有相似的實體和詞語,用無監督的方法抽取結構化事件信息。
- Yuan等[11]在2018年利用新聞語料中的實體和實體類型建立 槽值對(slot-value) 來檢測事件,相似的實體槽值對句子屬于相同的事件類型,最后生成事件結構化的表示框架。
【缺點】由于語言的結構復雜性,實例表示事件抽取很難準確地獲得語義信息,并且難以用統一的結構化標準表示,需要一定的人工方式加以輔助,其結果仍然很難應用到其他自然語言處理任務中。
實例表示事件抽取:
- 先把一些詞取出來,然后將這些詞聚類,注意,這里并未定義哪些詞是哪一類,而是讓它們自己尋找類別,和識別事件元素
3 中文事件抽取技術方法
事件抽取任務在方法上可以分為基于模式匹配的方法和基于機器學習的方法兩大類。
- 基于模式匹配的方法:是在一些模式的指導下進行的某類事件的識別和抽取方法,在特定領域中表現出了良好的性能。
- 基于機器學習的方法:將事件抽取建模成多分類任務,通過提取的特征進行分類完成事件抽取。
- 中文事件抽取中還需考慮語言特性的問題,主要通過建立勘誤表和序列標注方法來解決。
3.1 基于模式匹配的方法
基于模式匹配事件抽取主要分為有監督的模式匹配方法和弱監督的模式匹配方法兩大類。
- 有監督的模式匹配方法依賴于人工標注語料進行事件模式學習。
- Ellen[12]等在1993年通過建立觸發詞典和13中事件匹配模式進行事件識別與抽取,事件匹配模式主要利用事件元素初始描述和事件元素上下文語義進行構建,并開發了AutoSlog模式匹配事件抽取系統,在MUC語料上性能優異。
- Kim等在1995年引入了WordNet語義詞典,利用語義框架和短語結構進行事件抽取
- 弱監督的模式匹配方法只需對語料進行預分類或指定種子模式的少量人工標注工作,然后自動進行事件模式學習。
- Ellen[14]等在1995年在AutoSlog基礎上開發出AutoSlog-ST系統,不需要對語料中的所有事件元素進行標注,只需標注事件類型,然后利用預分類語料自動學習事件模式。
- 姜吉發[15]在2005年提出一種領域通用事件模式匹配方法IEPAM,將事件抽取模式分為語義模式、觸發模式、抽取模式,在MUC-7語料的飛行事故事件抽取中獲得優異結果。
【優缺點】模式匹配事件抽取方法在領域事件抽取任務中性能優異,但模版的制作需要耗費大量人力和時間,且模版局限于領域背景,很難在通用領域事件抽取任務中應用。
3.2 基于機器學習的方法
基于機器學習的方法將事件抽取建模成分類任務,是目前的主流研究方向。
尤其是深度學習和神經網絡,已經成為事件抽取的主要手段,全連接神經網絡、卷積神經網絡和循環神經網絡都已經成功應用到事件抽取任務中。此外,弱監督的方法能夠自動生成標注語料數據,緩解數據稀疏問題,也逐步應用到事件抽取任務中。
(1)基于特征工程的方法
傳統的機器學習方法將事件抽取任務建模為多分類問題,提取文本的語義特征,然后輸入分類器進行事件抽取。
- Ahn[2]等在2006年率先將事件抽取分為4個階段的多分類子任務,包括
- 事件觸發詞分類 :判斷詞語是否為事件觸發詞和事件類型 —— 利用詞匯特征、字典特征、句法特征、實體特征 ,完成觸發詞分類子任務
- 事件元素分類 :判斷實體詞語是否為事件元素 —— 利用事件類型、觸發詞特征、實體特征、句法特征 ,完成事件元素分類子任務
- 事件屬性分類 :判斷事件屬性
- 事件共指消解 :判斷兩個事件實例是否屬于同一事件
【缺點】傳統的機器學習事件抽取多分類方法中,各個階段的子分類任務是相互獨立的,導致誤差從前面的環節向后面的環節傳遞,性能也因此逐級衰減,并且無法處理全局的依賴關系。
(2)基于神經網絡的方法
事件抽取的機器學習傳統方法不僅需要人工設計特征,而且需要借助外部的NLP工具抽取特征,并且部分語言和領域缺少相關的NLP工具。
在各種特征的抽取過程中會產生誤差,造成誤差的積累和傳播。
【神經網絡的方法將事件抽取建模成端到端的系統,使用包含豐富語言特征的詞向量作為輸入自動提取特征,不需要或者極少的依賴外部的NLP工具,避免了人工設計特征的繁瑣工作。】
- Chen等[23]在2015年提出基于動態多池化卷積神經網絡的事件抽取方法,利用動態多池化方法學習出一個句子中包含的多個事件。
- Feng等[18]在2016年提出用雙向長短期記憶網絡進行事件檢測,但沒有探索事件元素等抽取方法。
- Nguyen[19]等在2016年利用雙向LSTM抽取句子中的語義特征,然后聯合句子結構特征同時抽取事件觸發詞和事件元素。
(3)弱監督的方法
弱監督的事件抽取方法希望通過結構化知識庫或者少量人工標注數據,自動生成大規模、高質量的標注數據。
- Chen[24]等在2009年提出利用少量人工標注數據訓練模型,在未標注數據上反復迭代自動擴充標注數據。
- Liu[16]等在2016年提出利用ACE語料數據訓練模型,再結合FrameNet知識庫擴充標注數據。
- Chen[9]等在2017年提出利用Freebase、Wikipedia、FrameNet等知識庫等遠程監督方法,自動生成大規模的標注數據進行事件抽取,并將其應用到金融領域的事件抽取問題中。
3.3 中文事件抽取的方法
中文語言特性問題主要來自中文詞句意合特性,中文語言詞語件沒有顯示間隔,而分詞會帶來明顯的錯誤和誤差。
- Chen[24]等在2009年提出中文事件抽取觸發詞不一致問題,并將中文觸發詞分詞不一致問題分為 跨詞語 (cross-word) 不一致 和 內詞語 (inside-word) 不一致 兩種類型。
Chen提出兩種方法解決觸發詞分詞不一致的問題:
-
Zeng[20]等在2016年用不同的中文分詞工具對ACE中文語料進行分詞,結果顯示至少有14%對觸發詞分詞結果與語料標注不一致!!!【這個需要使用】
解決:
在Chen的字符序列標注方法的基礎上,使用雙向長短期記憶網絡和條件隨機場抽取句子特征,并結合卷積神經網絡抽取上下文語義特征完成中文事件抽取
-
Lin[26]等認為序列標注模型中的字符區別于詞語,無法準確表達句子的語義,提出將每個字符與上下文的若干字符組合生成多個候選觸發詞塊,然后從候選觸發詞塊中檢測觸發詞。
【中文事件抽取問題】
- 中文事件抽取還存在比英文更加嚴重的數據稀疏問題。
- 中文語言的復雜性和靈活性使得相同語義的詞語有更多表達方式,即同一類型事件觸發詞可以用更多詞語表達。=> 因此中文觸發詞數量要遠多于英文,導致測試集中有更多在訓練集中沒有出現過的未知觸發詞。
參考文獻
[1] DODDINGTON G R,MITCHELL A,PRZYBOCKI M A,et al.The automatic content extraction ( ACE) program-tasks,data,and evaluation[C]//Proceedings of the 2004 international conference on language resources and evaluation.Lisbon,Portugal: European Language Resources Association,2004: 837-840.
[2] AHN D.The stages of event extraction[C]//Proceedings of the workshop on annotations and reasoning about time and events.Sydney,Australia: Association for Computational Linguistics,2006: 1-8.
[3] AGUILAR J,BELLER C,MCNAMEE P,e t al.A comparison of the events and relations across ace,ere, tac - kbp,and framenet annotation standards[C]//Proceedings of the second workshop on events: definition,detection,coreference,and representation.Baltimore,Maryland,USA: ACL,2014: 45-53.
[4] SONG Z,BIES A,STRASSEL S,et al. From light to rich ere: annotation of entities,relations,and events[C]/ /Proceedings of the 3rd workshop on events: definition,detection,coreference,and representation. Beijing,China: ACL,2015:89-98.
[5] PETRONI F,RAMAN N,NUGENT T,et al.An extensible event extraction system with cross - media event resolution[C]/ /Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining.London,United Kingdom: ACM, 2018: 626-635.
[6] YANG H,CHEN Y,LIU K,et al.DCFEE: a document-level Chinese financial event extraction system based on automatically labeled training data[C]/ /Proceedings of ACL 2018,system demonstrations.Melbourne,Australia: ACL,2018: 50-55.
[7] 劉振.基于網絡科技信息的事件抽取研究[J].情報科學,2018, 36( 9) : 115-117.
[8] CHEN Y,LIU S,ZHANG X, et al.Automatically labeled data generation for large scale event extraction[C]/ /Proceedings of the 55th ACL.Vancouver,Canada: ACL, 2017: 409-419.
[9] HUANG L,CASSIDY T,FENG X, et al.Liberal event extraction and event schema induction[C]/ /Proceedings of the 54th ACL.Berlin,Germany: ACL, 2016: 258-268.
[10] ZHOU D,ZHANG X,HE Y.Event extraction from Twitter using non-parametric Bayesian mixture model with word embeddings[C]/ /Proceedings of the 15th EACL. Valencia,Spain: ACL, 2017: 808-817.
[11] YUAN Q,REN X,HE W, et al.Open-schema event profiling for massive news corpora[C]/ /Proceedings of the 27th ACM international conference on information and knowledge management.Torino, Italy: ACM, 2018: 587-596.
[12] RILOFF E.Automatically constructing a dictionary for information extraction tasks[C]/ /Proceedings of the 11th national conference on artificial intelligence.Washington D C: AAAI,1993: 811-816.
[13] KIM J T,MOLDOVAN D I.Acquisition of linguistic patterns for knowledge-based information extraction[J].IEEE Transactions on Knowledge and Data Engineering,1995,7 ( 5) : 713-724.
[14] RILOFF E,SHOEN J.Automatically acquiring conceptual patterns without an annotated corpus[C]/ /Third workshop on very large corpora.Massachusetts,USA: ACL, 1995: 148-161.
[15] 姜吉發.一種事件信息抽取模式獲取方法[J].計算機工程,2005, 31( 15) : 96-98.
[16] LIU S,CHEN Y,HE S, et al.Leveraging framenet to improve automatic event detection[C]/ /Proceedings of the 54th ACL.Berlin,Germany: ACL, 2016: 2134-2143.
[17] NGUYEN T H,GRISHMAN R.Event detection and domain adaptation with convolutional neural networks[C]/ /Proceedings of the 53rd ACL and the 7th IJCNLP. Beijing,China: ACL, 2015: 365-371.
[18] FENG X,QIN B,LIU T.A language-independent neural network for event detection[J].Science China: Information Sciences,2018, 61( 9) : 092106.
[19] NGUYEN T H,CHO K,GRISHMAN R.Joint event extraction via recurrent neural networks[C]/ /Proceedings of the 2016 NAACL: human language technologies.San Diego,California: ACL, 2016: 300-309.
[20] ZENG Y,YANG H,FENG Y,et al.A convolution BiLSTM neural network model for Chinese event extraction[M]/ /Natural language understanding and intelligent applications.[s.l.]: Springer, 2016: 275-287.
[21] LI P,ZHU Q,ZHOU G.Joint modeling of argument identification and role determination in Chinese event extraction with discourse-level information[C]/ /Proceedings of the 23th IJCAI.Beijing,China: AAAI Press, 2013: 2120-2126.
[22] LI Q, JI H,YU H, et al.Constructing information networks using one single model[C]/ /Proceedings of the 2014 EMNLP.Doha,Qatar: ACL, 2014: 1846-1851.
[23] CHEN Y,XU L,LIU K,et al.Event extraction via dynamic multi-pooling convolutional neural networks[C]/ /Proceedings of the 53rd ACL and the 7th IJCNLP. Beijing,China: ACL, 2015: 167-176.
[24] CHEN Z, JI H.Language specific issue and feature exploration in Chinese event extraction[C]/ /Proceedings of human language technologies: the 2009 NAACL,volume: short papers.Boulder,Colorado,USA: ACL, 2009: 209-212.
[25] LIN H,LU Y,HAN X,et al.Nugget Proposal Networks for Chinese event detection[C]/ /Proceedings of the 56th ACL.Melbourne,Australia: ACL, 2018: 1565-1574.
[26] LAFFERTY J,MCCALLUM A,PEREIRA F C N.Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]/ /Proceedings of the 18th intelligence conference on machine learning.Francisco,CA,USA: Morgan Kaufmann Publishers Inc, 2001: 282-289.
[27] LI P,ZHOU G,ZHU Q, et al.Employing compositional semantics and discourse consistency in Chinese event extraction[C]/ /Proceedings of the 2012 joint conference on EMNLP and computational natural language learning.Jeju Island,Korea: ACL, 2012: 1006-1016.
總結
以上是生活随笔為你收集整理的中文事件抽取研究综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 响应状态码403_HTTP 401错误与
- 下一篇: Raywenderlich:寻迹