达摩院文档级关系抽取新SOTA和零样本关系抽取新任务
?作者 |?邴立東、譚清宇、謝耀賡
單位 | Alibaba DAMO, NUS, SUTD
引言
關系抽取(RE)是 NLP 的核心任務之一,是構建知識庫、事件抽取等下游應用的關鍵技術。多年來受到研究者的持續關注。本文將介紹達摩院語言實驗室多語言算法團隊的兩篇 ACL Findings 2022 論文。
第一篇論文聚焦于文檔級關系抽取,我們的模型在 DocRED 排行榜上將 SOTA F1 值提高了 1.36,Ign_F1 值提高了 1.46。第二篇論文提出了零樣本句子級關系抽取的新任務,旨在解決現有的任務設定不能泛化到陌生關系上的問題。具體地,我們提出了 RelationPrompt 方法來為陌生關系生成訓練樣本,進而訓練抽取器。RelationPrompt 還可以作用于零樣本關系分類任務,取得了平均優于基線算法 10 個點的 F1。
基于自適應Focal Loss和知識蒸餾的文檔級關系抽取
本小節工作來自論文:Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation, in ACL Findings 2022.
論文鏈接:
https://arxiv.org/abs/2203.10900
數據代碼:
https://github.com/tonytan48/KD-DocRE
1.1 背景介紹
關系抽取,Relation Extraction from Text,簡稱 IE,是從自然語言文本中,抽取出實體之間的關系。傳統的關系抽取方法主要是抽取單個句子間兩個實體的關系,這一任務被稱為句子級別關系抽取。然而,在真實的應用場景中,大量的實體關系是由多個句子聯合表達的,因此,文檔級別的關系抽取相對于句子級別更加具有應用價值 [1]。
具體的任務定義為:給定一個文檔 D,其中的實體數目為 N,模型需要預測所有實體對之間的關系,總共需要做 N(N-1)個實體對的關系分類。
目前,文檔級別的關系抽取依然面臨四個方面的挑戰:
第一,大部分文檔級別的實體關系橫跨多個句子,關系抽取模型需要捕捉更長的上下文信息。
第二,同一文檔中包含大量實體,文檔級別關系抽取需要同時抽取所有實體間的關系,其復雜度與文檔中的實體數成平方關系,分類過程中存在大量的負樣本。
第三,文檔級別關系抽取的樣本類別屬于長尾分布,以清華大學發布的 DocRED 數據集為例,頻率前十的關系占到了所有關系的 60%,而剩下的 86 種關系只占全部關系三元組的 40%。
第四,由于文檔級別的數據標注任務較難,現有的數據集中人工標注的訓練數據十分有限。大量的訓練數據為遠程監督 [2] 的訓練數據,而遠程監督的數據中存在大量的噪音,限制模型的訓練。
1.2 模型介紹
鑒于以上的挑戰,我們提出了一個基于知識蒸餾的半監督學習框架,和一個新的關系抽取的模型。
▲ 圖1.1 模型概況
如上圖所示,在前人工作 ATLOP 模型 [3] 的基礎上,我們提出的模型主要提供了三個新的模塊,第一,我們利用軸向注意力機制 [4] 來提取實體對表示之間的相互關系,如上圖所示,圖中的紅色部分代表實體對(e3,e6)的相關區域,例如假設 e3 為杭州,e6 為亞洲,而中間實體 e8 為中國,那么(e3 杭州, e6 亞洲, 大洲)這一關系可以通過(e3 杭州, e8 中國,國家)這一三元組和(e8 中國,e6 亞洲,大洲)這一三元組聯合推理得到。
第二,為了緩解關系抽取數據中的樣本不平衡的問題,受 Focal Loss [5] 啟發,我們提出使用 Adaptive Focal Loss 來提高模型在長尾關系上的表現,具體形式為縮放高頻關系的概率輸出以及放大一些低頻關系的概率輸出,詳細的方法在文章的章節 2.2.2 中。
第三,我們在訓練過程中利用知識蒸餾的機制來過濾遠程監督數據中的噪音。DocRED 數據集中包含大量的遠程監督的數據,傳統的方法僅采用遠程監督數據進行預訓練,而忽略了遠程監督數據中的噪音,我們將這一基準方法記為 Na?ve Adaptation(NA),作為對比我們將知識蒸餾 [6] 的方法記為 KD,我們首先利用 DocRED 的少量人工標注訓練數據訓練一個老師模型,再利用這個老師模型,對于所有的遠程監督數據進行預測,其輸出的概率分布會被作為軟標簽。
接下來我們會基于這些軟標簽,和遠程監督數據中帶有噪音的標簽訓練一個結構相同學生模型,學生模型的訓練過程中有兩個損失函數,第一個就是之前提到的 Adaptive Focal Loss,用來學習遠程監督數據中的標簽。第二個就是基于老師模型輸出的軟標簽計算的均方誤差(MSE),這一損失函數可以盡可能讓學生模型的輸出更接近于老師模型,這兩個損失函數將會被相加并共同訓練。最后,所訓練得到的學生模型會進一步在人工標注的數據中進行微調,得到我們的最終模型。
1.3 實驗分析
▲ 表1.1 DocRED以及HacRED數據統計
為了驗證我們模型的有效性,我們在 DocRED [1] 數據集以及 HacRED [7] 數據集(表1.1)上進行了實驗。
▲?表1.2 DocRED實驗結果
我們的實驗結果如上表所示,其中我們的模型記為 Ours-B-b 和 Rb-l 分別指的是 Bert-base 和 Roberta-large 語言模型。我們的模型相對于之前的基線模型均取得了顯著的提升,并且在 DocRED 排行榜上,我們的 KD-Roberta 模型相對于之前的 SOTA-SSAN-NA [8] 提高了 1.36 F1 以及 1.46 Ign_F1。?
▲?表1.3 DocRED開發集消融實驗
在 DocRED 數據集上,我們針對高頻關系(前十種關系)以及長尾關系(剩余 86 種關系)進行了消融實驗,從上表(表1.3)可以看到,我們的 AFL 和軸向注意力模塊都能有效提高模型在長尾關系上的表現。
▲ 表1.4 HacRED實驗
我們同樣在 HacRED 數據集上做了對比實驗(表1.4),但由于 HacRED 尚未公布測試集,我們只匯報了相同場景下開發集的結果。
1.4 錯誤分析
▲?表1.5 錯誤分析?
▲ 圖1.2 例子分析
我們對目前最好的模型進行了詳實的錯誤分析,我們首先根據實體對將預測出來的三元組與標注中的三元組進行了比對,其中實體對與關系同時預測正確,記為Correct(C),如果實體對預測正確,而預測出來的關系是錯誤的,記為 Wrong (W)。如果測試集中標注的關系預測為‘No Relation’,我們將其視作未預測出的三元組,記為 Missed(MS)。最后我們將模型預測出有關系,但測試集中未標注的三元組記為 More(MR)。
這一些錯誤的統計結果在表 1.5 中有所體現,我們可以看到預測錯誤(W)的占比相對于 MS 和 MR 較小。而 MS 和 MR 的比例相當,根據我們進一步的分析,我們發現 MR 的三元組中,存在一定數量的正確三元組,如圖 1.2 所示,該文章描述了一名挪威的政客,在標注數據中,Hol 是挪威的一個城市,而文中出現的 Vestv?g?y 同樣也是挪威的一個城市,在同一標準下,Vestv?g?y 理應同樣被標注。這一發現反映了 DocRED 數據中可能存在漏標的現象,這一發現可以為未來文檔級別的關系抽取提供一定的思路和啟發。
1.5 總結
綜上所述, 我們提出了一個基于知識蒸餾的半監督學習框架,并且基于軸向注意力和自適應聚焦函數提出了一個新的文檔級別關系抽取的模型,并且在 DocRED 排行榜顯著超過了 SOTA 的表現。
RelationPrompt:通過提示語言模型的數據生成來解決零樣本關系三元組抽取任務
本小節工作來自論文:RelationPrompt: Leveraging Prompts to Generate Synthetic Data for Zero-Shot Relation Triplet Extraction, in ACL Findings 2022.
論文鏈接:
https://arxiv.org/abs/2203.09101
數據代碼:
http://github.com/declare-lab/RelationPrompt
2.1 問題提出
關系三元組是知識庫 [9] 的基本組成部分,能應用于搜索、社交網絡、事實核查等等。然而,具體地說,現有的模型只能針對訓練時候見過的關系類別執行三元組抽取(Relation Triplet Extraction)。因此,我們首次提出零樣本關系三元組抽取任務(Zero-Shot Relation Triplet Extraction)(ZeroRTE)。
比如這個句子“Their grandson was Group Captain Nicolas Tindal.” 包含了 “Military Rank”的關系,但是訓練數據沒有見過這類關系類別的樣本。ZeroRTE 的目標就是在這個零樣本的情況下仍然能夠抽取三元組(Nicolas Tindal,Military Rank, Group Captain)。
為了執行 ZeroRTE,我們提出了RelationPrompt 方式,為沒有見過的關系類別生成偽訓練數據(Pseudo-training data)。RelationPrompt 能夠利用初次見到的關系名作為語言模型的提示(Prompt),生成該關系的結構化句子樣本。這類樣本的結構信息標明了句子中三元組的頭部實體(Head Entity)和尾部實體(Tail Entity),進而可以作為抽取模型的訓練數據。
▲ 表2.1 任務對比
2.2 相關方法的局限
表 2.1 可以顯示 ZeroRTE 在兩個主要方面比現存的任務更有挑戰性。與傳統監督的關系三元組抽取(Relation Triplet Extraction)任務相比,ZeroRTE 需要模型泛化到訓練中從沒遇過的關系類別。與零樣本關系分類的任務(Zero-Shot Relation Classification)(ZeroRC)[10] 相比,ZeroRTE 需要模型在不假設給出實體對的情況下抽取完整的關系三元組。因此,ZeroRTE 比 ZeroRC 在實際應用中更現實。目前的幾種方法可以解決低資源學習問題。
遠程監督(Distant Supervision)[11] 可用知識庫構建大規模的關系數據集,但比人類的標注質量低,并且僅限于固定關系類別。另一種方法是設計不受約束的預測類別空間來制定任務目標?[12],例如句子相似度匹配。然而,現存的方式只對句子分類任務有效,不能直接執行三元組抽取任務。第三方向是利用帶有提示(Prompt)的語言模型 [13],能讓模型在低資源情況下泛化到新任務。然而,提示的方法目前僅限于比較簡單的預測目標,比如句子分類或詞組抽取。
2.3 任務定義
ZeroRTE 任務的目標是從訓練數據集 中學習,并泛化到測試數據集 。 和 是從定義為 的原本數據集中劃分的,其中 表示輸入句子, 表示輸出三元組, 表示數據中存在的一組關系類別。 和 數據集的關系類別組是預定義的,分別表示為 和 ,而且是不相交的 。每一個數據樣本包含了輸入句子 ,同時也包含一個或以上的三元組。每個三元組定義為(,,y),其中 表示頭部實體, 表示尾部實體,y 表示關系類別。
以上的算法描述了 RelationPrompt 執行 ZeroRTE 任務的整體訓練和預測過程。由于現存的抽取模型不能泛化到新的關系類別,我們先需要訓練一個關系生成模型 ,針對測試集的關系類別生成偽訓練數據 ,接著用偽訓練數據 訓練一個關系抽取模型 來執行 ZeroRTE。
具體地說,我們先用訓練數據 來訓練關系生成模型 和關系抽取模型 (1,2),接著以測試集的關系類別當作語言模型的提示來生成偽訓練數據 (3)。接著,我們使用之前生成的偽訓練數據 再次訓練關系抽取模型 (4)。最后,我們讓關系抽取模型 對測試數據的句子預測出關系三元組(5,6)。
▲ 圖2.1 結構化文本格式
2.4 我們的模型
語言模型能夠通過大規模的預訓練,泛化到地資源的情況。因此,我們使用語言模型生成偽訓練數據,以關系名稱的提示作為生成的條件。不過,現存的提示方式不能支持生成三元組的信息。另一方面,結構化文本方式(Structured Text)[14] 可以使用自然文本中的特殊標記,對實體和關系的結構信息進行編碼。因此,我們的工作統一了提示語言模型和結構化文本的方法,能通過語言模型提來生成帶有關系三元組信息的結構化文。
如圖 2.1 所示,RelationPrompt 分別有兩個模型: 關系生成模型(a)和關系抽取模型(b)。如圖 2.1a 所示,關系生成模型的輸入是包含關系名稱的提示,輸出是包含句子、頭部實體和尾部實體的結構化文本。我們使用 GPT-2 模型和普通的訓練目標 [15] 進行訓練,進而生成的樣本可用于訓練關系抽模型。具體來說,我們對關系抽取模型采用 BART 模型的序列到序列方法。圖 2.1b 顯示了輸入數據如何包含上下文句子,輸出格式包含頭部實體、尾部實體和關系名稱來形成關系三元組。我們使用普通的序列到序列學習目標 [16] 來訓練模型。
▲ 圖2.2 模型應用方式
我們所設計的結構化文本格式能讓關系抽取模型同時支持關系三元組抽取和關系分類。如圖 2.2 顯示,我們可以無條件地生成帶有頭部實體,尾部實體和關系類別的結構化文本,對 ZeroRTE 任務做預測(a)。另外,我們能以實體對信息為條件來生成關系類別,對 ZeroRC 任務做預測(b) 。因此,我們的關系抽取模型在預測時可以支持 ZeroRTE 和 ZeroRC 任務,不需要分別的訓練。
由于結構化文本格式的復雜度會影響到關系生成模型的生成質量, 我們保持生成的結構化文本最多包含一個三元組。因此,關系抽取模型在偽數據訓練之后,對每一個輸入句子最多預測一個三元組。為了克服這個挑戰并預測多個三元組,我們進一步提出了一種生成解碼方法(c)。
該方法可以在序列到序列的預測階段枚舉三元組候選并進行排名。對于頭部實體、尾部實體和關系名稱,我們可以在各個部分考慮多個可能的候選實體。如圖 2.2c 表示,每個可能路徑代表了一個三元組候選。為了篩選最合適的三元組候選,我們使用分數閾值。只有總體可能性高于得分數閾值的路徑才能被預測為最終的關系三元組。
2.5 實驗設置
由于 ZeroRTE 是一個新的任務,我們提供了兩種基線方法。首先,利用生成方式的關系抽取模型可以在不使用生成數據的情況下抽取陌生關系類別的三元組。但是,由于訓練數據和測試數據之間的領域不相關,它無法實現最佳性能。這個基線方式被稱為 NoGen。
第二個基線方式是現有的 TableSequence [17] 三元組抽取模型,它用生成的數據進行訓練。TableSequence 是一種傳統的關系三元組抽取模型,它需要假設在訓練數據中存在具有多個關系三元組的句子,才能在測試句子上抽取多個關系三元組。然而,我們生成的數據僅限于每一個句子只包含一個關系三元組。
因此,TableSequence 對于多三元組 ZeroRTE 不能很好地執行。對于 ZeroRC 任務,目前最先進的方法是 ZS-BERT 。它將句子和實體信息轉換為表示,并對要預測的候選關系類別的描述文本進行匹配。然而,這種句子表示方法不能保留句子和關系的完整語義。
▲ 表2.2 ZeroRTE 任務結果
2.6 主要結果
對于 ZeroRTE 任務,如表 2.2 所示,RelationPrompt 方法在 FewRel [18] 和 Wiki-ZSL 數據集的總體結果始終高于基線模型。沒有用生成的樣本進行訓練的抽取模型(NoGen)性能比較低,表明數據生成對于零樣本泛化至關重要。
▲?表2.3 ZeroRTE 任務結果
對于 ZeroRC 任務,表 2.3 顯示了 RelationPrompt 對于現有方法具有一貫的優勢。當看陌生關系類別集數量增加的時候,我們的方式能夠保持較高的分類性能,而 ZS-BERT 方法不能很好地泛化到比較大的關系類別集。
▲ 圖2.3 模型輸出分析
為了進一步分析 RelationPrompt 的有效性,我們也檢關系生成模型如何適應野外關系,并在圖 2.3 中給出了幾個例子。對于大多數關系,比如 “Investor”、“Defeated By” 和 “Currency Of”關系生成模型能夠正確地推斷關系的語義并生成合理的句子。然而,對于關系 “Political Partner” 的關系,生成的句子能正確地建立在政治背景,但是實體對不適合關系的語義。因此,這是一個未來的進步空間。
2.7 總結
我們介紹了零樣本關系三元組抽取任務(ZeroRTE),要求模型在測試情況下抽取未見過的關系類別的三元組。與之前零樣本關系分類任務(ZeroRC)相比,ZeroRTE 不需要假設實體對已經被提供。因此,ZeroRTE 在實際應用中更現實。為了執行 ZeroRTE,我們提出了關系提示的方式(RelationPrompt),利用關系名稱當作語言模型的提示,來生成未見過的關系類別的新的句子樣本。
為了克服句子中多個關系三元組的挑戰,我們也設計了新的三元組搜索解碼方法(Triplet Search Decoding)。實驗結果表明,RelationPrompt 比基線模型更有效,在 ZeroRTE 任務能達到 16.5 F1 提升,在 ZeroRC 任務能達到 28.2 F1 提升。
關于作者:本文由阿里巴巴達摩院自然語言智能實驗室邴立東、聯培博士生譚清宇、謝耀賡共同整理。由 PaperWeekly 編輯同學做了校對和格式調整。
參考文獻
[1]?Yao, Yuan, et al. "DocRED: A Large-Scale Document-Level Relation Extraction Dataset."?Proceedings of ACL. 2019.
[2] Mintz, Mike, et al. "Distant supervision for relation extraction without labeled data."?Proceedings of ACL. 2009.
[3] Zhou, Wenxuan, et al. "Document-level relation extraction with adaptive?thresholding and localized context pooling."?Proceedings of AAAI. 2021.
[4]?Wang, Huiyu, et al. "Axial-deeplab: Stand-alone axial-attention for panoptic segmentation."?Proceedings of ECCV. Springer, 2020.
[5]?Lin, Tsung-Yi, et al. "Focal loss for dense object detection."?Proceedings of ICCV. 2017.
[6] Hinton, Geoffrey, Oriol Vinyals, and Jeff Dean. "Distilling the knowledge in a neural network."?arXiv preprint arXiv:1503.02531?2.7 (2015).
[7]?Cheng, Qiao, et al. "HacRED: A Large-Scale Relation Extraction Dataset Toward Hard Cases in Practical Applications."?Findings of ACL. 2021.
[8]?Xu, Benfeng, et al. "Entity Structure Within and Throughout: Modeling Mention Dependencies?for Document-Level Relation Extraction."?Proceedings of the AAAI. 2021.
[9] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In Proc. of AAAI.
[10] Chih-Yao Chen and Cheng-Te Li. 2021. Zs-bert: To- wards zero-shot relation extraction with attribute representation learning. In Proc. of NAACL.
[11] Guoliang Ji, Kang Liu, Shizhu He, and Jun Zhao. 2017. Distant supervision for relation extraction with sentence-level attention and entity descriptions. In Proc. of AAAI.
[12] Pushpankar Kumar Pushp and Muktabh Mayank Srivastava. 2017. Train once, test anywhere: Zero-shot learning for text classification. CoRR, arXiv:1712.05972.
[13] Pengfei Liu, Weizhe Yuan, Jinlan Fu, Zhengbao Jiang, Hiroaki Hayashi, and Graham Neubig. 2021. Pre- train, prompt, and predict: A systematic survey of prompting methods in natural language processing. CoRR, arXiv:2107.13586.
[14] Giovanni Paolini, Ben Athiwaratkun, Jason Krone, Jie Ma, Alessandro Achille, Rishita Anubhai, Ci- cero Nogueira dos Santos, Bing Xiang, and Stefano Soatto. 2020. Structured prediction as translation between augmented natural languages. In Proc. of ICLR.
[15] Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. 2019. Lan- guage models are unsupervised multitask learners. OpenAI.
[16] Mike Lewis, Yinhan Liu, Naman Goyal, Mar- jan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Veselin Stoyanov, and Luke Zettlemoyer. 2020. Bart: Denoising sequence-to-sequence pre- training for natural language generation, translation, and comprehension. In Proc. of ACL.
[17] Jue Wang and Wei Lu. 2020. Two are better than one: Joint entity and relation extraction with table- sequence encoders. In Proc. of EMNLP.
[18] Xu Han, Hao Zhu, Pengfei Yu, Ziyun Wang, Yuan Yao, Zhiyuan Liu, and Maosong Sun. 2018. Fewrel: A large-scale supervised few-shot relation classifica- tion dataset with state-of-the-art evaluation. In Proc. of EMNLP.
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的达摩院文档级关系抽取新SOTA和零样本关系抽取新任务的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 福布斯2021全球亿万富豪榜 疫情一年富
- 下一篇: 双汇是中国还是美国的