论文浅尝 | Reinforcement Learning for Relation Classification
論文鏈接:http://aihuang.org/p/papers/AAAI2018Denoising.pdf
來源:AAAI 2018
?
Motivation
Distant Supervision 是一種常用的生成關系分類訓練樣本的方法,它通過將知識庫與非結構化文本對齊來自動構建大量訓練樣本,減少模型對人工標注數據的依賴。但是這樣標注出的數據會有很多噪音,例如,如果Obama和United States在知識庫中的關系是 BornIn,那么“Barack Obama is the 44th President of the United States.”這樣的句子也會被標注為BornIn關系。
為了減少訓練樣本中的噪音,本文希望訓練一個模型來對樣本進行篩選,以便構造一個噪音較小的數據集。模型在對樣本進行篩選時,無法直接判斷每條樣本的好壞,只能在篩選完以后判斷整個數據集的質量,這種 delayed reward 的情形很適合用強化學習來解決。
?
Model
模型框架如圖所示,左邊是基于強化學習的 Instance Selector,右邊是經典的基于 CNN 的 Relation Classifier。Instance Selector 根據 Policy function 對樣本逐個篩選,每個樣本都可以執行“選”或“不選”兩種 Action,篩選完以后會生成一個新的數據集,我們用 Relation Classifier 來評估數據集的好壞,計算出一個 reward,再使用 policy gradient 來更新 Policy function 的參數,這里的 reward 采用的是數據集中所有樣本的平均 likelihood。
?
為了得到更多的反饋,提高訓練效率,作者將樣本按照實體對分成一個個 bag,每次 Instance Selector 對一個 bag 篩選完以后,都會用 Relation Classifier 對這部分數據集進行評估,并更新 Policy function 的參數。在所有 bag 訓練完以后,再用篩選出的所有樣本更新 Relation Classifier 的參數。
?
具體訓練過程如下:
Experiment
論文在 NYT 數據集上與目前主流的方法進行了比較,注意這里是 sentence-level 的分類結果,可以看到該方法取得了不錯的效果。
論文分別在原始數據集和篩選以后的數據集上訓練了兩種模型,并用 held-out evaluation 進行評估,可以看出篩選以后的數據集訓練出了更好的關系分類模型。
?
作者又比較了使用強化學習和 greedy selection 兩種篩選樣本的方法,強化學習的效果更好一些。
論文筆記整理:周亞林,浙江大學碩士,研究方向為知識圖譜、關系抽取。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Reinforcement Learning for Relation Classification的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pdf各种处理 PDF 的实用代码:Py
- 下一篇: 机器翻译小记