论文浅尝 | 远程监督关系抽取的生成式对抗训练
動機
遠程監督關系抽取方法雖然可以使用知識庫對齊文本的方法得到大量標注數據,但是其中噪聲太多,影響模型的訓練效果。基于 bag 建模比基于句子建模能夠減少噪聲的影響,但是仍然無法克服 bag 全部是錯誤標注的情形。為了換機噪聲標注,本文提出基于對抗神經網絡的方法,嘗試從自動標注數據中清除噪聲。實驗結果表明,本文提出的方法能夠有效去除噪聲,提升遠程監督方法的抽取性能。
?
方法框架
本文提出的方法包括一個生成器和一個判別器,他們的功能是:
生成器:生成器用于將關于關系 r 的有噪聲的數據 P 劃分成兩組:表示正確標注數據的TP和表示錯誤標注數據的 FP。模型會輸出每個句子是正確標注的概率,然后依據該概率抽樣,得到 TP,剩余的作為 FP。
判別器:評價生成器生成的數據劃分的好壞。評價的方法是:首先使用標注為關系 r 的數據 P 和非 r 的數據 N 對判別器做預訓練。在評價生成器的劃分 TP FP 時,有意顛倒 TP FP 的標簽,即 TP 標記為負例,FP標記為正例,從而形成錯誤的訓練數據,使用該數據繼續訓練判別器,看看該判別器性能下降情況。判別器性能下降越多,說明顛倒標簽的TP FP越錯誤,也就是TP FP越正確。
?
對抗過程是:生成器生成數據劃分之后,判別器通過訓練過程來評價該劃分的好壞,并將結果反饋給生成器。生成器根據反饋生成更好的數據,從而更大程度地降低判別器的判別能力。
?
實驗
實驗部分分析了訓練過程中生成器和判別器的收斂情況、以及去噪效果。在去噪效果方面,從下面的 P-R 圖可以看出,在去噪后的數據上訓練得到的模型比在去噪前的數據上訓練的模型效果更好。
筆記整理:劉兵,東南大學計算機學院博士,研究方向為機器學習、自然語言處理。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
轉載須知:轉載需注明來源“OpenKG.CN”、作者及原文鏈接。如需修改標題,請注明原標題。
?
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 远程监督关系抽取的生成式对抗训练的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: freewheel现场宣讲笔试回忆篇
- 下一篇: 最新任务型对话数据集大全