EMNLP 2020 | 基于超边融合的文本增强知识图谱开放域问答
?PaperWeekly 原創(chuàng) ·?作者|舒意恒
學校|南京大學碩士生
研究方向|知識圖譜
論文標題:
Open Domain Question Answering based on Text Enhanced Knowledge Graph with Hyperedge Infusion
論文鏈接:
https://www.aclweb.org/anthology/2020.findings-emnlp.133
摘要
知識庫的不完整性是限制知識庫問答系統(tǒng)表現(xiàn)的關(guān)鍵因素。在知識庫外部,文本擁有比知識庫更豐富的信息,可用于彌補知識庫的不完整性,但同時文本對于計算機更難理解。
該文提出一種利用文本來增強知識庫的新的 QA 方法,模型通過文本中蘊含的語義信息來豐富實體表示,并利用圖卷積網(wǎng)絡(luò)來更新實體狀態(tài)。
另外,為了探索文本的潛在結(jié)構(gòu)信息,作者將文本視為連接實體的超邊,來補充知識庫中不完整的關(guān)系。超圖卷積網(wǎng)絡(luò)被用于超圖形式的文本上的推理。在 WebQuestionSP 基準測試上的實驗證明了該模型在不同 KB 上的有效性。
介紹
開放域問答是嘗試回答給定自然語言的事實型問題的任務(wù)。根據(jù)利用的信息源,QA 系統(tǒng)可以分為基于知識的(KBQA)和基于文本的(TBQA)。KBQA 通過結(jié)構(gòu)化的知識庫獲取答案,易于查詢和推理,但是受限于知識庫中三元組的不完整性。
TBQA 的信息源是普通文本,包含豐富的語義和潛在的結(jié)構(gòu)信息。但是,對于機器來講是難以理解的。這種互補的性質(zhì)啟發(fā)研究者融合這兩種信息,增強不完整的知識庫,并進一步提升問答系統(tǒng)的表現(xiàn)。
作者認為當前融合知識庫和文本的工作,即使取得了一定表現(xiàn),文本信息仍然沒有被充分利用,特別是文本中實體間的關(guān)系信息。圖 1 展示了當 KB 不完整時回答問題的一個例子。通過利用文本的結(jié)構(gòu)信息,該問題可以被充分回答。
該文主要介紹了一個新穎的 QA 模型,它基于文本增強的知識圖譜,通過文本的語義信息來豐富實體表示,并通過文本中的結(jié)構(gòu)信息補充知識庫中的關(guān)系。具體來說,模型首先結(jié)合文本信息,編碼知識庫中的實體,并應用圖卷積網(wǎng)絡(luò)在 KB 上進行推理。
注意,一個文檔通常包含多個實體,作者利用文本中連接實體的超邊,將非結(jié)構(gòu)化的文本轉(zhuǎn)換為結(jié)構(gòu)化的超圖,并使用超圖卷積神經(jīng)網(wǎng)絡(luò)來更新實體狀態(tài)。最終,模型預測答案。
模型
2.1 任務(wù)定義
作者遵循 Sun 等人 [1] 的設(shè)定,為每個問題構(gòu)建一個子圖。給定一個問題,相關(guān)的子知識庫通過 Personlized PageRank 算法抽取,相關(guān)的文本語料庫通過現(xiàn)有的檢索器 [2] 從維基百科中獲取。任務(wù)要求從所有的知識庫和文檔實體中提取答案。模型的概覽如圖 2 所示。
即如何查找知識庫的子圖,以及從維基百科中檢索相關(guān)文檔,并非本文的重點。
2.2 輸入編碼器
輸入編碼器包含對查詢、文本和 KB 的編碼。
查詢和文本編碼器:雙向 LSTM 網(wǎng)絡(luò)被用于分別編碼查詢和文檔,并獲取隱藏狀態(tài)。然后,通過注意力機制計算查詢和文檔的表示。
KB 編碼器:每個實體通過預訓練的知識圖譜嵌入 進行初始化。關(guān)系通過語義向量和 KG 嵌入 初始化。在具體實現(xiàn)中,作者使用的是 TransE 嵌入 [3]。
2.3 文本增強的知識圖譜上的推理
該組件利用文本信息,通過豐富實體表示和添加超邊來改進不完整的知識庫,并將 GCN 和 HGCN 用于推理。
用于實體的 GCN:為了利用包含在文本中的豐富的語義知識,作者使用一個二元矩陣,表示文檔中的實體片段,并將信息從文檔傳遞給實體,以形成感知文本的實體表示 ,然后拼接 獲得初始結(jié)點表示 。
然后,模型通過聚合實體特征來學習實體表示。
超圖文本的 HGCN:該模型將純文本視為連接文本間實體的超邊,以補充 KB 中缺乏的關(guān)系。HGCN 被用于對超圖形式的文本進行編碼,另外,兩步注意力用于捕獲不同實體和文檔的重要性。在這一層中,模型首先將實體特征轉(zhuǎn)移到相連的超邊上,形成文本表示:
然后,模型聚合文檔的信息,更新相連的實體狀態(tài)。
2.4 答案預測
在 GCN 層和 HGCN 層后,模型最終預測每個實體成為答案的概率。
實驗
數(shù)據(jù)集
作者在 WebQuestionsSP [4] 上進行實驗,它是一個多答案 QA 數(shù)據(jù)集,包含 4737 個問題。數(shù)據(jù)集的基本統(tǒng)計信息如表 1 所示。
實驗結(jié)果
實驗采用的指標是 Hits@1 和 F1,分別代表模型預測的最高答案的準確性和預測所有答案的能力。如表 2 所示,該模型在僅 KB 設(shè)置中的表現(xiàn)具有一定競爭力,在其他兩個設(shè)置中達到了最佳效果。這表明將文檔視為超邊的有效性,其增強策略可以通過引入文本中隱含的語義和結(jié)構(gòu)信息來有效地增強不完整的 KB。
結(jié)論
該文提出了一種旨在通過文本信息增強不完整知識庫的 QA 方法,充分挖掘了文本中的語義信息和潛在結(jié)構(gòu)信息,特別是將文本作為超邊來補充 KB 中不完整的關(guān)系。
該模型首先應用 GCN 對實體豐富的 KB 進行編碼,然后采用 HGCN 對超圖形式的文本進一步推理,并預測最終的答案。在 WebQuestionsSP 基準上的實驗結(jié)果證明了該模型和每個組件的有效性。
參考文獻
[1] Haitian Sun, Bhuwan Dhingra, Manzil Zaheer, Kathryn Mazaitis, Ruslan Salakhutdinov, and William W. Cohen. 2018. Open domain question answering using early fusion of knowledge bases and text.
[2] Danqi Chen, Adam Fisch, Jason Weston, and Antoine Bordes. 2017. Reading wikipedia to answer open domain questions.
[3] Antoine Bordes, Nicolas Usunier, Alberto Garc?a- Duran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multi-relational data.
[4] Wen-tau Yih, Matthew Richardson, Christopher Meek, Ming-Wei Chang, and Jina Suh. 2016. The value of semantic parse labeling for knowledge base question answering.
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的EMNLP 2020 | 基于超边融合的文本增强知识图谱开放域问答的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 车被放气了报警有用么
- 下一篇: 电动车套牌车处罚规定