论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码
本文內(nèi)容源自往期「論文淺嘗」,由 PaperWeekly 精選并重新排版整理,感謝 PaperWeekly。
ISWC 2018
■ 鏈接 | http://www.paperweekly.site/papers/1912
■ 源碼 | https://github.com/quyingqi/kbqa-ar-smcnn
■ 解讀 | 吳桐桐,東南大學(xué)博士生,研究方向?yàn)樽匀徽Z(yǔ)言問答
概述
隨著近年來(lái)知識(shí)庫(kù)的快速發(fā)展,基于知識(shí)庫(kù)的問答系統(tǒng)(KBQA )吸引了業(yè)界的廣泛關(guān)注。該類問答系統(tǒng)秉承先編碼再比較的設(shè)計(jì)思路,即先將問題和知識(shí)庫(kù)中的三元組聯(lián)合編碼至統(tǒng)一的向量空間,然后在該向量空間內(nèi)做問題和候選答案間的相似度計(jì)算。該類方法簡(jiǎn)單有效,可操作性比較強(qiáng),然而忽視了很多自然語(yǔ)言詞面的原始信息。
因此,本文提出了一種 Attentive RNN with Similarity Matrix based CNN(AR-SMCNN)模型,利用 RNN 和 CNN 自身的結(jié)構(gòu)特點(diǎn)分層提取有用信息。
文中使用 RNN 的序列建模本質(zhì)來(lái)捕獲語(yǔ)義級(jí)關(guān)聯(lián),并使用注意機(jī)制同時(shí)跟蹤實(shí)體和關(guān)系。同時(shí),文中使用基于 CNN 的相似矩陣和雙向池化操作建模數(shù)據(jù)間空間相關(guān)性的強(qiáng)度來(lái)計(jì)算詞語(yǔ)字面的匹配程度。
此外,文中設(shè)計(jì)了一種新的實(shí)體檢測(cè)啟發(fā)式擴(kuò)展方法,大大降低了噪聲的影響。文中的方法在準(zhǔn)確性和效率上都超越了 SimpleQuestion 基準(zhǔn)測(cè)試的當(dāng)前最好水平。
模型
模型如上圖所示,假設(shè)單關(guān)系問題可以通過(guò)用單一主題和關(guān)系論證來(lái)查詢知識(shí)庫(kù)來(lái)回答。因此,只需要元組(s,r)來(lái)匹配問題。只要s和r的預(yù)測(cè)都是正確的,就可以直接得到答案(這顯然對(duì)應(yīng)于o)。
根據(jù)上述假設(shè),問題可以通過(guò)以下兩個(gè)步驟來(lái)解決:?
1. 確定問題涉及的 Freebase 中的候選實(shí)體。給定一個(gè)問題 Q,我們需要找出實(shí)體提及(mention)X,那么名稱或別名與實(shí)體提及相同的所有實(shí)體將組成實(shí)體候選 E。現(xiàn)在 E 中的所有實(shí)體都具有相同的實(shí)體名稱,因此我們暫時(shí)無(wú)法區(qū)分他們。具體地,模型中將命名實(shí)體識(shí)別轉(zhuǎn)換成了基于 Bi-LSTM 完成的序列標(biāo)注任務(wù)。?
2. 所有與 E 中的實(shí)體相關(guān)的關(guān)系都被視為候選關(guān)系,命名為 R。我們將問題轉(zhuǎn)換為模式 P,它是通過(guò)用 <e> 替換問題中的提及而創(chuàng)建的。為了找出與問題真正相關(guān)的關(guān)系,我們將 P 與 R 中的每個(gè)關(guān)系進(jìn)行比較并對(duì)它們進(jìn)行評(píng)分,然后將得分最高的關(guān)系作為最終結(jié)果。
為了更好地進(jìn)行關(guān)系匹配,模型從單詞字面表達(dá)和語(yǔ)義兩個(gè)層面對(duì)自然語(yǔ)言進(jìn)行了建模。具體操作如下圖所示:
圖中所示的 AR-SMCNN 模型,輸入是經(jīng)替換 mention 后的問題模版(pattern)P 和候選關(guān)系 rk。
模型左邊的部分是結(jié)合了 attention 機(jī)制的 BiGRU,用于從語(yǔ)義層面進(jìn)行建模。右邊的部分是 CNN 上的相似性矩陣,用于從字面角度進(jìn)行建模。最終將特征
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pip加速+百度镜像|清华镜像
- 下一篇: 论文浅尝 | 基于神经网络的知识推理