论文浅尝 | 基于复杂查询图编码的知识库问答
論文筆記整理:譚亦鳴,東南大學(xué)博士生,研究方向?yàn)橹R(shí)庫(kù)問(wèn)答。
來(lái)源:EMNLP 2018
鏈接:https://www.aclweb.org/anthology/D18-1242
?
文章表示,復(fù)雜問(wèn)答所面對(duì)的問(wèn)題往往包含多種實(shí)體和關(guān)系(來(lái)自知識(shí)庫(kù)),現(xiàn)有的知識(shí)庫(kù)問(wèn)答模型在復(fù)雜問(wèn)答表現(xiàn)不足的主要原因在于無(wú)法同時(shí)表示問(wèn)題本身以及對(duì)應(yīng)的復(fù)雜查詢結(jié)構(gòu),作者提出將復(fù)雜查詢編碼為統(tǒng)一的向量表示,這種方式成功捕捉到復(fù)雜問(wèn)題中各語(yǔ)塊之間的相互作用,實(shí)驗(yàn)表明這種方法在復(fù)雜問(wèn)答上的優(yōu)異性能以及在簡(jiǎn)單問(wèn)答任務(wù)上的有效性。
?
動(dòng)機(jī)
現(xiàn)有神經(jīng)網(wǎng)絡(luò)知識(shí)庫(kù)問(wèn)答模型在簡(jiǎn)單問(wèn)答任務(wù)一般遵循以下框架:編碼-對(duì)比,主要環(huán)節(jié)包括將問(wèn)題與謂詞序列編碼為同一空間的語(yǔ)義向量,而后通過(guò)相似度計(jì)算實(shí)現(xiàn)謂詞預(yù)測(cè)。當(dāng)面對(duì)復(fù)雜問(wèn)題時(shí),直覺上需要將原始問(wèn)題的復(fù)雜查詢圖(多個(gè)謂詞序列)切分為子查詢語(yǔ)塊,再進(jìn)行相似度計(jì)算。
作者認(rèn)為這種方式存在兩個(gè)明顯的缺陷:1. 子語(yǔ)塊無(wú)法與整個(gè)問(wèn)題進(jìn)行比較;2. 模型分別對(duì)各語(yǔ)塊進(jìn)行編碼而忽略了查詢圖的整體語(yǔ)義信息
為了解決上述兩個(gè)缺陷,作者提出一種改進(jìn)的神經(jīng)網(wǎng)絡(luò)方法用于提升復(fù)雜問(wèn)答中語(yǔ)義相似計(jì)算的準(zhǔn)確性。
?
貢獻(xiàn)
1.????提出一種輕量且有效的神經(jīng)網(wǎng)絡(luò)模型用于復(fù)雜問(wèn)題解答
2.????在神經(jīng)網(wǎng)絡(luò)模型中添加問(wèn)題依存解析結(jié)果用于強(qiáng)化問(wèn)題的表示學(xué)習(xí),并證明其有效性
3.????提出一種融合方法強(qiáng)化現(xiàn)有實(shí)體鏈接工具
4.????在多個(gè)問(wèn)答數(shù)據(jù)集上驗(yàn)證了模型的有效性(包括簡(jiǎn)單問(wèn)答和復(fù)雜問(wèn)答)
?
方法
面向復(fù)雜問(wèn)題的KBQA方法包含以下部分:
1.????候選查詢圖生成
2.????計(jì)算查詢圖與問(wèn)題的語(yǔ)義相似性
3.????強(qiáng)化的實(shí)體鏈接
4.????訓(xùn)練和預(yù)測(cè)損失函數(shù)
?
候選查詢圖生成:
???????????
對(duì)于一個(gè)復(fù)雜問(wèn)題來(lái)說(shuō),查詢圖的生成過(guò)程包含以下步驟,如圖2所示:
1. Focuslinking(焦點(diǎn)鏈接)包含實(shí)體鏈接(S-MART工具實(shí)現(xiàn)),類型鏈接(抽取文本的1,2,3元文法,通過(guò)詞嵌入相似性得到排名top 10的類型結(jié)果),時(shí)間鏈接(使用日期格式匹配得到),排序鏈接(構(gòu)建最高級(jí)詞表/序數(shù)+最高級(jí)模板)等四種;
2. MainPath Generation(主要路徑生成)通過(guò)從答案節(jié)點(diǎn)出發(fā)連接到不同的焦點(diǎn)實(shí)體(通過(guò)謂詞序列進(jìn)行1跳或2跳),可以得到多個(gè)不同主要路徑;
3. Applying entity constraint(實(shí)體約束),將實(shí)體鏈接節(jié)點(diǎn)添加到路徑上;
4. Applying all constraint(其他約束),添加類型,時(shí)間,排序約束節(jié)點(diǎn)到路徑中;
?
語(yǔ)義相似度計(jì)算:
???????????
基于神經(jīng)網(wǎng)絡(luò)的復(fù)雜問(wèn)答語(yǔ)義匹配模型如圖所示,步驟概括如下:
1.????首先,原始問(wèn)題中的實(shí)體/時(shí)間均被替換為標(biāo)識(shí)符<E>/<Tm>,并且得到其依存解析結(jié)果序列,分別使用BiGRU編碼并相加融合得到其表示;
2.????為了編碼復(fù)雜查詢圖,以答案節(jié)點(diǎn)為起始,對(duì)不同謂詞路徑進(jìn)行切分,分別編碼路徑的謂詞id及其自然語(yǔ)言描述,而后相加融合;
3.????計(jì)算問(wèn)題編碼結(jié)果與查詢圖編碼結(jié)果的相似性,公式如下:
???????????
強(qiáng)化的實(shí)體鏈接:
??? 作者發(fā)現(xiàn)S-MART工具雖然在實(shí)體鏈接上具有非常優(yōu)秀的準(zhǔn)確性,但其召回率較低。為了解決這一問(wèn)題,作者提出構(gòu)建一個(gè)整合方法進(jìn)行強(qiáng)化,首先從Wikipedia中收集所有的(mention, entity) pair集,其中每一組pair包含一系列的統(tǒng)計(jì)特征(鏈接概率,letter-tri-gram jaccard 相似性,popularity of the entity in Wikipedia等等),對(duì)于集合中能被S-MART找到的部分,利用一個(gè)兩層的線性回歸模型擬合其鏈接得分,從而訓(xùn)練模型用于預(yù)測(cè)每組pair的鏈接概率,提取其得到的Top-K樣本強(qiáng)化S-MART的結(jié)果。
?
模型訓(xùn)練和預(yù)測(cè):
????? 為了從候選查詢圖中識(shí)別出最優(yōu)的結(jié)果,需要計(jì)算問(wèn)題和每個(gè)查詢圖之間的全局聯(lián)合得分(overall association score),這個(gè)得分由實(shí)體鏈接/語(yǔ)義匹配/結(jié)構(gòu)等級(jí)等特征得分加權(quán)得到,具體特征如下表所示:
??????? 訓(xùn)練過(guò)程考慮正負(fù)例共同構(gòu)成的損失函數(shù)如下:
實(shí)驗(yàn)
數(shù)據(jù)集
問(wèn)答數(shù)據(jù)集:
1.? ComplexQuestions (Bao et al., 2016);
2.? WebQuestions (Berant et al., 2013);
3.? SimpleQuestions (Bordes et al., 2015);
知識(shí)庫(kù):
Freebase dump (host with Virtuoso engine)
?
實(shí)驗(yàn)結(jié)果
對(duì)于作者提出的End2End模型,在CompQ與WebQ數(shù)據(jù)集上的結(jié)果如下,評(píng)價(jià)指標(biāo)為答案的平均F1值。可以看到,對(duì)于復(fù)雜問(wèn)題的解答性能上,該模型相對(duì)其他方法有顯著提升,在簡(jiǎn)單問(wèn)答任務(wù)上,也展現(xiàn)出較為優(yōu)秀的性能。
同時(shí),模型在SimpleQ數(shù)據(jù)上的結(jié)果也取得了不錯(cuò)的性能。
OpenKG
開放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于复杂查询图编码的知识库问答的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | Global Relati
- 下一篇: 图谱实战 | 京东商品图谱构建与实体对齐