论文浅尝 | 基于知识库的自然语言理解 04#
本文轉載自公眾號:知識工場。
羅康琦,上海交通大學計算機系2019屆博士,研究方向為自然語義理解和知識圖譜。2012年獲得華中科技大學軟件工程學士學位,現(xiàn)就職于京東數(shù)據(jù)科學實驗室(Data Science Lab)。他曾在AAAI,IJCAI,EMNLP等國際頂級會議上發(fā)表多篇論文。
本章的研究為基于知識庫的自動問答任務。用戶提出的問句可能具有復雜語義,其中包含了未知答案與相關實體的多種關系,因此復雜問句的回答過程充滿了挑戰(zhàn)。我們提出了面向復雜語義的知識庫問答模型,主要特點在于,我們利用神經網絡學習復雜語義結構的整體連續(xù)特征表示,從而捕捉不同語義成分之間的信息交互。
5.1 概述
基于知識庫的自動問答( KBQA )是自然語言處理中的經典應用場景。該任務以自然語言問句作為輸入,并根據(jù)已有結構化知識庫提供的信息,尋找到問句的一個或多個答案。以 Freebase,YAGO,DBPedia 為代表的結構化知識庫主要以維基百科為骨架構建而成,它們包含真實世界的廣域知識,因此常用于自動問答任務中。?
在自動問答任務中,我們關注的問題稱為 “事實類問題” ,其特點在于它們詢問的是與句子中實體相關的客觀事實,因此答案為知識庫中存在的實體、數(shù)值或時間。以一個較簡單的問題為例,“ What’s the capital of the United States? ” ,為了準確回答這個問題, 一個較為直接的方式是,首先識別句子中的相關實體并鏈接到知識庫,再將該實體與目標答案之間的自然語言關系映射為知識庫中的一個謂詞(或為詞序列),那么原問題即可轉換為具有(實體,謂詞,目標答案)三元組形式的查詢語句,例如 ( united_states, capital,? ),通過在知識庫上運行查詢語句,生成最終的結果。將已有的<問題,答案> 對作為訓練數(shù)據(jù),我們可以通過遠距離監(jiān)督( Distant Supervision )的形式學習問句和查詢語句之間的映射關系。
對于只包含簡單語義的問題,我們可以通過上述方法將其轉為知識庫上的一個基本三元組查詢,但這樣的方法并不適用于其它具有更復雜語義的問題。例如圖5–1所示,為了準確回答問題 “ What is the second longest river in United States? ” ,我們實際上需要對其進行推理,得出以下三條語義線索:1)答案實體位于美國內部;2)答案實體的類型是河流;3)在滿足前兩個條件的所有實體中,根據(jù)長度屬性進行降序排列,目標答案排在第二位。具體分析,第一條語義類似于簡單問題,描述相關實體和答案間的關聯(lián),第二條語義則描述了知識庫中的特定類型與答案的包含關系,第三條語義和序數(shù)相關,它甚至不能簡單地對應到知識庫中已有的事實三元組。由此可見,我們需要挖掘出多條不同的關系,才能準確地定位目標答案。對于這類無法通過單個三元組查詢來精確描述語義的問題,我們將它稱為“復雜問題”,也是這個章節(jié)研究的重點。
?圖5–1 一個具有復雜語義的問句示例。?
回答復雜問題的核心,在于問答系統(tǒng)是否能準確理解問句中多部分語義之間的組合關系,而不僅僅是通過搜索的方式得到答案。這條思路對應了解決自動問答的語義解析技術( Semantic Parsing ) [39,40]。對于一個問句,基于語義解析的模型會將其轉換成一棵語義解析樹,這樣的解析樹等價于知識庫中的查詢圖( Query Graph ),與關系理解中的模式圖類似,是包含未知實體知識庫子結構。本章中,“語義解析樹” ,“查詢結構” 和 “查詢圖”表示同一概念。圖5–1為問題“ What is the second longest river in United States? ” 的查詢圖,具有樹形結構。代表未知答案的節(jié)點 A 為解析樹的根節(jié)點,三個葉節(jié)點US, river,2則由問句的字面描述中抽取出來,并已鏈接到知識庫中的實體、類型、時間或是數(shù)值上。這些葉節(jié)點通過知識庫中的謂詞(序列)與答案節(jié)點連接,從而對未知答案進行限制,因此本節(jié)中也稱葉節(jié)點為問句的 “相關節(jié)點” 。此外,近年來神經網絡模型在提高自動問答系統(tǒng)的性能方面顯示出了巨大的前景,在多個不同的自動問答數(shù)據(jù)集上,通過神經網絡改善語義解析的方法成為了目前最先進的技術[42,43,139]。基于以上論述,本章所討論的工作圍繞語義解析技術結合神經網絡模型的思路,并將其擴展至復雜問題場景。?
語義解析模型可以分為兩個部分:生成候選查詢圖,以及預測最佳查詢圖。候選查詢圖的生成可以采用自底向上的方式構建[40,41],或是分階段形式,由簡到繁逐步生成所有候選[42,43]。預測最佳查詢圖,主要是基于計算問題和查詢圖之間的語義相似度,挑選出最佳查詢圖。對于回答簡單問題,目前已有的神經網絡模型主要遵循“編碼-比較”框架,即首先利用卷積神經網絡( CNN )或循環(huán)神經網絡( RNN ),將原始問題以及候選的謂詞序列分別進行編碼,形成在同一個向量空間中的兩個不同的語義向量,兩者之間的語義相似度則可以定義為向量空間中的距離度量。?
當輸入的問題具有復雜語義時,候選的查詢圖無法簡化為線性的謂詞序列,如何對復雜的查詢圖進行編碼,成為了語義相似度模型的關鍵問題。一個較為直觀的做法,是將整個查詢圖看做由答案節(jié)點到不同葉節(jié)點的路徑集合,例如圖5–1中的虛線框將查詢圖分成三個語義成分,分別對應指向不同相關實體的謂詞序列。這使得針對簡單問題的神經網絡模型可以被直接應用,即分別計算問句與不同語義成分的相似度分值,并將其聚合(平均或相加),用來代表問句與查詢圖整體的語義相似度。?
這種基于查詢圖拆分的方式具有其合理性,每個語義成分僅對應一個相關實體,類似人類對問句推理得到的平行語義線索。然而,基于此法套用簡單問題的神經網絡模型,依然存在兩個缺陷。第一個缺陷是,將獨立的語義成分與問句直接比較會帶來風險。 對于簡單問題,唯一的謂詞路徑代表了整個問句的語義,問句和查詢對應的語義向量越相近,代表它們匹配度也越高。然而復雜問題的查詢圖中,每一個獨立的路徑僅包含問句部分語義,即便是正確的謂詞路徑,與問句整體依然存在語義差距。若整體相似度由各部分相似度相加產生,則可能導致訓練陷入局部極值,即問句經編碼后的語義向量傾向于查詢圖中的某條特定謂詞路徑,而難以和其余正確的語義成分產生匹配。第二個缺陷是,分別計算相似度再簡單相加的形式會丟失信息。將查詢圖的多個謂詞序列分別進行編碼,計算相似度再合并,這樣的做法視作互相獨立的多個部分。因此這樣的模型無法理解不同語義成分之間存在的重疊、互補等語義交互。模型沒有學習整個查詢圖的語義向量,因此無法從一個全局的角度描繪復雜查詢圖所包含的語義組合。
已有的文獻 [42, 139] 嘗試規(guī)避上述兩個缺陷,它們的共同點在于從查詢結構中僅挑選一條主路徑,與問句計算語義相似度,對于查詢結構中的其它限制,則依賴于人工定義的規(guī)則特征,或引入外部非結構化文本進行額外過濾。問答模型效果得以提升,但并沒有直接應對這樣的不足。
在本章中,我們著手于利用神經網絡模型改善問句與復雜查詢圖之間語義相似度計算的效果,并嘗試解決之前論述的兩個缺陷。該模型整體基于對問句和謂詞序列的編碼,將其表示為同一個語義空間下的語義向量。我們的模型和之前方法主要區(qū)別,在于模型對各個語義成分編碼后的向量進行結合,形成對于查詢圖整體的語義向量表示。同時,為了彌補問句和語義成分之間的信息不對等,在對問句進行編碼的過程中,我們利用依存語法分析( Dependency Parsing )尋找問句中和特定謂詞序列相關的局部信號,以此作為對問句字面信息的補充,使模型能更好地將問句和不同的語義成分對齊。?
本章的貢獻可以總結為以下四個部分:?
1. 提出了一個輕量化和有效的神經網絡模型來解決具有復雜語義的自動問答任務。 據(jù)我們所知,這是第一次嘗試在模型中對復雜查詢圖的完整語義進行明確編碼;
2. 通過融入依存語法分析信息來豐富模型中問句的語義表示,并進行模型分析以驗證其有效性;?
3. 通過一種集成的方法,對已有的實體鏈接工具進行改良,豐富從問句中獲得的候選實體,并進一步提升任務的整體效果;
4. 在多個自動問答數(shù)據(jù)集上進行實驗,在由復雜問題組成的 ComplexQuestions 數(shù)據(jù)集中,模型的效果超過了已有的方法,在主要有簡單問題組成的 WebQuestions 和 SimpleQuestions 數(shù)據(jù)集中,模型依然具有很強的競爭力。
5.2 相關工作?
基于知識庫的自動問答是最近幾年的熱門研究。最主要的用于解決自動問答的方法可以分為兩類:基于信息抽取( Information Extraction )和基于語義解析( Semantic Parsing )。
基于信息抽取的問答模型首先通過實體鏈接尋找句子中的相關實體,將它們在知識庫上鄰近的實體抽取出作為候選答案。對于候選答案的排序,則依賴以候選答案為中心的知識庫子圖與問句之間的關聯(lián)特征。早期的文獻 [35] 利用特征工程進行訓練,而后一系列深度學習模型[37,95,96]則通過神經網絡學習答案在類型、謂詞、上下文等多個不同維度與問句的語義關聯(lián)程度,并取得了明顯的效果提升?;谡Z義解析的系統(tǒng)則會先生成帶有復雜結構的候選查詢圖,將查詢圖翻譯為能在運行在知識庫上的結構化查詢語句,得到最終的答案。早期的語義解析系統(tǒng)[38,39]根據(jù) PCCG 文法生成和具體知識庫無關的中間表達形式,通常以 λ 算子的形式呈現(xiàn),再將 λ 算子中的謂詞和常量,映射到知識庫中的具體謂詞和實體。Liang 提出的 λ-DCS [89]是對 PCCG 的簡化,語義解析樹依然為自底向上的方式,但 λ 表達式由簡單的相交、合并等規(guī)則生成,大大降低了解析樹生成的復雜程度。最近的研究中,分階段候選差選圖的生成[42,43]已證明了其有效性, 它利用深度搜索,通過由簡到繁逐步擴展查詢圖,不需要定義操作,也擺脫了自底向上生成過程中,組合順序與單詞順序相關的限制。??
隨著深度學習的發(fā)展,神經網絡模型被廣泛使用于知識庫上的自動問答任務,并且展示出了優(yōu)秀的結果。這些方式的基本思路是利用神經網絡的對特征表示的學習能力,將問句轉換為連續(xù)空間上的向量表示,同時再將查詢結構(或答案實體)映射到同一語義空間,并定義問句和答案的語義相似度,根據(jù)<問題,答案>對進行學習,預測正確的查詢。處理簡單語義的神經網絡問答模型具有較多的變種,例如文獻[48,92]使用了字符級別的循環(huán)神經網絡以及注意力機制,對謂詞序列和相關實體均進行相似度計算, 對于未在訓練數(shù)據(jù)中觀察到的單詞,模型依然具有魯棒性;Bordes 等人[46]利用知識庫向量學習,關注候選答案的在知識庫中的類型、相連謂詞、相鄰實體等信息,學習它們在知識庫上的向量表示,并以此對候選答案進行編碼;Yu 等人[49]引入了多層循環(huán)神經網絡,并通過殘差連接的方式,同時捕捉問句在詞級別和整體級別與特定謂詞序列的語義匹配;Qu 等人[93]提出了 AR-SMCNN 模型,除了利用循環(huán)神經網絡捕捉問句和謂詞序列在語義上的相關性,還利用了類似與卷積神經網絡處理二維圖像的方式,在詞級別相似度矩陣中尋找紋理,學習問句和謂詞序列的另一種相似度量。?
對于利用神經網絡回答復雜語義的問題,已有的工作進行了不少嘗試,但并沒有嘗試學習查詢圖整體的語義表示。例如文獻[42, 139]側重于用神經網絡計算問句和查詢圖中主路徑的匹配關系,相當于退化至簡單語義場景。對于查詢圖中,除去主路徑的其余語義成分,Yih 等人[42]利用人工定義特征捕捉少數(shù)特殊語義,但基于特征工程的方法不具有較好的擴展性;Xu 等人[139]則挖掘非結構化文本中的上下文信息,對滿足主路徑的候選答案進行過濾,這種方式被視為模型計算之后的處理,而并沒有從本質上解決問題。Bao 等人[43]利用每個相關實體在問句中的上下文窗口表示局部語義,并和查詢圖中的對應的謂詞路徑進行相似度匹配計算,但謂詞路徑之間仍缺少關聯(lián)。?
此外,依存語法分析可以描述一個句子中,詞匯間的遠距離依賴關系,考慮到它與查詢圖的結構較為相似,因此候選查詢結構的生成可以基于依存分析樹進行轉換,語義匹配過程也更多利用了結構上的相似關系,例如文獻[90, 91]。我們的模型同樣使用了依存語法分析,但將其視為語義特征的信息來源,而并非直接決定候選查詢圖的形狀,因此我們可以生成更靈活的查詢圖。
5.3 我們的方法?
本節(jié)將具體闡述復雜語義下的自動問答模型。主要包括四個部分:1.基于分階段的方式生成所有候選查詢圖; 2. 通過神經網絡定義問句和查詢圖整體之間的語義相似度; 3.基于集成的方式對已有的實體鏈接結果進行擴充;4.具體的訓練以及測試流程。
5.3.1 分階段查詢圖生成
本節(jié)中主要闡述分階段候選查詢圖的生成過程。與已有的工作比較,例如文獻[43],我們對候選生成的策略進行了優(yōu)化,主要利用了查詢圖中對答案類型的隱含限制,以及知識庫中用來維護和時間段事實相關的特殊設計。本文中,我們主要考慮四種不同的語義限制,分別是實體、類型、時間、順序限制。例如在問句中,實體限制描述了答案與某已知實體的聯(lián)系,順序限制描述了答案按某種方式排序所具有的序號。以圖5–2為例,我們通過問句 “ who is the youngest president of the united states after 2002? ” 闡述候選圖的具體生成過程,該問句同時包含了上述四種語義限制。為了方便描述,本節(jié)假設 Freebase 為問答系統(tǒng)所使用的知識庫。?
階段一:相關節(jié)點鏈接。該步驟尋找問句中代表相關實體、類型、時間、順序的詞匯或短語,并鏈接到知識庫上。相關節(jié)點作為候選查詢圖的葉節(jié)點,是不同類別語義限制的起點。圖5–2(a) 列出了可能的 < 短語,葉節(jié)點 > 對,同一個短語可以對應到多個候選葉節(jié)點。不同語義限制類別(實體、類型、時間、順序)的葉節(jié)點有著各自的鏈接方式。對于實體鏈接,我們使用了已有的鏈接工具 S-MART [54],在多個已有的自動問答研究均被使用。S-MART 對所有可能的 < 短語,實體 > 進行打分,并保留了至多前十組結果。對于類型鏈接,考慮到知識庫中不同的類型數(shù)量有限,我們枚舉問句中所有長度不超過 3 的短語,并根據(jù)預訓練的詞向量,計算不同短語和類型之間的余弦相似度,同樣保留至多前十組結果。對于時間鏈接,我們通過正則表達式識別句中出現(xiàn)的所有年份。對于順序鏈接,我們利用預先定義的形容詞最高級詞匯列表(例如 largest,highest, latest 等描述客觀事實的最高級詞匯),并在問句中匹配最高級詞匯,或 “序數(shù)詞 + 最高級”的詞組,如“ second longest ”。對應的葉節(jié)點表示順序值,若匹配到序數(shù)詞,則順序值為序數(shù)詞對應的數(shù)字,否則為 1。如圖5–2(a)所示,<“ youngest ”, 1> 為生成的唯一順序鏈接。?
圖5–2 分階段候選圖生成的具體例子。?
階段二:生成主路徑。主路徑是一個查詢圖的基礎,代表著問句最主要的語義??紤]到幾乎所有的事實類問題都和問句中至少一個實體相關,因此它被定義為從答案出發(fā),通過謂詞序列連接至某個實體節(jié)點的路徑,等同于一個簡單問題的查詢圖。我們枚舉所有被鏈接的實體,以及它們在知識庫中相連的合法謂詞序列,即可生成一系列候選主路徑。謂詞序列的長度為1或2,后者實質是描述了多元關系中某兩個實體的關聯(lián)。圖5–2(b) 顯示出了某一個主路徑,其中答案節(jié)點 A 以及中間節(jié)點 v1 都是變量節(jié)點。對于后續(xù)更復雜的語義限制,在圖中均表示為由主路徑上某變量節(jié)點出發(fā),指向特定的葉節(jié)點的謂詞序列。?
階段三:添加額外實體語義限制。這個步驟的目的是在主路徑之上擴充與實體相關的語義限制。受到4.2.4.1節(jié)中復雜模式圖生成的啟發(fā),我們同樣采用深度優(yōu)先搜索的方式,由簡到繁進行查詢圖生成。對搜索空間中的每一個查詢圖,我們嘗試單個謂詞連接不同的變量節(jié)點與實體節(jié)點,構建出具有不同復雜程度的查詢圖。如圖5–2(c)所示,在主路徑上添加的實體語義限制為(??)。基于深度優(yōu)先搜索的優(yōu)勢在于查詢圖中的實體數(shù)量不受限,和基于模板的候選生成方法相比,具有更高的覆蓋率, 同時搜索過程中可以通過剪枝策略排除無法生成答案的查詢圖,提高候選生成速度。?
階段四:添加類型限制。類型限制只能和答案節(jié)點關聯(lián),利用知識庫中的 IsA 謂詞連接某個具體的相關類型節(jié)點。在該步驟中,我們對已有方法進行了改進:通過答案節(jié)點直接連接的謂詞,推測出其具有的隱含類型,以此對類型限制進行過濾。如圖5–2(c)所示,與答案直接相連的謂詞為??,根據(jù)知識庫對謂詞的定義,其主語類型為??,因此成為答案的隱含類型。因此,我們可以過濾與隱含類型無關聯(lián)的相關類型節(jié)點,從而防止語義偏離,并提升候選差選圖的生成速度。具體而言,為了定義兩個類型是否相關,我們采用了4.1.2.3節(jié)中通過松弛類型包含構建的 Freebase 類型層次關系。若某相關類型不包含任意一個隱含類型,或不被任意一個隱含類型包含,我們則將其視為無關類型,不用于候選生成。?
階段五:生成時間、順序限制。 完成類型限制的添加后,主路徑上所有變量節(jié)點的類型(顯式類型限制以及隱含類型)都已確定,因此我們可以枚舉隸屬于這些類型的特定謂詞,完成時間和順序限制的添加。如圖5–2(d)所示,時間限制通過長度為2的謂詞序列表示,例如序列??,其中前一個謂詞在知識庫中指向時間,后一個謂詞為虛擬謂詞,指明了和特定時間比較的方向,由問句中位于時間前的介詞進行確定,例 如“ before ”,“ after ”以及“ in ”。類似地,順序限制同樣由長度為2的謂詞序列表示,例如序列??,前者在知識庫中指向整數(shù)、浮點數(shù)或時間,后一個謂詞表示降序排列。我們并不能從問句中獲取直接的信號確定排序方向,因此生成具體的排序限制時,兩種方向都進行枚舉。值得注意的是,對于時間限制,我們的方法進行了針對性優(yōu)化。已有的文獻 [42,43]僅考慮使用一條謂詞與時間相連,我們的改進在于使用了知識庫中存在的成對時間謂詞,來描述更加準確的時間限制。Freebase 中,成對時間謂詞用來描述和時間段相關的事實,例如圖5–2(d) 中的 from 謂詞,存在謂詞 to 與之對應,兩者分別為起始時間謂詞和終止時間謂詞。我們通過簡單的名稱匹配方式,收集了知識庫中356組成對謂詞,對于時間比較為 “ in ” 的形式,例如句中出現(xiàn) “ in 2002 ” ,我們在圖中使用起始時間謂詞進行連接,但生成 SPARQL 查詢語句時,起始和終止謂詞均會被使用,從而確保問句中的相關時間能夠限制在一個時間段內,而不是僅僅等同于起始或終止時間點。?
所有階段結束后,我們將所有生成查詢圖轉換為 SPARQL 查詢語句,并在Freebase 中查詢最終答案。圖5–2(d)中的查詢圖對應的完整 SPARQL 查詢語句對應如下:?
代碼5–1 SPARQL 查詢語句示例
最后,我們舍棄掉沒有結果的查詢圖,以及使用的相關實體對應詞組出現(xiàn)重疊的查詢圖。和已有系統(tǒng)相比,本節(jié)的候選圖生成使用了更少的人工規(guī)則,并在類型限制和時間限制上進行了改進,加快生成速度的同時,描述更加準確的語義限制。
5.3.2 基于神經網絡的語義匹配模型?
本節(jié)介紹的語義匹配模型如圖5–3所示。作為預處理部分,查詢圖中使用的實體(或時間)節(jié)點對應于問句中的短語被替換為單詞? E ?(或????),這樣問句的語義將不會被具體的實體或年份所干擾。為了對查詢圖整體進行編碼,我們首先將其分拆為從答案節(jié)點出發(fā),指向不同葉節(jié)點的謂詞路徑,也稱為語義成分。同樣為了去除具體的實體、時間、順序值對語義的干擾,謂詞序列不包括葉節(jié)點的信息,類型限制是一個特例,作為模型輸入的謂詞序列為[ IsA, river ],類型節(jié)點的信息被包含在內。接下來將逐個介紹對問句和謂詞序列的編碼,基于查詢圖整體語義表示計算相似度的方式。
5.3.2.1 語義成分編碼
為了對語義成分 p 進行編碼,模型對主要利用謂詞序列的名字信息,以及每個謂詞在知識庫中的編號信息。以圖5–3為例,查詢圖的第一個語義成分僅由一個謂詞構成,對應的編號序列為 [ contained_by ]。將序列中的每個謂詞在知識庫中顯示的名字相連,即可的到謂詞名字序列,即[“ contained ”,“ by ”].
圖5–3 語義匹配模型的整體結構
對于語義成分的謂詞名字序列??,我們首先通過詞向量矩陣??∈??將原始序列變?yōu)樵~向量 , 其中 |??| 表示自然語言詞匯數(shù)量, d 表示詞向量維度。接著我們采用詞平均的方式計算整個名字序列的語義向量,即??. 對于謂詞編號序列??,我們將整個序列視為整體,并根據(jù)序列級別的向量矩陣??∈??,直接轉換為語義向量表示,其中??代表訓練數(shù)據(jù)中不同的編號序列數(shù)量。之所以將編號序列看做整體,而不使用編號的向量平均或循環(huán)神經層表示語義,主要原因有以下三點:1)根據(jù)候選圖生成方式,每個語義成分的謂詞編號序列長度不超過3;2)通常情況下,對單個謂詞序列進行打亂重排操作,新的序列是非法的,不會出現(xiàn)在其它查詢圖中;3)不同的謂詞序列數(shù)量約等于知識庫中不同的謂詞數(shù)量,不帶來成倍增長。將名字序列和編號序列的向量進行按位置相加,我們得到了單個謂詞序列的向量表示,?.
5.3.2.2 問句編碼?
對問句的編碼需要考慮全局和局部兩個層次,其目的是捕捉問句中與某特定語義成分 p 相關的語義信息。對問句全局語義的編碼,輸入信息為問句詞序列。我們利用同一 個詞向量矩陣 將詞序列向量化,得到??。將該輸入通過雙向 GRU 層[140],并將前向序列和后向序列的最后一個隱藏狀態(tài)進行拼接,作為整個詞序列的語義向量:?.?
為了對表示問句的局部語義,核心在于提取與特定語義成分對應的信息。我們在模型中利用依存語法分析,尋找答案與語義成分中的實體之間的依賴關系。由于在問句中,wh- 詞用于指示答案,因此我們抽取依存語法樹中,連接 wh- 詞和實體所對應短語的路徑,該路徑有且僅有一條。與[139]類似,在依存語法樹上的一條路徑包含了詞,以及詞之間帶有方向的依存弧。例如圖5–3中的句子,答案 “ what ” 與實體 “ United States ” 之 間的依存路徑為??。我們使用另一個具有不同參數(shù)的雙向 GRU 層,對依存路徑進行編碼,生成向量表示??,其中包含了語法層面的以及與語義成分 p 直接相關的特征。最后,我們同樣將句子在兩種粒度上的向量進行按位置相加,得到整個問句對應特定語義成分的向量表示,?.
5.3.2.3 語義合并
給定具有 N 個語義成分的查詢圖??, 每個語義成分已經被投影至同一個連續(xù)語義空間上的不同向量,體現(xiàn)了不同方面的隱藏特征。受卷積神經網絡應用于二維圖像處理所啟發(fā),圖像整體的特征表示取決于是否存在某些局部區(qū)域,其樣式與對應隱藏特征相吻合,而忽略這些局部區(qū)域的相對位置??紤]到復雜查詢圖內部的多個語義成分是并列的,互相之間并無次序之分,因此,模型對語義成分的向量表示進行最大池化( Max Pooling ),獲得整個查詢圖的組合語義表示。相應地,針對每個語義成分所對應的問句語義表示,我們同樣進行最大池化操作,將多個語義向量合并為問句的整體表示。最后,我們利用余弦相似度計算問句和整個查詢圖之間的語義相似程度:
(5-1)
基于以上框架,本節(jié)提出的的語義相似度模型能盡可能使問句與單個語義成分具有可比性,同時捕獲查詢圖不同部分之間的互補語義特征。
5.3.3 實體鏈接擴充?
S-MART 實體鏈接器[54]在本模型中類似于一個黑箱,不具有操控性,并且生成的結果傾向于高準確率,而犧牲了一定召回率。為了在實體鏈接步驟尋找一個更好的準確率與召回率間的平衡,我們提出了一個基于集成的方式對實體鏈接結果進行擴充。首先,我們通過維基百科建立一個大的 < 詞組,實體 > 對應表,每個實體和如下詞組相對應:1) 實體頁面的標題;2) 實體所在的重定向、消歧義頁面標題;3) 實體在其它實體頁面提及的鏈接文字,即錨文本( Anchor Text )。之后,每一對 < 詞組,實體 > 都關聯(lián)上一組統(tǒng)計特征,包括實體的鏈接概率、詞級別的 Jaccard 相似度、三連字符級別的 Jaccard 相似度、實體在維基百科中的熱門度、實體在知識庫中的熱門度。最終,我們使用一個雙層全連接的線性回歸模型,將所有出現(xiàn)在 S-MART 鏈接結果中的詞組實體對作為模型訓練數(shù)據(jù),用來擬合每一對的 S-MART 鏈接分值。模型訓練完畢后,詞組實體對應表中的每一對條目都將計算出一個虛擬的鏈接分值。對于每個問題,我們挑選出不在 S-MART 已有結果中,且分數(shù)排在前 K 位的條目,作為實體鏈接結果的擴充,閾值 K 為模型超參數(shù)。
5.3.4 問答系統(tǒng)整體訓練及預測?
為了從一系列候選中預測最佳查詢圖,我們用 S( q, G ) 表示問句 q 和查詢圖 G 之間的整體關聯(lián)分值。前一小節(jié)的語義匹配模型關注謂詞路徑層面的相似性,而整體關聯(lián)分值還涉及到更多維度的特征,例如實體鏈接的置信度,以及查詢圖本身的結構特征。所以 S( q, G ) 為一系列實體鏈接、語義匹配、查詢結構層面上的特征進行加權求和而得。表5–1為完整的特征列表,實體鏈接特征為鏈接分數(shù)之和,以及每個鏈接的來源( S-MART 或鏈接擴展);語義匹配特征即神經網絡的輸出??;查詢圖結構特征為不同類別限制的數(shù)量、主路徑長度以及輸出的最終答案個數(shù)。我們利用最大間隔損失函數(shù)進行模型訓練,盡可能較好查詢圖??和較差查詢圖??之間的分數(shù)差距:?
(5-2)
由于問答數(shù)據(jù)集通常只包含正確答案,而不標注查詢圖,我們依據(jù)查詢圖生成的答案對應的??分數(shù)區(qū)分正負樣本。對于每一個 分數(shù)高于一定閾值(設定為 0.1)的查詢圖, 我們將其視為正樣本 ,并從候選集中隨機選擇最多 20 個具有更低 的查詢圖作為 ,組成不同的樣本對。
表5–1 預測最佳查詢圖所使用的特征。?
5.4 實驗?
本節(jié)主要介紹我們所使用的自動問答數(shù)據(jù)集,以及用于比較的已有問答模型。具體實驗包括在多個數(shù)據(jù)集上的端到端測試,以及一系列切除測試,用來分析方法中不同模塊的重要性。
5.4.1 實驗設置?
自動問答數(shù)據(jù)集:我們在實驗中使用了三個開放領域的數(shù)據(jù)集,分別為 ComplexQuestions [43], WebQuestions [40] 以及SimpleQuestions [47],對應縮寫為 CompQ ,WebQ 和 SimpQ 。CompQ 數(shù)據(jù)集來源于? Bing 搜索引擎日志,一共包含 2,100個具有復雜語義的問題,以及人工標注的答案,前1,300個問句為訓練集,后800為測試集。WebQ 數(shù)據(jù)集收集了 5,810 個通過 Google Suggest API 抓取的問題,以及對應的人工標注答案,約有 15% 的問句為復雜語義,同樣數(shù)據(jù)集被分為 3,778 句訓練集,以及 2,032 句測試集。 SimpQ 一共包含 108,442 個具有簡單語義的問句以及標注的答案,答案形式為<相關實體,謂詞>對,我們主要利用該數(shù)據(jù)集進行補充實驗,驗證回答復雜問題的模型在簡單語義場景中的性能。對于其它自動問答的數(shù)據(jù)集,例如 QALD,由于測試集數(shù)量過小, 我們沒有在這之上進行實驗。
知識庫:對于在 CompQ 和 WebQ 上進行的實驗,我們跟隨文獻 [40, 139]的實驗設置,使用完整版本的 Freebase 作為知識庫,共包含約 46,000,000 個不同實體,以及 5,323 種不同謂詞。同時通過開源圖數(shù)據(jù)庫Virtuoso 對 Freebase 進行訪問與查詢。對于 SimpQ 上進行的實驗,我們使用數(shù)據(jù)集中提供的 FB2M 知識庫,它是 Freebase 的一個 子集,包含大約 2,000,000 個實體和 10,000,000 個事實三元組。?
模型實現(xiàn)及調參細節(jié): 對本節(jié)中的所有實驗,我們使用基于 GloVe[59] 預訓練的詞向量作為模型詞向量矩陣的初始化。詞向量維度,以及雙向 GRU 層的隱藏狀態(tài)維度均設為300。損失函數(shù)中的 λ 的調參范圍為{ 0.1,0.2,0.5 },實體鏈接優(yōu)化的集成閾值 K 范圍為{ 1,2,3,5,10,+INF },訓練批量大小 B 范圍為{ 16,32,64 }.
5.4.2 端對端實驗比較
我們首先對 WebQ 和 CompQ 數(shù)據(jù)集進行端到端測試。實驗所使用的評價指標為所有測試問題的平均 分數(shù)。Berant 等人[40]提供的官方評測代碼通過預測答案和標準答案的完全字面匹配計算每個問題的 分數(shù),對于 CompQ 數(shù)據(jù)集,其中標注的實體名稱和 Freebase 內實體名稱存在大小寫不一致的情況,因此我們參照 Bao 等人[43]的做法,計算 分數(shù)時忽略大小寫。通過對驗證集進行調參,WebQ 數(shù)據(jù)集的實驗參數(shù)為 λ=0.5,B=32,K=3,CompQ 數(shù)據(jù)集的參數(shù)為 λ=0.5,B=32,K=5。?
表5–2列出了在兩個數(shù)據(jù)集上的具體實驗結果。Yih 等人[42]在 CompQ 上的實驗結果基于 Bao 等人[43]對其模型的實現(xiàn)。在 CompQ 數(shù)據(jù)集上,我們提出的神經網絡模型超過了其它已有方法,將平均 分數(shù)提升了1.9,而在 WebQ 數(shù)據(jù)集上,與大量已有工作進行對比,我們的模型排在第二位,文獻[141]基于記憶網絡模型,成為分數(shù)最高的系統(tǒng),其方法并不基于語義解析,無法直觀解釋一個答案是基于怎樣的語義而生成,并且問答過程涉及的隱含語義與單一謂詞路徑相似,難以應對類型、時間、順序等語義限制。需要指出的是,Xu 等人[139]利用維基百科的非結構化文本進行候選答案的驗證,過濾掉滿足主路徑語義,但不匹配剩余語義的答案。由于此方法引入了大量由人工社區(qū)提供的額外知識,它達到了一個略高于我們方法的分數(shù)(53.3),但將此步驟去掉之后,模型分數(shù)跌落至47.0。此外,文獻[42, 43]額外使用了 ClueWeb 數(shù)據(jù)集[142]學習謂詞與自然語言詞組之間的語義匹配關系。根據(jù) Yih 等人公布的比較結果,把這一部分信息移除之后,WebQ 數(shù)據(jù)集上的 分數(shù)將下降了約0.9。此外,結果顯示,擴充實體鏈接可以進一步提升問答系統(tǒng)的整體性能,在兩個數(shù)據(jù)集上都獲得了大約0.8的提升,是對語義匹配模型的一個良好補充。我們認為,和其它使用了 S-MART 鏈接工具的問答系統(tǒng)相比,我們的結果可以與之直接比較,這是因為 S-MART 的算法同樣基于維基百科的半結構化信息進行學習,例如重定向鏈接、消歧義頁面、錨文本等信息,實體鏈接擴充的步驟沒有并沒有引入額外的知識,因此可以直接比較。
表5–2 CompQ 和 WebQ 數(shù)據(jù)集上的實驗結果,評價指標為平均 分數(shù)?
針對語義匹配本身,我們在 SimpQ 數(shù)據(jù)集上進行了測試。由于 SimpQ 提供了標注的相關實體,我們可以消除實體鏈接步驟帶來的差錯,單獨衡量語義匹配的性能。我們根據(jù)相關實體的名字,倒推出它在問句中對應的短語,將其替換為< E >之后,預測問句所表達的知識庫謂詞,使用準確率作為評價指標。表5–3列出了具體的實驗結果。相關文獻主要針對簡單問題,嘗試了許多模型變種,例如文獻[93]的準確率最高,該模型利用循環(huán)神經網絡對問句語義進行建模,同時利用卷積神經網絡,從問句和謂詞名稱的詞級別二維相似度矩陣中學習隱藏匹配樣式。文獻[49]使用了雙層雙向 LSTM 網絡對問句進行編碼,并在兩層中使用殘差連接方式捕捉不同粒度的語義。我們的語義匹配準確率略低一些,考慮到重點在于多個語義成分的組合,而不是回答簡單問題,我們的模型更加輕量,同時93.1%的準確率也確保了模型的有效性。
表5–3 SimpQ 數(shù)據(jù)集上的語義匹配測試結果?
5.4.3 模型分析?
本節(jié)主要對模型的各個主要進行分析測試,并討論模型回答錯誤的一些例子。
5.4.3.1 謂詞路徑表示
我們改變模型對謂詞路徑的編碼方式,并在 CompQ 和 WebQ 上進行分析測試。首先對于謂詞名字序列,我們嘗試使用雙向 GRU 層(和問句編碼部分結構一致,但不共享參數(shù))拼接隱藏狀態(tài)的方式替代詞向量平均。對于謂詞編號序列,我們將對路徑整體編碼方式改為謂詞向量的平均。
實驗結果如表5–4所示。觀察發(fā)現(xiàn),前三行的基線方法移除了名字序列或編號序列, 在兩個數(shù)據(jù)集上的 分數(shù)明顯低于后三行的方法。這說明了謂詞的名字序列和編號序列所提供的語義可以互相補充。另一方面,對比最后兩行實驗,在 CompQ 數(shù)據(jù)集上,對名字序列使用詞向量平均要優(yōu)于使用雙向 GRU,而在 WebQ 上,這個差距變得更小,我們認為原因主要來自于訓練數(shù)據(jù)量的區(qū)別,WebQ 的訓練集大小約為 CompQ 的三倍, 因此可以支持更復雜的模型。
表5–4 對謂詞表示的分析結果。?
5.4.3.2 問句表示及語義組合
為了說明語義組合的有效性,我們建立一個基線模型:不使用公式5–2對應的最大池化操作,替代方式是分別計算每個問句表示和每個語義成分之間的相似度,并將各部分相似度分值相加,作為查詢圖與問句的整體相似度:??。對于問句的編碼方式,我們進行一系列比對實驗,觀察不使用字面序列或依存語法路徑對整體性能帶來的影響。?
表5–5顯示了在 CompQ 和 WebQ 上的具體比較結果。相比僅使用問句字面信息的模型,當依存語法分析提供的路徑信息被使用后,問答系統(tǒng)整體性能平均提升了0.42。 在隱藏語義的角度,答案和相關實體之間的依存語法路徑主要包含了詞之間的語法依賴,以及每個詞的功能化特征,是對整個問句序列信息的良好補充。然而,如果對問句編碼只使用依存語法信息, 分數(shù)會大幅度下降約2.17。對于具有特殊語法結構的問題,如果僅關注疑問詞和實體短語間的路徑,會使得模型丟失句中表達語義的關鍵詞, 例如以下兩例:“ who did draco malloy end up marrying ”以及“who did the philippines gain independence from ” ,其中相關實體用斜體標出,代表語義的關鍵詞為粗體。經過觀察發(fā)現(xiàn),WebQ 中大約有 5% 的問句具有類似的結構,在丟失關鍵語義信息后很難預測出正確的查詢圖。
表5–5 問句表示和語義組合的分析測試。
語義組合的比較結果顯示,模型中使用的最大池化操作要一致優(yōu)于對應的基線方法。在 WebQ 上的提升要低于 CompQ ,主要原因是 WebQ 中約85%的問句依然是簡單語義形式,無法體現(xiàn)語義組合的區(qū)別。移除依存語法信息和池化操作的模型可以視為一個基礎的利用深度學習改善語義解析的問答模型。在復雜語義場景中,局部信息和語義組合的引入,兩者結合使得 CompQ 數(shù)據(jù)集上效果提升1.28。
我們通過以下例子,進一步闡述模型中語義組合帶來的優(yōu)勢。給定問句 “ who is gimli’s father in the hobbit ”,由于“ gimli ”的實體鏈接結果中既存在自然人,也存在名字一樣的虛擬角色,我們主要關注下面兩個可能代表真實語義的查詢圖:??
1.??
2.
兩個查詢圖涉及到三個不同的語義成分,如果獨立觀察其中每一個語義成分,謂詞 children 與問句整體的匹配程度最高,因為 “ father ” 一詞包含了很強的語義信息,訓練數(shù)據(jù)中也包含較多 “ ’s father” 和 children 的關聯(lián),因此它們的關聯(lián)特征容易被學習。 相比之下,fictional_children 過于生僻,而 appear_in 與“ father ”無關聯(lián),這兩個語義成分的相似度遠不如 children,因此基線模型認為第一個查詢圖更加正確。而我們的模型中,不同語義成分的隱藏特征通過池化方式匯集起來,分別將各自突出的隱藏語義傳遞出去,構成查詢圖整體的語義向量。與單獨的 children 語義向量相比,查詢圖整體語義能兼顧與“ ’s father ”以及“ in the hobbit ”匹配,因此模型能正確預測第二個查詢圖為答案。
5.4.3.3 錯誤分析?
我們從 CompQ 數(shù)據(jù)集中完全回答錯誤的問題中隨機挑選100個例子進行分析,并歸納出下列幾類錯誤原因。?
主路徑錯誤(10%):模型完全沒有理解問句語義,哪怕最主要的語義也沒有預測出來。這類錯誤對應的問題通常較難回答,例如“ What native american sports heroes earning two gold medals in the 1912 Olympics ”。?
語義限制錯誤(42%):模型預測的查詢圖中包含正確的主路徑,但其余語義限制存在偏差。比較典型的一類限制是隱含時間限制,例如問句 “ Who was US president when Traicho Kostov was teenager ” 無法準確回答,因為 “ when Traicho Kostov was teenager ” 暗示了時間限制,受限于候選生成方法,這類限制無法被識別。?
實體鏈接錯誤(16%):這類錯誤的主要原因是問句中的一些實體詞組具有高度歧義。例如問句 “ What character did Robert Pattinson play in Harry Potter ” ,而 “ Harry Potter ” 可以對應7部不同的電影,因此很難猜測問句中指的是哪一部。?
雜項 (32%):包含了一些較明顯的答案標注錯誤,以及問題本身語義不明確或不合邏輯。例如問句 “ Where is Byron Nelson 2012 ” ,根據(jù)標注答案可以幫助確定問句中 “ Byron Nelson ”的具體所指,然而此人已于2006年去世,因此該問題的真實意圖難以捉摸,或許提問者想問的是他的逝世地點,或葬于何處。
5.5 小結?
本章討論了面向復雜語義的知識庫自動問答任務,其難點在于復雜問句中包含多個關系,并不能轉換為知識庫上的簡單三元組查詢。我們沿用關系理解中的模式圖思路,提出了基于復雜查詢圖的語義解析模型,以解決復雜問句的語義結構表示和語義匹配計算。據(jù)我們所知,我們的工作是首次通過神經網絡模型學習查詢圖整體的連續(xù)語義表示,相對于已有工作,整體語義表示通過池化操作,聚合查詢圖中不同語義成分的特征,以捕捉其中的語義相近、互補等交互。與此同時,我們研究了提升問答效果的多種 不同的方法,主要包括候選查詢圖生成的時間、類型限制優(yōu)化,引入依存語法信息捕捉與特定語義成分的局部匹配,以及利用集成方法擴充實體鏈接結果,提高候選查詢圖的召回率。我們在三個廣泛使用的問答數(shù)據(jù)集上進行了測試,在全部由復雜問題組成的 ComplexQuestions 中,我們提出的模型取得了目前最好的效果,并且顯著優(yōu)于已有模型; 在主要由簡單問題構成的 WebQuestions ,以及全部為簡單問題的 SimpleQuetions 中,基于復雜查詢圖的模型依然擁有競爭力,領先于絕大部分已有模型,同時語義匹配模型具有輕量級、參數(shù)少等優(yōu)勢,證明了其有效性。
后續(xù)的研究主要包括了對更多種語義限制的挖掘,例如隱含時間限制,即問句中不出現(xiàn)具體的時間,而是以從句形式描述與該時間相關的事件。一些研究工作對問句進行從句提取的方式,先回答從句部分,再將時間答案代回主句進行第二次回答。為了減少對問句進行特殊處理的步驟,我們會研究如何將隱含時間限制的挖掘納入現(xiàn)有的查詢圖框架中,進一步提升問答模型效果和適用性。?
6.1 論文工作總結與主要貢獻
自然語言理解是人工智能的重要分支。如何讓機器理解人類語言的含義,是一系列任務的研究重點,尤其是對于問答系統(tǒng)、閱讀理解、多輪對話等下游任務,它們都依賴于機器對語義的充分認知。伴隨著互聯(lián)網中海量結構化信息積累,知識庫的誕生和相關技術的發(fā)展給自然語言理解提供了一種有效的解決方案,即以知識庫中的實體、類型和謂詞為載體,描述自然語言中的實體、實體間的關系,甚至蘊含多個關系的復雜句子。 在此背景下,本文對基于知識庫的自然語言理解分為三個遞進的層面,即實體理解、關系理解和問句理解。針對這三個層面理解問題,本文展開了一系列研究,并提出了具有針對性的語義匹配模型。
實體理解的目標,是將自然語言文本中表示實體的短語映射至知識庫的對應實體,是一種直接匹配的過程。本文進行了中文到英文的跨語言場景中,對表格文本進行鏈接的研究。表格鏈接過程中,同行列的實體具有明顯的相關性,這是傳統(tǒng)實體鏈接任務所不具備的特性,也是鏈接模型的關注重點。而知識庫和鏈接文本不在同一個語言中,使得模型無法利用任何字面上的相似信息,這給鏈接任務帶來了更多挑戰(zhàn)。本文是學術界首次研究跨語言的表格鏈接任務,本文提出了基于跨語言詞向量和深度神經網絡的鏈接模型,目標在于克服翻譯步驟帶來的錯誤傳播,以及自動學習不同粒度的語義匹配特征。具體而言,本文提出的方法貢獻如下:?
1. 候選實體生成中,利用多種翻譯工具進行過渡,并保留足量候選,將黑盒翻譯工具出錯的影響盡可能降低;?
2. 訓練跨語言詞向量,使得中英文單詞、實體的特征表示在連續(xù)語義空間中互通, 保證在不依賴字面相似特征和共現(xiàn)統(tǒng)計特征的情況下,實現(xiàn)高質量的鏈接;?
3. 定義了三種語義匹配特征,即單個單元格到實體的指示特征,單元格行列信息到實體的上下文特征,及同列實體之間的一致性特征,通過神經網絡對三類特征進行表示學習,并提出了逐位方差進行一致性特征計算的方式;?
4. 模型遵循聯(lián)合訓練框架,以整張表格級別的匹配程度作為目標函數(shù),并利用基于成對排序損失的 RankNet 進行訓練,充分利用負樣本表格生成產生的偏序關系;?
5. 實驗表明,本文提出的模型在跨語言表格鏈接任務中明顯優(yōu)于其它基線模型,同時模型對一致性特征的建模以及聯(lián)合訓練框架均帶來實質性的幫助。?
關系理解的目標,是將自然語言中的二元關系通過知識庫中的謂詞進行表示。相對于實體理解的直接匹配過程,關系理解較難做到二元關系和謂詞的一一對應,一方面在 于關系的多義性,更重要原因在于知識庫和自然語言之間存在語義間隔,使得一些語法簡單的關系,在知識庫中卻對應復雜的語義?;谶@兩個不同的挑戰(zhàn),本文對二元關系進行了兩種不同粒度的研究。
粗粒度的關系語義研究中,本文旨在分析關系在大跨度上的多義性,挖掘關系的主語和賓語所具有的不同類型搭配。本文提出了挖掘關系具有代表性類型搭配的方法,其思路在于盡可能使用具體的類型匹配更多的已知關系三元組,主要貢獻列舉如下:?
1. 提出了一種主賓語聯(lián)合進行實體鏈接的方式,利用關系名稱和主賓語間謂詞路徑存在的關聯(lián)特征,提升整體鏈接準確率;?
2. 去除關系名稱中不影響類型搭配的成分,并利用語法變換將相似語義關系歸為一組,使長尾關系能夠被有效利用;?
3. 利用松弛類型包含構建更豐富的知識庫類型層次關系,并可用于其它任務中;?
4. 人工測評實驗表明,本文提出的方法可以改善互信息模型對熱門類型搭配的懲罰情況,同時推理出的代表性的類型搭配也具有不錯的質量。?
細粒度的關系語義研究中,本文旨在深入挖掘關系語義的精確表達,定義了具有樹形結構的模式圖,它是知識庫中滿足特定語義的子圖的抽象表達,同時具有良好的可解釋性。本文提出了基于復雜模式圖的規(guī)則推導模型,由已知關系三元組出發(fā),挖掘語義相近的候選模式圖,并學習它們的概率分布,從而以結構匹配的形式描述關系語義,并運用于知識庫補全任務中。本文提出的方法貢獻如下:?
1. 定義了具有 “路徑 + 分支” 結構的模式圖,它是對傳統(tǒng)規(guī)則推導模型中,基于謂詞路徑形式的規(guī)則擴展,對復雜語義關系具有更強的表示能力;
2. 利用深度優(yōu)先搜索采集不同的模式圖,并通過優(yōu)先隊列實現(xiàn)搜索過程的高效剪枝,在獲取和關系語義較為接近的模式圖同時,維持不同模式圖間的多樣性;?
3. 將二元關系語義表示為候選模式圖上的概率分布,可以更好地應對關系的多義性,同時任何一個查詢圖自身都具有獨立的描述能力,使人類易于理解;?
4. 模式圖概率通過生成模型學習,實現(xiàn)了寬泛和具體模式圖之間的平衡;?
5. 多個自然語言關系的模式圖實例表明,基于模式圖的結構有能力準確描述復雜關系語義,并且質量顯著好于其它基于路徑的規(guī)則推導模型;?
6. 本文提出的模型能有效運用于知識庫補全任務中,在主賓語預測和三元組分類兩個子任務上,效果優(yōu)于其它規(guī)則推導模型,以及新興的知識庫向量模型。?
問句理解的目標,是學習問句和答案之間的推理匹配。本文關注于通過知識庫回答客觀事實類問題,由于單個問句可能包含未知答案和其它實體的多個關系,和語義僅對應單個謂詞的問句相比,復雜問句的回答更具有挑戰(zhàn)性,體現(xiàn)在如何對復雜問句進行語義描述,以及如何度量和問句的語義匹配程度。針對以上挑戰(zhàn),本文提出了面向復雜語義問句的問答模型。對于問句的語義表示,本文沿用關系理解中的模式圖思路,由問句出發(fā)生成可解釋性高的查詢圖,以表示答案實體與問句中多個相關實體、類型、時間等信息的關聯(lián)。同時,模型通過神經網絡訓練問句與查詢圖的匹配程度,為復雜查詢圖整體學習連續(xù)空間中的特征表示,捕捉不同成分間的語義交互。具體貢獻如下:
1. 沿用模式圖思路,利用多階段生成方式構建問句的候選查詢圖,并在前人基礎上對類型語義限制和時間語義限制進行改進;
2. 提出了一個輕量級的神經網絡模型,以計算問句和查詢圖的語義匹配程度,據(jù)我們所知,這是知識庫問答研究中首次嘗試學習復雜查詢圖整體的連續(xù)語義表示;?
3. 對問句的表示學習引入依存語法路徑,作為問句字面序列信息的補充,以體現(xiàn)問句與特定語義成分的關聯(lián);?
4. 通過集成方法,對已有實體鏈接工具的結果進行擴充,在鏈接準確率不受較大影響的前提下,提升候選查詢圖的召回;?
5. 本文提出的模型在復雜問題數(shù)據(jù)集上取得了最優(yōu)的效果,在簡單問題數(shù)據(jù)集上依然保持競爭力,更多對比實驗顯示,學習查詢圖整體的連續(xù)特征表示有助于提升問答系統(tǒng)的效果。
6.2 未來工作展望
由于時間關系,本文的工作中還存在一些沒有得到解決的問題,列舉如下:
1. 表格鏈接,以及關系三元組的實體鏈接中,都存在著無法鏈接到具體實體的短語。除了較容易識別的數(shù)字、時間以外,考慮到知識庫并不完整,部分實體(尤其是人名)不存在于知識庫中,此時模型需要識別出這樣的短語,而不是強行鏈接。我們對表格鏈接的任務定義繞開了此問題,而對三元組的實體鏈接則忽略了這種情況,這是一個需要改進的方向。
2. 關系三元組的鏈接方式較為粗糙,采用了主謂賓各自匹配度連乘的方式,并沒有使用模型訓練各部分權重。4.1.2節(jié)提到的集成鏈接方案并不是最優(yōu)的解決辦法,未來將利用神經網絡表示三元組各自成分的鏈接特征,從而提升這一步驟的準確率。
3. 知識庫問答研究中,我們嘗試使用注意力層[63]取代依存語法序列,讓語義匹配模型自動學習和特定謂詞最相關的問句短語,但實驗顯示注意力層對問答指標幾乎沒有改進。一個可能的解釋是,輸入的問句長度大多在10左右,而不是類似一段話的形式,因此注意力模型效果不明顯。在今后的研究中,會在這個問題上繼續(xù)調研。
此外,在未來的研究工作中,我們以問句理解為核心,關注以下兩個主要研究問題。
關系理解和問句理解具有很高的相關性。給定問句中的二元關系,若已知其主賓語類型搭配,那么對于候選查詢圖而言,答案類型與類型搭配的查詢圖更有可能表示了正確的語義。類似地,二元關系所對應的模式圖也可指引問句查詢圖的排序,提供額外的匹配特征。我們在過去的工作中,對主賓語類型搭配與自動問答的結合進行了一定的嘗試,但效果提升有限,除了類型搭配本身出現(xiàn)偏差,將問句與特定二元關系的對應是另一個瓶頸。基于語法轉換的方式進行映射過于確定,由于用戶提問可能不具有嚴謹?shù)恼Z法,可能需要使用更加靈活的方式實現(xiàn)這一對應。在未來的研究中,我們將嘗試由陳述句出發(fā)生成疑問句,并引入一定的非嚴謹語法形式,以此構建訓練數(shù)據(jù),學習更加準確 的問句到二元關系的映射。
在現(xiàn)有的問答模型中,候選結構的生成過程是一次性的,對于測試問句,必須先生成所有查詢圖,再從中挑選最匹配的結構。為了保證候選生成速度,搜索規(guī)模需要受限,例如主路徑長度限制為2,對于某些特殊問句,則無法生成出正確的查詢圖。因此,一種可能的改進方式,是將查詢結構的生成看做序列,通過使用序列到序列模型,以問句為輸入,輸出查詢圖的生成序列。Golub 等人[92]使用了這樣的模型用于回答簡單問句, 而 Jain [141]使用記憶網絡模型在 WebQuestions 上取得了最佳的效果,其模型的多層設計暗含了謂詞的多步跳轉。對于復雜問句,雖結構復雜,但多階段生成過程很容易轉換成序列形式,如何將復雜語義結構與序列到序列模型結合,是未來的一個研究方向。
參考文獻:
(文中提及的部分參考文獻在01#02#03#)
—END—
了解更多信息請點擊知識工場網站主頁:http://kw.fudan.edu.cn/
合作意向、反饋建議請聯(lián)系:
info.knowledgeworks@gmail.com
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | 基于知识库的自然语言理解 04#的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 进阶阿里架构师:算法、编程语言、数据库、
- 下一篇: 学术会议 | 中国杭州举办——第21届国