叮!请查收本周份「知识图谱」专题论文解读
本期內容選編自微信公眾號「開放知識圖譜」。
TKDE
■ 鏈接 | https://www.paperweekly.site/papers/2194
■ 解讀 |?花云程,東南大學博士,研究方向為自然語言處理、深度學習、問答系統
動機
對于基于知識圖譜的事實性問答(KBQA),采用基于語法分析的方法,大致分為兩個階段:其一為問題理解,即將問題轉換為 SPARQL 類型的結構化查詢;其二為查詢評分,即對產生的結構化查詢進行置信度評分。
在問答系統中,重點是解決第一階段中的歧義性問題,即解決:第一,短語鏈接問題,即如何將自然語言問句中的短語鏈接到正確的實體/類/關系/屬性上;第二,復合問題,即一個自然語言問題可能轉換為多個知識圖譜三元組,而這多個三元組如何組合,才正確表達了問題的意圖,并由此得到正確答案。?
因此,為了解決第一階段的兩個問題,本文提出基于圖匹配的方法,將解決歧義問題與查詢評分這兩個階段融合在一起,即當得到自然語言問題的一個正確匹配的查詢子圖時,歧義問題也已經同時解決了。
本文為了將自然語言轉換為查詢圖,提出了關系優先(relation-first)和點優先(node-first)的方法。前者從自然語言問句中,盡量抽取對應的關系,并從句法樹中抽取實體來構成查詢圖;后者從問句中盡量抽取對應的實體,再對實體之間的邊進行填充,來構成查詢圖。該方法不需要事先人工設立模板,且對復雜問句分析非常有效。
貢獻
文章的貢獻有:
1. 不同于已有的基于模板的工作,本文工作不需要預先設置模板;
2. 不同于已有的基于語義分析的工作,本文工作的將歧義性問題與查詢評分問題融合成一個問題來解決;
3. 本文工作對于解決復雜問題非常有效,且對于句法依存樹的使用具有容錯率。
方法
本文的工作主旨,是建立一個與自然語言問句意圖充分匹配的查詢圖?Qs,這個查詢圖中可以存在具有歧義性的實體(以節點表示)或關系(以邊表示)。當這個查詢圖被確定下來時,對應的結構化查詢也被唯一確定。
為了建立結構化查詢,本文首先從問句中形成以自然語言成分組成的查詢圖?Qs,再通過圖?Qs?與知識圖譜 G 的同構匹配,來得到結構化查詢。本文的工作主要分為線下和線上部分,其中線上部分又分為關系優先(relation-first)和點優先(node-first)的方法。
1. 線下部分的工作?
線下工作,主要是建立兩個字典,分別用于實體-實體指稱和關系-關系指稱。?
2. 線上部分的工作——關系優先框架(relation-first framework)
首先使用 Stanford Parser 將自然問句N轉換為句法依存樹 Y。由于在線下部分已經建立了關系指稱詞典,即每一個詞都可能被不同的關系指稱所包含,所以在關系優先框架中,對于 Y 中每一個詞(節點)wi,先找到所有包含 wi 的關系指稱,然后使用深度優先搜索算法來遍歷 Y 中以 wi 為根的子樹,并判斷這個子樹是否與當前關系指稱一一匹配。
如果一個關系指稱中所有的字都在子樹中出現,那么認為找到一個匹配的句法依存子樹 y,這個關系指稱也是符合自然問句 N 的。?
當得到關系指稱之后,就需要找到與這個關系指稱相聯系的主語和賓語節點。本文根據統計分析,基于句法樹中邊的詞性,而統計出屬于“subject-like”的邊,與“object-like”的邊。
分析關系指稱與句法依存樹,若在依存子樹 y 中有點 w 是可以被匹配為類/實體,則認為這個w是關系指稱的一個主語;否則,觀察 w 與它的子節點中,是否被 subject-like 的邊相連,若是的話,這個子節點就是這個關系指稱的主語。
同理,若 w 與子節點被 object-like 的邊相連,那么關系指稱的賓語就是這個子節點。如果經過這種規則處理,找不到對應的主語/賓語,那么就需要應用一些高階規則。?
如下圖 1 所示,即一個尋找與關系指稱相關的主/賓語節點的示例。
▲?圖1. 關系抽取示例
如圖 1,已知的關系指稱為“budget of”與“direct by”,由于“file”是匹配于實體或類,且“of”與子節點“film”之間以 object-like 的邊 pobj 相連,所以“film”是關系指稱“budget of”的賓語。
此外,雖然“is”與“budget”由subject-like的邊相連,但是“is”并不是一個可以匹配到實體/類的節點,所以“is”不是“budget of”的主語。根據前面所述,與“budget of”最相近的 wh- 詞是“what”,那么它就是“budget of”的主語。?
以上的工作,是通過自然語言問句與句法樹的分析,得到了查詢圖 Qs,后續需要再通過圖 Qs 與知識圖譜 G 的同構匹配,來得到結構化查詢。?
Qs 中每一條邊都有匹配的候選謂詞,而 Qs 中每一個節點都有匹配的候選實體或者類,且根據關系指稱詞典和實體指稱詞典,均有一個置信度得分。當 Qs 與知識圖譜 G 進行匹配時,可以找到若干匹配的子圖,從中找到分數最大的 top-k 子圖,就是找到對應的結構化查詢。再執行這個查詢,就可以得到問題對應的答案。
3. 線上部分的工作——節點優先框架(node-first framework)?
節點優先框架,是從自然語言問句中找到節點,再對填充節點之間的邊。當填充邊時,肯定會出現同一對節點之間以不同路徑相連的問題,所以通過識別節點、再填充邊的做法,形成的圖為超語義查詢圖 Qu,而 Qs 是其一個子圖。?
首先用已有的方法識別出所有的實體指稱,并且將所有 wh- 詞和不能匹配到任何實體的名詞作為通配符。比如對于例句“What is thebudget of the ?lm directed by Paul Anderson and starred by a Chinese actor?”可以識別出“what”、“film”、“Paul Anderson”、“Chinese”、“actor”。?
其次進行結構的建立。利用句法依存樹,當兩個節點之間沒有其余節點存在,那么這兩個節點之間即認為是有邊或路徑相連,即為一個關系指稱,且路徑上所有邊的label組合成為這個關系指稱。
如下圖 2 所示,點“film”與點“Paul Anderson”、“actor”之間都沒有其余節點存在,所以“film”與“Paul Anderson”存在關系,關系指稱為“directed by”;“film”與“actor”存在關系,關系指稱為“directedstarred by”,由此得到了節點間的關系指稱。
當兩個節點之間的指稱沒有 label 時,如圖 2 的“Chinese”和“actor”,那么若兩個節點都為實體/類,那么在知識圖譜中將這兩個節點間的關系填入;若其中一個節點為通配符,則在知識圖譜中定位另外一個節點,取與其連接頻數最高的那些謂詞作為候選關系填入。
▲?圖2. 建立超語義查詢圖
經過關系填充,可以得到 Qu,而 Qu 中將包含所有節點,但以不同邊連接所有節點的子圖以 Si 表示。在將 Si 與結構化查詢圖進行匹配時,采用基于動態規劃的自頂向下的方法來逐步擴展。
即首先找到最可能匹配的部分子圖 Q,再將與 Q 中節點相連的邊逐一加入,并評估是否可以與知識圖譜G中的子圖匹配,若可以的話,則繼續加入邊到 Q,直到 Q 是 Qu 的包含了 Qu 所有節點的子圖,那么就視為找到了一個語義查詢圖;若加入了一條邊后,后續無法產生匹配,則需要回溯,把這條邊從 Q 中刪去,重新加一條新邊,再進行迭代。
實驗?
實驗使用了 QALD-6 數據集和 WebQuestions 數據集。QALD 中復雜問題較多,相比之下,WebQuestions 中的簡單問題(一個問題可以由一個三元組表示)居多。?
如圖 3 所示的表格,在 QALD-6 的比賽中,NFF(節點優先框架)取得了第二名的成績,而第一名的 CANaLI 需要用戶手動輸入實體和謂詞,大大減少了系統難度,而 NFF/RFF 不需要這樣的人工操作。
▲?圖3. QALD-6測試結果
從圖 4 所示的表格可以見到,在 WebQuestions 的測試中,NFF 排在第三位,這是由于關系指稱詞典的覆蓋率在 WebQuestions 較低導致。而且,本文系統更加由于復雜問題的處理,所以將 Aqqu 放到 QALD 中,其效果降低了很多,遠遠不及本文系統。
▲?圖4. WebQuestions測試結果
關于錯誤回答問題的分析,其一是由于詞典中的未登錄實體/類/關系,導致匹配錯誤;其二是對于聚集型問題,本文的方法無法回答。
總結
這篇文章主要提出了一種基于圖匹配的方法,來進行自然語言問題的回答。與之前的工作不同的是,在本文的工作中,實體識別、關系識別的歧義性問題是在查詢評分的階段中完成的,而之前的工作是將這兩個階段分開進行。
由于是利用結構化查詢圖來進行答案檢索以及解決歧義,這是個高效的方法。所以,基于圖匹配的方法,不僅可以提高系統準確性(尤其是對于復雜問題),而減少了整個系統的響應時間。
此外,這些工作都可以利用文本來進行工程化地實現,并不涉及復雜的神經網絡模型,在應用或項目中,容易實現。
IJCAI 2017
■ 鏈接 |?https://www.paperweekly.site/papers/2192
■ 解讀 |?李丞,東南大學碩士,研究方向為知識圖譜構建及更新
動機
隨著知識圖譜技術的快速發展,知識圖譜正在越來越多的應用中扮演重要的角色。但是現有的知識圖譜存在一個很明顯的缺陷:圖譜中的數據的實時性很差。絕大多數知識圖譜從構建完成開始,其中的數據便不再更新。即使有更新,更新的周期也非常長。每一次的更新都是一次費時費力的、類似于重新構建知識圖譜的過程。
這樣的更新機制一方面需要消耗大量網絡帶寬和計算資源,另一方面由于每次更新所消耗的代價太大,這就限制了更新的頻率,使得知識圖譜中數據的實時性非常差。由于缺乏一個實施的更新機制,圖譜中這些沒有同步更新的數據中存在大量的錯誤,這使得這些數據無法被利用。這種數據的滯后性給知識圖譜的應用帶來了很大的局限性。
貢獻
1. 本文提出一個實時更新知識圖譜數據的方法框架,可以以較高的準確率預測出哪些實體需要被更新,從而以較低的代價和較高的頻率對知識圖譜進行更新,從而實現了知識圖譜的實時、動態更新;
2. 本文將其提出的知識圖譜更新框架部署在 cn-dbpedia 上,用于對 cn-dbpedia 的實時更新,更新頻率設置為每天更新一次,實踐結果表明,更新的效果非常好。
方法
本文所提出的知識圖譜更新框架主要分為 4 個步驟:?
1. 從互聯網上抽取、識別出最近一段時間內熱門的實體(以下簡稱熱詞)。?
熱詞的抽取來源包括:熱門新聞的標題、搜索引擎的熱門搜索以及門戶網站的熱門話題。從這些來源抽取出熱門的短語或句子,利用命名實體識別(NER)技術抽取出其中的實體。
由于現有的 NER 技術的召回率都小于 90%,因此為了提高熱詞抽取的召回率,可以采用一種極端的方法:利用分詞技術直接對這些句子和短語進行分詞,然后窮舉分詞后得到的所有實體。如果百科頁面中有該實體相關的頁面,則該實體便抽取成功。?
2. 根據第一步中抽取出的熱詞,對知識庫做更新。
更新的原則是如果知識庫中已經存在該實體,就到百科網站中對該實體做知識庫實時更新,如果知識庫中不存在該實體,就將該實體及其相關的百科信息添加到知識庫中。?
3. 從前兩步被更新的實體的百科頁面中的超鏈接中擴展得到和這些實體語義相關的更多實體,作為候選的待更新實體。?
因為某一時間段的熱詞數量都是有限的,因此通過前兩步抽取出的熱詞數量很少,為了更新更多的實體,需要對熱詞進行擴展抽取。擴展抽取的方法就是從已經抽取出來的熱詞的百科頁面中的超鏈接中獲取更多的實體。
這一抽取方法是基于這樣的原理:如果一個實體在某一時間段內屬于熱詞,它的屬性值有可能會被經常更新,那么和它語義相關的實體的屬性也很有可能需要被更新。而實體百科頁面中的鏈接正是表達了這樣一種語義相關的關系。
4. 對第 3 步得到的候選的待更新實體進行優先級排序,按優先級從高到底,依次對候選隊列中的實體到知識庫進行更新。?
本論文所提出的知識圖譜更新框架追求一種實時性,即它對知識庫更新的頻率的要求是很高的。由于更新的頻率非常高,再加上百科網站也存在一定的反爬取策略,因此每次能更新的實體數量是有上限的。
本論文假定每天所挑選出的待更新的實體數量為 K。雖然并不能保證這 K 個實體最終都會有數據被更新,但是要想辦法使得最后所挑選出的 K 個待更新實體中,有盡可能多的實體最終得到了更新,而盡可能減少挑選出那些最后不需要被更新的實體,減少無用功。因此所有待更新的實體中,只能挑出部分優先級高的進行更新。?
本論文所提出的更新策略為:第 1 步中直接抽取出的熱詞具有最高的優先級,優先進行更新。對于后面擴展抽取出的相關實體,按照優先級由高到低依次進行更新,直至更新總數達到 K 或者待更新實體隊列為空為止。本文提出的優先級刻畫模型為:
其中 x 為實體,E[u(x)] 是實體 x 的優先級,P(x) 是實體 x 的預測更新頻率,該值由本論文設計并訓練的回歸模型預測得出,ts (x) 是知識圖譜中 x 最后一次被更新的時間。如果實體 x 不在知識圖譜中,ts (x) 定義為負無窮。由此可以看出,如果候選實體更新隊列中的有新的實體(現有知識圖譜中沒有的實體),那么這些新的實體的更新優先級會很高。?
預測 P(x) 值得回歸模型通過監督學習的方式訓練得到。本論文為每個實體設計了 8 個特征,包括實體在百科中存在的時長、總計被更新次數、用戶訪問次數、實體頁面中所有超鏈接總數、實體百科頁面長度等這些可以反應實體熱度的特征。
通過這些特征刻畫實體的熱度,然后通過監督學習的方式訓練生成回歸模型并用于預測實體的 P(x) 值。P(x) 值反映的是實體的被更新頻率,該值越大,代表實體的熱度越高,那么它被更新的優先級也更高。
實驗?
本文實驗采用的數據集是 cn-dbpedia,將本文所提出的更新框架部署在 cn-dbpedia上,并將更新頻率設置為每天更新一次。更新效果如下表所示:
一次成功的更新是指檢查實體對應的百科頁面中的相關信息,如果該實體的屬性發生了改變、需要被更新,那么這次檢查是成功的。實驗結果表明,該框架在 cn-dbpedia 上更新的成功率較高,能夠有效地對知識圖譜進行動態的更新。
ICML 2017
■ 鏈接 |?https://www.paperweekly.site/papers/2191
■ 源碼 |?https://github.com/rstriv/Know-Evolve
■ 解讀 |?王旦龍,浙江大學碩士,研究方向為自然語言處理
對于事件數據,需要動態更新的知識圖譜來保存知識圖譜中關系的時許信息。本文提出了 Know-Evolve 這種基于神經網絡的動態知識圖譜來學習實體在不同時刻的表示。
在動態知識圖譜中,事件由四元組表示,相比于普通的三元組,增加了時間信息,因此在動態知識圖譜中,實體之間的可能通過多個相同的關系連接,但是這些關系會關聯到不同的時序信息。Know-Evolve 中,使用時間點過程(temporal point process)來描述時間點的影響。?
在時間點過程中,某一時刻發生某事件的概率可以表示為:
其中:
具體而言,Know-Evolve 中使用了 Rayleigh 過程來表示 λ(t),并使用一個神經網絡來擬合 Rayleigh 過程的參數,對于發生在時刻 t 的四元組,有:
其中:
上式中,V 表示實體對應的向量表示,R 表示關系對應的矩陣,t-1 表示實體在上次被更新后的狀態,表示頭實體或尾實體中最后被更改的時間。?
此外,每次將新的四元組加入到動態知識庫后,動態知識庫中與該四元組相關的實體也會相應地進行更新,更新地過程用一個 RNN 來表示。
對于頭實體,有:
對于尾實體,有:
模型的訓練通過最大化訓練數據中四元組發生概率進行,對應的損失函數為對數損失函數。
在損失函數中,后一項需要對頭實體,關系,尾實體進行遍歷,這個計算量是很大的,本文中使用了采樣的方法來近似計算得到這部分的值。
實驗使用了 GDELT 和 ICEWS 這兩個時序知識庫,相比于其他的方法,本文的結果均有限制的提升。
ICML 2017
■ 鏈接 |?https://www.paperweekly.site/papers/1656
■ 源碼 | https://github.com/quark0/ANALOGY
■ 解讀 |?汪寒,浙江大學碩士,研究方向為知識圖譜、自然語言處理
本文的主要創新點就是把類比推理應用到 KG embedding 中,通過對模型的 score function 添加某些約束來捕獲 KG 中類比結構的信息,進而優化 KG 中實體和關系的 embedding 表示,并在 FB15K 和 WN18 數據集上達到 state-of -the-art 性能。?
Analogical Structure?
什么是類比結構?以 word embedding 中最著名的一句話為例,"man is to king as woman is to queen",用 abcd 分別表示 man, king, woman, queen 四個實體,用 r 和 r' 表示 crown 和 male->female 關系,這就可以得到四個三元組。
可視化一下,就可以得到一個平行四邊形結構,捕獲這個結構的信息也就是本文的 motivation,且更復雜的類比結構的基本組成單元就是這個平行四邊形結構。
對于線性映射來說,一個理想的特性,就是所有有相同起點和終點的有向圖,都形成了所謂的 compositional equivalence,在上圖中就是,且若關系集合 R 中任意兩個關系都滿足 compositional equivalence,則稱 R 是一個 commuting family。
Method?
本文將關系 r 視為線性映射,即給定三元組 (s,r,o),作者希望對于所有有效的三元組,都能滿足,滿足的程度就用一個 score function 表示,模型的目標就是學到恰當的 v 和 W,來讓這個 score function 給有效的三元組高分,無效的三元組低分。為什么用線性映射而不用transE那樣的加法映射呢?作者的看法是,用矩陣定義的線性映射表達能力比用向量定義的加法映射更強。
為了捕獲 KG 中類比結構的信息,本文在objective function上加入了 Normal Matrix 和 compositional equivalence 的約束,而后者就是,即在線性映射上的具體實現,最后得到的 objective function 就是:
Why Normal Matrix?
引理1,對于任意實正規矩陣 A,存在一個實正交矩陣 Q 和分塊對角矩陣 B,滿足 A=QBQT,其中 B 的每個對角塊要么是個實數,要么是個 2 維實矩陣,x 和 y 都是實數。這個引理表明任意一個實正規矩陣都可以分塊對角化。?
引理 2,若一系列實正規矩陣組成了一個 commuting family,那么它們可以用同一個 Q 分塊對角化。這個引理表明,若一個稠密關系矩陣集合{Wr}相互可交換,那么就可以同時被分塊對角化成一個稀疏矩陣集合{Br}。?
結合以上兩個性質,可以對 score function 進行推導,過程如下:
即對于任意目標函數 7 的解 (v*,W*) ,都有對應的 (u*,B*) 滿足。
目標函數簡化成了這個樣子,其中 B 表示對角線上有 n 個實數的 m 階對角方陣。?
Unified View of Representative Methods?
作者也證明了本文模型是 unified method,以 DistMult 為例,它的 score func 如:
實際上這就是 n=m 的 ANALOGY 版本,其中,。?
Experiments
實驗用的數據集是 FB15K 和 WN18,作者用了 19 個 baseline 做對比,metrics 用的也是常用的 MRR 和 Hits@k。由下表可以知道 FB15K 的關系數非常多,因此對其建模也更難,KG 中包含的類比結構也更多,而在這個數據集上,ANALOGY 的表現超過了所有 baseline 模型,這證明了捕獲類比結構信息的作用。
而下圖則表明在所有指標上,ANALOGY 的表現都超過了 DistMult,ComplEx 和 HolE,且這三個是 ANALOGY 的特例。
ACL 2017
■ 鏈接 |?https://www.paperweekly.site/papers/2195
■ 解讀 |?吳桐桐,東南大學博士生,研究方向為自然語言問答
導讀
學術界近兩年來十分關注如何將文本等非結構化數據和知識庫等結構化數據映射到相同的語義空間中,然而在相同的語義空間中建模的過程會受到文本中實體指稱(mention)歧義的影響,即文本中的同一個姓名如邁克爾·喬丹可能指的是著名的籃球運動員喬丹也可能是我們敬仰的教授喬丹,那么在語義空間中,因為他們的字面表達相同而將其建模成為統一的向量顯然是不合理的。
因此,文中提出了一種新的 mention 向量表示的學習框架Multi-Prototype Entity Mention Embedding (MPME),它可以根據實體指稱所對應的詞義的不同而聯合文本和知識庫學習到不同的表示。
此外,文中提出了一種類似于語言模型的方法解決了實體指稱的語義消歧問題。最后,實驗部分利用實體鏈接任務作為 MPME 的應用場景,取得了當前最優的實驗效果。
研究動機
當前有相當多的工作研究如何將文本和知識庫進行關聯建模,顯然這樣會為自然語言處理及知識庫相關的研究任務帶來比較大的性能提升。
當前的研究思路可以粗略地分為兩類,其一是利用深度神經網絡將實體和詞語直接在統一的語義空間中進行建模,但這類方法比較受限于計算復雜度以及語料的規模。其二是分別對知識庫中的實體以及文本中的實體指稱進行建模,并且利用 wiki 百科中的外鏈獲取 mention 和 entity 之間的關聯,相當于在各自訓練的過程中加入了一層約束用于確保他們在各自的語義空間中有相似的表達。
上述兩類方法都會面對同一個實體指稱可能對應到多個實體的歧義問題,即文本中提到的邁克爾喬丹可能是教授也可能是運動員或其他不甚知名的人,也會面臨多個實體指稱對應同一個實體的歧義問題,即文本中出現的姚明和小巨人可能指的同一個人。因此本文著手解決實體指稱的語義歧義問題,類似于傳統的實體鏈接任務。
創新點
本文提出了一種新型的實體指稱表示學習方法 MPME,結合文本信息以及知識庫信息學習實體指稱的表示;此外,文中還提出了一種基于語言模型的決策方法來進行實體指稱的語義消歧。
模型
本文使用的數據是從 New York Times 上抓取的 99872 篇文章。在定性分析中,apple,amazon,obama,trump 的詞義變化軌跡如下所示:
▲?MPME框架結構示意圖
如圖所示,模型可以大致分成兩個部分。?
其一是表示學習部分,通過 Word Embedding 和 Knowledge Graph Embedding 對文本和知識庫分別進行建模,其中每個實體指稱都對應著一個實體集合,也就是它們潛在的語義。
在 Entity Representation Learning 中,訓練的目標是有相似的關聯實體的實體之間更相似。在 Text Representation Learning 中,實體指稱將和其他詞匯一起通過 Skip-Gram 模型進行訓練,在Mention Representation Learning 中,實體指稱被替換為相應的詞義(sense),上下文的表示來自文本表示學習部分,實體的表示來自知識庫表示學習部分,目標是得到更好的實體指稱的表達?sj*,使得根據上下文信息,能夠確定實體指稱所對應的語義(對應哪個實體)。?
其二是測試場景下的消歧部分,模型會綜合考慮實體指稱對應的上下文信息,以及實體指稱對應各個語義的統計概率分布進行計算。
實驗結果?
文章的目標是訓練得到一組高質量的實體指稱向量,仍然沒有跳出表示學習的框架,因此實驗部分首先比較了采用 MPME 之后,訓練得到的向量的相似實體指稱都有哪些,以及從 mention embedding 和相應的 entity embedding 余弦距離的角度進行了分析,各項指標相對對比模型 SPME 提高了 1% 左右,這一部分就不做贅述了。?
同時,文章利用 mention embedding 在實體鏈接任務上進行了驗證,在 AIDA 數據集上,不管是有監督的實體鏈接任務還是無監督的實體鏈接任務,利用 MPME 均取得了相較于之前最好結果 3% 左右的提升。
啟發?
mention之間的信息?
本文中把文本和知識庫分別單獨進行建模,mention 的建模過程中比較多的考慮 mention 和 entity 之間的關聯,所謂的上下文更多的是以詞窗口內詞匯的形式出現的,而不是上下文中其他的 mention,因此有可能會忽略一些關鍵的信息。
傳統的實體鏈接方法中比較多使用的一類是基于圖的算法,其優勢便在于能夠更充分的發掘 mention 和 mention 之間,mention 和 entity 以及 entity 和 entity 直接的結構關聯信息,利用這些信息進行消歧已經足夠有效(體現在實體鏈接任務的準確率上),那么也可以嘗試利用圖結構更好地學習 mention 的表示。?
潛在的問題在于,假設 mention 所對應的兩個歧義實體屬于同一個 category,那么它們會共享十分相似的上下文,通過本文所題出的方法將不能很好的解決這個問題。比如兩只都叫做旺財的狗,它們的日常表現應該會比較相似,唯一不同的可能就只有它們的主人不同,這一點需要上下文中 mention 的參與,共同建模。?
未登錄詞的處理?
實際的應用場景中,未登錄 mention 的數目理應遠多于已經訓練的 mention 的數目,這樣才能體現出模型或方法的泛化能力,這也為我們提出更加 general 的 framework 提出的新的需求,或者說,訓練的過程盡可能簡單,所需的額外信息盡可能的少,對未登錄詞的發現更加友好的框架。
NIPS 2017
■ 鏈接 |?https://www.paperweekly.site/papers/2193
■ 源碼 | https://github.com/fanyangxyz/Neural-LP
■?解讀?| 張文,浙江大學博士生,研究方向為知識圖譜的分布式表示與推理
動機
本文提出了一個可微的基于知識庫的邏輯規則學習模型?,F在有很多人工智能和機器學習的工作在研究如何學習一階邏輯規則,規則示例如下圖:
形式化本文關心的邏輯規則如下:
每一個規則由多個約束條件組合而成,并且被賦予一個置信度 α,其中 query(Y,X) 表示一個三元組,query 表示一個關系。?
不同于基于 embedding 的知識庫推理,規則應該是實體無關的,規則可以應用于任何新添加到知識庫中的實體,但在知識庫 embedding 方法里,新添加到知識庫中的實體由于沒有對應的表示,無法就這些實體進行相關的推理。?
不同于以往的基于搜索和隨機游走的規則學習方法,本文的目標是提出一個可微的一階謂詞邏輯規則學習模型,可用基于梯度的方法進行優化求解。?
本文提出的 Neural LP 模型主要收到 TensorLog 的啟發。TensorLog 可視為一個可微的推理機。知識庫中的每個實體用一個 one-hot 向量表示,每個關系 r 定義為一個矩陣算子 M_r,M_r 為一個稀疏的毗連矩陣,維度為 n_e×n_e, 其中 n_e 表示實體的個數。每一條邏輯規則的右邊部分被表示為以下形式:
所以總結本文關心的優化問題如下:
V_x 和 V_y 分別為一個由規則推理得到的三元組。在上式的優化問題中,算法需要學習的部分分為兩個:一個是規則的結構,即一個規則是由哪些條件組合而成的;另一個是規則的置信度。
由于每一條規則的置信度都是依賴于具體的規則形式,而規則結構的組成也是一個離散化的過程,因此上式整體是不可微的。因此作者對前面的式子做了以下更改:
主要交換了連乘和累加的計算順序,對預一個關系的相關的規則,為每個關系在每個步驟都學習了一個權重,即上式的。其中 T 為超參,表示規則的長度。由于上式固定了每個規則的長度都為 T,這顯然是不合適的。
為了能夠學習到變長的規則,Neural LP 中設計了記憶向量 u_t,表示每個步驟輸出的答案——每個實體作為答案的概率分布,還設計了兩個注意力向量:一個為記憶注意力向量 b_t ——表示在步驟 t 時對于之前每個步驟的注意力;一個為算子注意力向量 a_t ——表示在步驟 t 時對于每個關系算子的注意力。
每個步驟的輸出由下面三個式子生成:
其中 a_t 和 b_t 基于一個 RNN 生成,具體如下:
其中隱層變量 h_t 由一個 LSTM 生成。?
本文還設計了一個根據訓練結果解析規則的算法如下:
實驗
本文的實驗相當豐富,主要包括:
1. 兩個標準數據集上的統計關系學習相關的實驗
2. 在 1616 的網格上的路徑尋找的實驗
3. 知識庫補全實驗
為了證明 Neural LP 的歸納推理的能力,本文還特別設計了一個實驗,在訓練數據集中去掉所有涉及測試集中包含的實體的三元組,然后訓練并預測,得到結果如下:
這個實驗有效地證明了 Neural LP 的歸納推理的能力。
4. 知識庫問答的實驗
總結
本文提出了一個可微的規則學習模型,并強調了知識庫中的規則應該是實體無關的,非常值得借鑒。有興趣的讀者可以閱讀一下原文。
點擊以下標題查看更多相關文章:?
從 6 篇頂會論文看「知識圖譜」領域最新研究進展
「知識圖譜」領域近期值得讀的 6 篇頂會論文
知識圖譜論文大合集,這份筆記解讀值得收藏
綜述 | 知識圖譜向量化表示
東南大學周張泉:基于知識圖譜的推理技術
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看更多論文推薦
總結
以上是生活随笔為你收集整理的叮!请查收本周份「知识图谱」专题论文解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Nature论文解读:用于改善加权生物网
- 下一篇: 敲敲代码调调参就给钱,你来不来?| 论文