论文浅尝 - ACL2020 | 用于链接预测的开放知识图谱嵌入
本文轉載自公眾號:PaperWeekly。? ? ? ? ? ??
作者:舒意恒,南京大學碩士,研究方向:知識圖譜。
當前大量的知識圖譜都是通過文本直接構建的。由于當前的知識圖譜構建方法的局限性,其中難免包含對同一實體或關系的多種表述。
知識圖譜嵌入模型的發展,長期關注于如何設計更好的評分函數、如何反映知識圖譜的內在結構,但非常少的研究關注于知識圖譜的實體和關系本身具有多種描述形式。本文提出的嵌入方法和基準測試,針對當前知識圖譜構建的特點,提供了值得關注的見解。
論文來源:ACL 2020
論文鏈接:https://www.aclweb.org/anthology/2020.acl-main.209/
1 介紹
知識圖譜是三元組的集合,其中,主語或賓語以結點表示,關系以帶標簽的邊表示。當前知識圖譜的構建通常需要豐富的文本鏈接和信息框,但它們并不是在每個領域都可用。因此,作者想要探索通過原始文本而沒有中間步驟構建起來的知識圖譜上,是否能夠做鏈接預測,例如藥物發現等領域。
開放信息提取系統自動地從非結構化數據中提取三元組,例如文本是一種非結構化數據。作者將這樣提取出的數據稱為開放知識圖譜。作者嘗試探索在沒有規范和監督的情況下,如何在開放知識圖譜上推理出潛在的事實知識。
鏈接預測是知識圖譜上需要推理的一個常見任務。它的目標是預測知識圖譜上缺失的事實。而當前知識圖譜嵌入模型已成功用于預測知識圖譜中的缺失事實。
2 開放知識圖譜
開放知識圖譜可以完全自動地被構建。它們不需要實體和關系的詞典,因此他們能夠捕捉更多信息。例如,不同的實體描述在不同的時間段指的是不同的實體版本。類似地,關系的描述也可能是多變的。
相比于一般的知識圖譜,開放知識圖譜包含豐富的概念知識。開放知識圖譜可能包含更多的噪聲,并且事實知識可能更加不確定。
如圖,一般的知識圖譜(curated KGs)對比開放知識圖譜(open KGs)。
3 開放鏈接預測
在開放鏈接預測中,模型對一個有序的陳述進行預測。但是問題可能有多個等價的正確答案,即多個答案可能指代的是同一個實體,但有不同的表述。作者將其評估準則稱為指代排序準則(mention-ranking protocol)。
作者的評估準則基于正確答案描述的最高排名。在過濾的設置上,除了被評價的實體外,已知答案實體的多種表述都將從排名中被過濾。該準則使用評價三元組實體的不同表述的知識來獲得合適的排名,消除一個實體多種表述對排序的影響。
因此,該準則需要(1)待評價三元組的頭實體和尾實體的注解,以及(2)這些實體的全面的表述集合。
4 構建開放鏈接預測的基準測試
4.1 數據源
作者將其提出的基準測試,稱為 OLPBENCH,它基于 OPIEC [1] 構建,后者是一個最近發布的數據集,它從英文維基百科的文本構建得到。
4.2 評估數據
數據質量 從數據集中,作者構建了滿足以下要求的驗證集和測試集。評估數據中的噪聲應該盡量的被限制,作者選擇了一種簡單有效的準則。在采樣評估數據中的候選項中,不考慮 token 數量小于 3 的非常短的關系。作者給出了三個理由:
短關系通常歸屬于長關系。
長關系更少地被簡單的應用于知識圖譜構建方法的模式所捕捉。
自動提取的實體注解,對于短關系來說略顯嘈雜。
數據構建中的人為干預 為了保證數據的質量,作者認為,對于規模較小的驗證數據,人類經驗的干預是必要的。因此,作者將驗證數據分為三類。
VALID-ALL:沒有人類的工作
VALID-MENTION:其中有部分人類的工作。
VALID-LINKED:大多數是人類的工作。
如圖是 OLPBENCH 中鏈接數據與非鏈接數據的樣例。
4.3 訓練數據
為了評估知識圖譜上的鏈接預測模型,評估事實通常通過對知識圖譜的三元組進行采樣生成。最簡單的避免訓練數據泄露到測試數據中的方法是直接刪除評估三元組的訓練數據。
但這種簡單的方法可能并不能完全避免泄露,訓練三元組仍然可能直接被推斷到。例如,評估三元組 (a, siblingOf, b) 可以輕松地被訓練三元組 (b, siblingOf, a) 回答到。
在開放知識圖譜中,關系的轉述導致了另外一種泄漏。例如,關系 “is in” 和 “located in” 可能包含許多相同的實體對。
作者使用了三個級別的泄漏移除方法,稱為 SIMPLE、BASIC 和 THOROUGH,即簡單的、基本的和徹底的泄漏移除。例如,訓練數據中存在三元組 (i, k, j) 的情況:
簡單移除:只有三元組 (i, k, j) 被移除,i 和 j 的其他表述不被移除。
基本移除:三元組 (i, k, j) 和 (j, k, i) 都被移除,i 和 j 的其他表述也都被移除。
徹底移除:在基本移除的基礎上,按以下模式移除評估數據中的三元組:
(i, *, j) 和 (j, * i),即刪掉兩實體間任何方向的任何形式的關系,例如,三元組 (“J. Smith”, “is player of”, “Liverpool”).
(i, k + j,?) 和 (?, k + i, j),例如,三元組,(“J. Smith”, “is Liverpool’s defender on”, “Saturday”).
(i + k + j, ?, ?) 和 (?, ?, i + k + j),例如,三元組 (“Liverpool defender J. Smith”, “kicked”, “the ball”).
這三種移除方式將生成三個不同的訓練集。
5 開放知識圖譜嵌入
知識圖譜嵌入模型已經成功地應用于知識圖譜的鏈接預測,而作者將它擴展到開放知識圖譜的鏈接預測當中。
知識圖譜嵌入模型 知識圖譜嵌入模型將每個實體和關系與一個嵌入關聯起來,嵌入是以鏈接預測為目標學習到的稠密向量表示。這些模型為三元組計算分數,它的目標是為正確的三元組學習到高分數,為錯誤到三元組學習到低分數。
組合得到的知識圖譜嵌入模型 作者考慮用組合函數從表面形式的標記中創建實體和關系表征。只要在訓練過程中觀察到標記,一個讀取表述和開放關系標記的模型原則上可以處理任何表述和開放關系。
作者使用一個通用的模型架構,它組合了關系模型和組合函數。關系模型用于對三元組的評分,組合函數用于對一個實體或關系的多個 token 的組合。
使用組合的知識圖譜嵌入模型。三元組的 token 首先被分別的嵌入,然后組合為一個表述或關系嵌入。最后,一個知識圖譜嵌入模型被用于計算三元組的分數。
6 實驗
作者使用 ComplEx [2] 作為關系模型,它是一個高效的雙線性模型(bilinear model)。對于組合函數,作者使用一層 LSTM,hidden size 等于 token embedding 大小。作者將其稱為 ComplEx-LSTM 模型。
對比模型 為了測試出有多少問題不需要通過整個問題的信息直接回答,作者提出兩個對比模型。給定一個問題 (i, k, ?),PREDICT-WITH-REL 通過 (r, ?) 進行評分。例如問題,(“Jamie Carragher”, “is defender of”, ?),我們詢問 (“is defender of”, ?). 而類似地,PREDICT-WITH-ENT 忽略關系而只計算實體對的分數。
如圖是測試集上的結果,同時利用實體和關系的 ComplEx-LSTM 超越了作為對比的 PRED-WITH-ENT / PRED-WITH-REL。同時,泄露移除的程度越大,鏈接預測的效果越差,一定程度說明現有方法不能很好地處理開放知識圖譜。人類對數據集的干預同時對模型表現的提升有影響。
如圖是驗證集上的結果。效果略高于測試集。
7 結論
作者提出了開放鏈接預測任務,以及一種構建開放鏈接預測基準測試的方法,并構建了一個基準測試 OLPBENCH。作者研究了評估事實的泄露、非關系信息和實體知識對鏈接預測任務的影響,并通過實驗證明其方法預測出的事實基本是新的事實,而不是知識圖譜中原有的。
參考文獻
[1] Kiril Gashteovski, Sebastian Wanner, Sven Hertling, Samuel Broscheit, and Rainer Gemulla. 2019. OPIEC: an open information extraction corpus. CoRR, abs/1904.12324.
[2] The ?o Trouillon, Johannes Welbl, Sebastian Riedel, Eric Gaussier, and Guillaume Bouchard. 2016. Complex embeddings for simple link prediction. In Proceedings of the 33nd International Conference on Machine Learning, ICML 2016, New York City, NY, USA, June 19-24, 2016, pages 2071–2080.
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 - ACL2020 | 用于链接预测的开放知识图谱嵌入的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 图神经网络综述:方法及应用
- 下一篇: 论文浅尝 | 基于微量资源的神经网络跨语