论文浅尝 | 基于表示学习的大规模知识库规则挖掘
鏈接:www.ict.griffith.edu.au/zhe/pub/OmranWW18.pdf
動機
傳統(tǒng)的規(guī)則挖掘算法因計算量過大等原因無法應(yīng)用在大規(guī)模KG上。為了解決這個問題,本文提出了一種新的規(guī)則挖掘模型RLvLR(Rule Learning via LearningRepresentation),通過利用表示學(xué)習(xí)的embedding和一種新的子圖采樣方法來解決之前工作不能在大規(guī)模KG上scalable的問題。
亮點
文章的亮點主要包括:
(1)采樣只與對應(yīng)規(guī)則相關(guān)的子圖,在保存了必要信息的前提下極大減少了算法的搜索空間和計算量;
(2)提出了argument embedding,將規(guī)則表示為predicate sequence;
概念
1.?? closed-pathrule,LHS記為body(r),RHS記為head(r)
2.???? supportdegree of r,滿足 r 的實體對個數(shù)
3. standard confidence 和 head coverage
方法
⒈ Sampling Method
以head predicate Pt為輸入,把KG看成無向圖,選擇到Pt的頭尾實體路徑長不超過len-1的實體和關(guān)系組成子圖K’=(E’,F’),后面所有的計算都基于這個子圖。
?
⒉ argument embedding
?對于謂詞P,它的subject argument定義為所有出現(xiàn)在subject上實體的embedding的加權(quán)平均,object argument則為尾實體上實體的embedding的加權(quán)平均,這個主要用在后面的score function上,即本文引入了共現(xiàn)的信息,對于路徑(P1,P2)來說,P1的object argument與P2的subject argument應(yīng)該很相似,這里就應(yīng)用到了下面說的基于argument embedding的score function。
⒊ co-occurrence score function
????? 這個 score function 就是基于上面的 argument embedding,以上圖這個長為 3 的 rule 為例,path p=P1,P2的embedding是P1*P2,之前通用的synonymy scoring function就是讓 p 和 Pt 的 embedding 相似,再與這個本文提出的co-occurrence scorefunction,結(jié)合起來就是最后的score function,下圖左邊的就是利用了路徑的同義信息,即 body(r) 的 predicate embedding path 的乘積應(yīng)當(dāng)與 head 的 predicate embedding 相似。
⒋ Rule Evaluation
根據(jù) score function 抽出來的 rule 還要進過篩選,具體做法是先排除掉 support degree 小于 1 的 rule,再過濾掉 standard confidence<minSC 和 head coverage<minHC 的 rule。
?
實驗
??????????????????????????????????????????????????????????????????
⑴. 數(shù)據(jù)集
本文的關(guān)注點是 scalable,所以選取做比較的數(shù)據(jù)集都是大規(guī)模知識庫
⑵. 實驗結(jié)果
作者與 AMIE+ 在三個規(guī)模較大的知識庫上進行了比較,具體做法是隨機選取 20 個 target predicate 進行挖掘,其中 R 是 SC>0.1&HC>0.01 的規(guī)則,QC 是 SC>0.7 的規(guī)則,結(jié)果顯示了 RLvLR 在大規(guī)模 KG 上的效率和挖掘規(guī)則的能力。
總結(jié)??????????????????????????????????????????????????
本文提出了一種可以在大規(guī)模 KG 上可以以較小計算量進行規(guī)則挖掘的模型,減少計算量的方式包括子圖采樣,argument embedding 和 co-occurrence? score function。
?
論文筆記整理:汪寒,浙江大學(xué)碩士,研究方向為知識圖譜、自然語言處理。
?
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點擊閱讀原文,進入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 基于表示学习的大规模知识库规则挖掘的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CNCC 技术论坛 | 知识图谱赋能数字
- 下一篇: 科普 | 知识图谱相关的名词解释