知识图谱最新权威综述论文解读:实体发现
上期我們介紹了2020年知識圖譜最新權威綜述論文《A Survey on Knowledge Graphs: Representation, Acquisition and Applications》的知識圖譜補全部分,本期我們將一起學習這篇論文的實體發現部分。
論文地址:
https://arxiv.org/pdf/2002.00388.pdf?arxiv.org
?
?
1 實體發現
本節將基于實體的知識獲取區分為若干細分任務,即實體識別,實體消歧、實體類型和實體對齊。我們稱它們為實體發現,因為它們都在不同的集合下探索實體相關的知識。
1.1 實體識別
實體識別或命名實體識別(NER)是一種在文本中標記實體的任務,當它關注于特定的命名實體時。手工制作的特征,如大寫模式和特定語言資源,如地名錄,在許多文獻中都有應用。最近的工作利用squence-to-squence結構,例如,LSTM-CNN用于學習字符級和單詞級特征以及編碼部分詞匯匹配。Lample等人通過疊加LSTM層和CRF層,即LSTM-CRF和Stack-LSTM。近年來,MGNER提出了一個集成框架,該框架具有不同粒度的實體位置檢測和對嵌套和非重疊命名實體的基于注意力機制的實體分類。
1.2 實體分類
實體分類包括粗粒度分類和細粒度分類,而后者使用樹結構的類型類別,通常被視為多類別和多標簽分類。為了減少標簽噪聲,PLE著重于正確的類型識別,提出了一種基于異質圖的部分標簽嵌入模型,用于表示實體提及、文本特征和實體類型及其關系。為了解決日益增長的類型集和噪聲標簽,Ma等人提出了一種基于原型驅動的分層信息標簽嵌入方法用于zero-shot細粒度命名實體分類。
1.3 實體消歧
實體消歧或實體鏈接是一個統一的任務,它將提及的實體和知識圖譜中的相應實體鏈接起來。例如,愛因斯坦在1921年獲得諾貝爾物理學獎。這句話中的實體提及“愛因斯坦”應該與知識圖譜中的實體愛因斯坦聯系起來。目前流行的端到端學習方法都是通過實體的表示學習來實現的,例如DSRM用于實體語義關系的建模,EDKate用于實體和文本的聯合嵌入。Ganea和Hofmann提出了一種基于局部上下文窗口的注意力神經模型,用于實體表示學習和模糊實體的可微消息傳遞。Le和Titov將實體之間的關系視為潛在變量,開發了一個端到端的神經架構,具有關系和mention-wise的規范化。
1.4 實體對齊
前面提到的任務涉及到從文本或單個知識圖譜中發現實體,而實體對齊旨在融合異構知識圖譜中的知識。給定E1和E2為兩個不同知識圖譜的兩個不同實體集,實體對其是尋找一個對齊集
其中實體e1和實體e2具有等價關系。在實際中,如下圖的左框所示,給出一個對齊種子的小集合(即,出現在不同的知識圖譜中的同義實體)以開始對齊處理過程。
基于嵌入表示的對齊需要計算一對實體的嵌入表示之間的相似性。IPTransE在一個聯合嵌入框架下將實體投影到一個統一的表示空間中,包括通過對齊的翻譯模型:
線性變換模型:
參數共享:
為了解決迭代對齊中的誤差積累問題,BootEA提出了一種增量學習的bootstrapping方法,以及一種用于檢查新標記對齊的編輯技術。
實體的附加信息也可以被利用起來,例如,JAPE捕捉跨語言屬性之間的相關性,KDCoE通過共同訓練嵌入多語言實體描述,MultiKE學習實體名稱、關系和屬性的多個視圖,與字符屬性嵌入對齊。
?
往期精選:
知識圖譜最新權威綜述論文解讀:知識圖譜補全部分
對知識圖譜的告白:斯坦福大學CS520課程介紹
知識圖譜最新權威綜述論文解讀:知識表示學習部分
知識圖譜最新權威綜述論文解讀:開篇部分
手把手教你搭建一個中式菜譜知識圖譜可視化系統
?
后期,我們還會對這篇綜述的其它部分進行解讀。
如果對文章感興趣歡迎關注知乎專欄“人工智能遇上知識圖譜“,也歡迎關注同名微信公眾號“人工智能遇上知識圖譜”,讓我們一起學習并交流討論人工智能與知識圖譜技術。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
總結
以上是生活随笔為你收集整理的知识图谱最新权威综述论文解读:实体发现的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关系提取论文总结
- 下一篇: 基于改进SSD算法的小目标检测与应用