知识库问答中的关系识别研究回顾
?PaperWeekly 原創 ·?作者|舒意恒
學校|南京大學碩士生
研究方向|知識圖譜
知識庫是用于知識管理的特殊數據庫,通常由大量三元組構成,三元組形如(奧巴馬,出生于,火奴魯魯),三者分別是三元組的 subject、predicate 和 object(主語、謂詞和賓語),其中謂詞也可被稱作關系。
知識庫問答嘗試構建利用知識庫信息的問答系統,關系識別是知識庫問答中的重要環節,即識別出自然語言問題中所提及的知識庫謂詞(關系),將自然語言描述與知識庫中的謂詞聯系起來。本文盤點近年來部分關于知識庫問答關系識別的研究。
首先,我們需要了解關系識別這一問題的難點,在自然語言對關系的描述中,通常存在以下現象:
表述形式多樣:例如“be famous for”和“known for”兩個短語,雖然在字面上的相似度很低,但實際上在語義上相近。關系的描述不同于實體,可能不局限于短語的形式,還可能是由包含連詞、介詞等的搭配描述。
隱式關系可能需要推斷,例如“Which Americans have been on the moon?” 其中 Americans 表示一個針對“出生”的額外的約束,但句中沒有“is born”這類顯式的約束。
含義與上下文相關:同一謂詞在不同的語境中可能表示不同的含義,需要我們在識別關系時利用整個句子的上下文信息。
測試集中的未知關系:在訓練模型時,訓練集中包含的關系數量總是有限的,測試集中可能包含大量模型沒有學習過的關系。
正負樣本的生成:對于一個句子,正確的關系鏈接結果可能只有數個,而關系鏈接工具卻可能產生遠超過這個數量的錯誤的關系鏈接候選作為負樣本。對于一個分類模型,如何平衡正負樣本的數量,如何提升負樣本的質量,值得討論。
而當前關系識別的基本思路,大體上至少包括:
謂詞詞典:詞典即通過算法生成或人工編寫的數據,可直接為關系識別的算法所用。在 NLP 研究中,有單詞到單詞的詞典,短語到短語的詞典,但此處特指的是謂詞到短語的詞典。
神經網絡方法:相比詞典而言,神經網絡方法具有更好的模糊匹配和應對未知輸入的能力。
需要注意的是,無論是謂詞詞典還是神經網絡方法,它們的構建都是基于有限的謂詞信息,對于沒有見過或者沒有學習過的關系,識別的性能可能會相對下降,且不同的方法所適用的知識庫也可能是不同的。而對于神經網絡方法來說,經過預訓練的詞嵌入模型能夠提供一定的超越訓練數據的泛化能力。
下面,本文將從四方面簡介現有的關系識別的研究。
簡單問答系統中的關系識別模型
詞嵌入方法在關系識別中的應用
謂詞詞典在關系識別中的應用
未知關系的識別
簡單問答系統中的關系識別模型
簡單問答在此處指的是沒有約束或聚合操作的,通過找到問題中所述的實體和關系,就能直接通過知識庫中三元組進行回答的問答任務。在簡單問答的過程中,實體和關系的鏈接是最關鍵的問題,是找到知識庫中相關三元組無法回避的問題。
ACL 2016《Simple Question Answering by Attentive Convolutional Neural Network》一文嘗試使用注意力卷積神經網絡做簡單問答,如下圖所示,包含兩個主要步驟:實體鏈接與事實選擇。其事實所指的是知識庫中三元組表示的事實。
實體鏈接:通過字符級 CNN 將事實候選中的主語實體與問題中的實體描述進行匹配。
謂詞鏈接:通過單詞級 CNN 將該事實中的謂語與問題進行匹配。
使用 CNN 處理文本,尤其應對形態多變的關系描述,存在著固有的缺陷:關系的描述可能并不局限在一個文本的局部,長距離依賴是可能存在的,且長度不便預估。
ACL 2017《Improved Neural Relation Detection for Knowledge Base Question Answering》嘗試更好地揣摩自然語言問題的含義,其任務相比于上文更加簡單,匹配自然語言問題與知識庫關系,給出相似度。
作者構建了一個如下圖所示的分層 RNN 嘗試實現這一點,一個深度殘差雙向 LSTM 被用于在不同的抽象層次表示問題。對于關系表示,作者使用了關系級表示和單詞級表示,并通過最大池化將二者融合。
不過,個人認為即使作者通過消融實驗說明利用殘差學習的雙層 Bi-LSTM 能夠取得更好的效果,卻很難從除參數規模以外的方面解釋雙層網絡在問題理解上的優勢。
詞嵌入方法在關系識別中的應用
ICSC 2019《Evaluating Architectural Choices for Deep Learning Approaches for Question Answering over Knowledge Bases》通過實驗研究知識庫問答中的深度學習方法架構選擇,其中在謂詞預測任務中設定了下列架構:
BiLSTM-Softmax:標準的 BiLSTM softmax 分類器預測問題屬性,輸出范圍覆蓋訓練過程中見過的所有屬性
BiLSTM-KB:預測與預訓練 KB 嵌入中最接近的謂詞表示匹配的謂詞低維表示
BiLSTM-Binary:二元決策,判斷一對(主體,謂詞)是否匹配給定問題
FastText-Softmax:使用 FastText 作為分類器預測屬性
簡單的結論是,作者認為 FastText 提供了更好的效果。FastText 是一個使用神經網絡的詞嵌入方法,表現出相對 BiLSTM 的各類方法的優越性。
ISWC 2019《Pretrained Transformers for Simple Question Answering over Knowledge Graphs》研究 BERT 在 SIMPLEQUESTIONS(簡單問答的基準測試) 上的表現,并提供了在有限數據情況下基于 BERT 和 BiLSTM 的模型的評估。
可見,關系識別相比于實體的識別,對于數據量的要求更加嚴苛,而在相同數據量的情況下使用 BERT 的表現總是好于 BiLSTM。詞嵌入與預訓練模型的一個優勢在于能引入外部的語言知識,來彌補有限的訓練數據。
謂詞詞典在關系識別中的應用
重述(paraphrase),即同一個意思的不同文本表達方式,是理解知識庫謂詞的一種方法。即使是人類學習語言,在應對同一語義的大量不同表述時,可能最簡單的方法也不過是記憶。
EMNLP 2012《PATTY: A taxonomy of relational patterns with semantic types》一文中介紹了一種經典的謂詞詞典的構造方法,而 AAAI 2020《The Value of Paraphrase for Knowledge Base Predicates》指出了前者的問題,并提出了一個優化后的謂詞詞典。部分現有詞典的概覽如上圖所示。
Patty 是一個謂詞到短語的詞典,包含 225 個謂詞和 127,811 個謂詞-短語對。可見其謂詞數量相當有限,并被后者認為其中存在一定的錯誤。
后者收集了 DBpedia(一個基于維基百科構建的知識庫)中的 2,284 個謂詞和 31,130 個謂詞-短語對,其包含的謂詞數量大幅提升,并去除了許多錯誤的短語。在問答系統之外,作者還嘗試將該詞典應用于問題生成任務。
作者通過實驗證明,其新詞典在 QALD(一項鏈接數據上構建問答系統的評估競賽)上的表現有一定提升,其中帶 * 表示使用新詞典,如下圖所示。
個人認為,即使通過大量運算和人工構建詞典,并不斷優化內容,一個好的詞典對關系識別任務的影響也停留在量上的進步,對于一個有一定關系識別能力的問答系統,引入詞典或許僅僅是一種輔助手段。詞典存在容量限制,若要維護其與時俱進更是需要成本。
未知關系的識別
深度學習本質是經驗主義的發展,而未知關系超出了經驗的范疇,即訓練數據中包含的關系總是有限的,需要通過額外的信息緩解這一缺陷。
ACL 2019《Learning Representation Mapping for Relation Detection in Knowledge Base Question Answering》認為利用知識圖譜嵌入的預訓練模型是一種方法。
預訓練模型產生的關系表示不直接適用于特定的任務,若將它作為初始表示,可根據有標簽的訓練數據對模型進行微調,即相當于利用預訓練模型豐富的語言知識,同時重點考慮如何將它的通用表示應用到關系識別任務中來。
但是,未知關系,即訓練數據中沒有見過的關系,其表示無法在微調中被更新。因此,作者嘗試構建關系表示的適配器(adapter),以將通用目標的表示轉換為任務特定的表示。
如上圖所示,作者提出兩種適配器的實現,分別是基礎適配器和對抗適配器。對于基礎適配器,直接使用線性映射;對于對抗適配器,其中的生成器嘗試生成足夠接近真實關系映射后的表示,而判別器嘗試區分生成的虛假表示和真實的關系映射。
在設計完適配器后,其關系識別模型的整體架構類似于前文所述的分層 RNN 模型。
小結
個人認為,早前的問答系統的研究關注于簡單問題,而解決簡單問題中最重要的步驟就是實體鏈接與關系識別,它們直接決定了找到知識庫中相關三元組的方法。而隨著詞嵌入方法和預訓練模型的興起,它們也被應用到關系識別任務中。
詞典是一種直接記憶大量謂詞表述的方法,如何利用眾包和機器挖掘算法構造高質量的適用于不同數據集的有一定覆蓋范圍的詞典,仍然是值得長期研究的課題。
而無論是神經網絡方法還是利用謂詞詞典,它們所能記憶或者學習的謂詞數量一定是有限的,在應用場景中仍然可能存在大量模型沒有見過的關系,而要緩解這一問題,可能需要引入更多知識庫外部的語言知識。
預訓練模型通常不是為了某一個特定的 NLP 任務構建的,而要應用到具體的 NLP 下游任務中,需要進行一定的微調或轉換。在關系識別任務中這一點也適用。
另外,現有的部分方法中,對自然語言問題的表示和對關系的表示是分離的,將這二者分別學習出表示再進行匹配與評分,不妨考慮如何通過注意力等模型找出問題中的關鍵信息,再與關系進行匹配。
聯系我
很期待能與各位對知識圖譜或問答系統有興趣的同學交流學習(別忘了備注呀,謝謝)。
參考文獻
[1] ACL 2016|Simple Question Answering by Attentive Convolutional Neural Network
[2] ACL 2017|Improved Neural Relation Detection for Knowledge Base Question Answering
[3] ICSC 2019|Evaluating Architectural Choices for Deep Learning Approaches for Question Answering over Knowledge Bases
[4] ISWC 2019|Pretrained Transformers for Simple Question Answering over Knowledge Graphs
[5] EMNLP 2012|PATTY: A taxonomy of relational patterns with semantic types
[6] AAAI 2020|The Value of Paraphrase for Knowledge Base Predicates
[7] ACL 2019|Learning Representation Mapping for Relation Detection in Knowledge Base Question Answering
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的知识库问答中的关系识别研究回顾的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 别再用假任务做小样本学习实验了!来试试这
- 下一篇: 个人贷款合同编号查询 携带身份证到银行柜