论文浅尝 | 提取计数量词丰富知识库
OpenKG 祝各位讀者新年快樂!
論文標(biāo)題:Enriching Knowledge Bases with Counting Quantifiers
論文鏈接:https://link.springer.com/content/pdf/10.1007%2F978-3-030-00671-6_11.pdf
發(fā)表會議:ISWC 2018
論文源碼:https://github.com/paramitamirza/CINEX
摘要
??? 信息抽取通常關(guān)注于抽取可辨識實(shí)體之間的關(guān)系,例如 <Monterey, locatedIn,California>。但是,除了說明具體實(shí)體之間的關(guān)系,文本中也經(jīng)常含有計(jì)數(shù)信息,表明與某個實(shí)體有特定關(guān)系的對象的數(shù)量,而未提及具體對象本身,例如“California is divided into 58counties”。這種計(jì)數(shù)量詞可用于諸如查詢應(yīng)答,知識庫管理等任務(wù),但被先前的工作忽略了。本文開發(fā)了第一個完整的從文本中提取計(jì)數(shù)信息的系統(tǒng) CINEX,將知識庫中的事實(shí)計(jì)數(shù)作為訓(xùn)練種子,采用遠(yuǎn)程監(jiān)督的方法抽取文本中的計(jì)數(shù)信息。實(shí)驗(yàn)表明,在人工評估的 5 個關(guān)系上,CINEX 的平均抽取精度達(dá)到了 60%。在大規(guī)模實(shí)驗(yàn)上,對于 Wikidata 的 110 種不同關(guān)系,CINEX 能夠斷言 250 萬事實(shí)的存在,比這些關(guān)系現(xiàn)有的 Wikidata 事實(shí)多 28%。
概念
????? 本文用SPO形式的計(jì)數(shù)語句(Counting Statement)來描述知識庫中的計(jì)數(shù)信息,主要關(guān)注對于一個給定的SP對,參數(shù)O的數(shù)量。計(jì)數(shù)語句的形式化表示為:,其中,S 是 subject,P 是 predicate,n 是一個自然數(shù)(包括 0)。例如,語句 “President Garfield has 7 children” 將表示成<Garfield, hasChild,?7>。在OWL描述邏輯中,上述語句的形式化描述如下:
方法
??????? CINEX的目標(biāo)是解決文本中計(jì)數(shù)量詞的抽取問題,問題定義如下:
CINEX 將知識庫中已有的事實(shí)計(jì)數(shù)作為種子,采用遠(yuǎn)程監(jiān)督的方法抽取文本中的技術(shù)信息。遠(yuǎn)程監(jiān)督作為知識庫信息抽取的主要方法,也是解決本文問題的一種相當(dāng)自然的方法。不過,用遠(yuǎn)程監(jiān)督解決計(jì)數(shù)信息抽取,需要解決以下幾點(diǎn)挑戰(zhàn):
種子質(zhì)量:與通常意義下的 SPO 事實(shí)抽取不同,本場景下知識庫的不完備不僅會導(dǎo)致訓(xùn)練種子數(shù)量的減少,還會導(dǎo)致系統(tǒng)地低估實(shí)際事實(shí)的數(shù)量。例如:知識庫只知道特朗普的 3 個孩子,而實(shí)際上特朗普有5個,這會導(dǎo)致系統(tǒng)獎勵“owns three golf resorts”這樣的模式,而懲罰“his five children”。
數(shù)據(jù)的稀疏性:對于很多關(guān)系,文本表達(dá)計(jì)數(shù)信息的方式相當(dāng)稀疏且高度傾斜。例如,一般人的children很少被提及;對于音樂家來說,贏得的第一個格萊美獎通常比之后的獲獎更多被提及,因此對“他/她的第一個獎項(xiàng)”的模式會被給予過度的重視。還有,音樂樂隊(duì)的成員數(shù)量通常約為 4,這使得很難學(xué)習(xí)到樂隊(duì)成員數(shù)量非常大或非常小的模式。
語言多樣性:計(jì)數(shù)信息可以用各種語言形式表達(dá),如冠詞(“has a child”),基數(shù)詞(“has five children”),序數(shù)詞(“her third husband”),表數(shù)量的名詞短語(‘twins’,‘quartet’),表存在與否的副詞(‘never’,‘without’)。
CINEX針對上述挑戰(zhàn)給出了對應(yīng)的解決方法:對于挑戰(zhàn) 1,CINEX 通過將數(shù)量的匹配條件放寬到比知識庫事實(shí)計(jì)數(shù)更高的值,同時將訓(xùn)練種子限制于知識庫中信息更完備的流行實(shí)體來處理。對于挑戰(zhàn) 2,CINEX 使用信息熵來度量 numbers,過濾掉不提供信息的 numbers。對于挑戰(zhàn)3,CINEX 通過仔細(xì)整合中間結(jié)果來處理。Fig.2 給出了 CINEX 系統(tǒng)的框架,系統(tǒng)將整體任務(wù)分為兩個階段:
(1)計(jì)數(shù)量詞的識別
CINEX將其建模為序列標(biāo)注問題,對每一個句子操作并且針對每一個謂詞P單獨(dú)學(xué)習(xí)。首先通過檢測文本中指示計(jì)數(shù)信息的術(shù)語(基數(shù),序數(shù)和數(shù)值項(xiàng)等)預(yù)處理輸入的句子,再用CRF++模型以及bidirectional LSTM-CRF模型為每個感興趣的謂詞P學(xué)習(xí)一個序列標(biāo)注模型,用于計(jì)數(shù)量詞的識別。
(2)計(jì)數(shù)量詞的合并
將第一階段識別出的多個表示計(jì)數(shù)或者組合信息的中間結(jié)果,合并為對象數(shù)量的單個預(yù)測。整合算法如下:
對需要組合的計(jì)數(shù)信息求和,可信度得分設(shè)為被組合信息中最高的值。
選擇每一種計(jì)數(shù)信息的預(yù)測結(jié)果。對于基數(shù)詞和數(shù)值項(xiàng),選擇高于設(shè)定閾值的計(jì)數(shù)信息中可信度得分最高的;對于序數(shù)詞,不論可信度得分如何,總是選擇可信度得分最高的。
根據(jù)計(jì)數(shù)信息類型排序,根據(jù)如下順序選擇最終結(jié)果。
實(shí)例
(1)計(jì)數(shù)量詞的識別
給定句子“Jolie brought her twins , one daughter and three adoptedchildren to the gala”,計(jì)數(shù)量詞識別階段預(yù)處理以及序列標(biāo)注的結(jié)果如下:
(2)計(jì)數(shù)量詞的合并
給定SP對<AngelinaJolie, hasChild>,計(jì)數(shù)量詞的識別結(jié)果如下:
整合算法第1步會合并句子中的計(jì)數(shù)信息0.3和0.5,將其相加得到0.5,句子中的計(jì)數(shù)信息0.1和0.2將相加得到0.2。第2步0.5被選為可信度得分最高的基數(shù)詞,0.8被選為可信度得分最高的數(shù)值項(xiàng),0.5被選為排序最高的序數(shù)詞。第3步,根據(jù)排序偏好以及設(shè)置的可信度閾值,基數(shù)詞0.5或0.8將被作為最終預(yù)測結(jié)果。
實(shí)驗(yàn)
(1)數(shù)據(jù)集:Wikidata(知識庫),Wikipedia(文本)
(2)實(shí)驗(yàn)結(jié)果
從Table 2. 可知,計(jì)數(shù)量詞的識別基于特征的CRF模型效果最好,神經(jīng)網(wǎng)絡(luò)模型容易過擬合。同時,CINEX-CRF也是在整合和端到端任務(wù)中識別計(jì)數(shù)信息性能最佳的系統(tǒng)。
對于各種類型的計(jì)數(shù)術(shù)語,由Table 4. 的實(shí)驗(yàn)結(jié)果可知,考慮數(shù)值項(xiàng)和冠詞有利于改善覆蓋率,考慮組合計(jì)數(shù)信息以及除基數(shù)詞之外的其它類型術(shù)語,有利于提高準(zhǔn)確性和覆蓋率。
對于Wikidata的110種關(guān)系,CINEX抽取了851K計(jì)數(shù)量詞事實(shí),斷言了250萬事實(shí)的存在,比這些關(guān)系現(xiàn)有的Wikidata事實(shí)多了28.3%。
?
論文筆記整理:曹二梅,南京大學(xué)碩士生,研究方向?yàn)橹R圖譜、知識融合。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 提取计数量词丰富知识库的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 基于正交普鲁克分析的高效知
- 下一篇: 论文小综 | Attention in