TKDE2022 | 知识图谱质量控制综述
編者按:
北京大學數據管理實驗室薛冰聰碩士關于知識圖譜質量控制的綜述《Knowledge Graph Quality Management: a Comprehensive Survey》被?TKDE 2022?接收。
知識圖譜以結構化的形式表示現實世界中的實體和關系,是人工智能技術發展的基石。隨著DBpedia、YAGO等大規模圖譜的構建和發布,知識圖譜在信息檢索、智能問答、推薦系統等任務中發揮著越來越重要的作用。但是,現有知識圖譜普遍存在著質量問題,如不完整、不準確、不一致等。而另一方面,數據質量的研究有很長的發展歷史,也催生了一系列工具和算法。近年來,越來越多的工作考慮到知識圖譜質量問題,并提出了若干專用于知識圖譜的質量控制方法。
這篇文章對知識圖譜質量控制問題展開了廣泛的綜述,內容不僅包括質量控制的基本概念如問題、維度和指標,也涵蓋了質量控制從評估、問題發現到質量提升的全流程,對不同工作中提出的方法,按照多個維度進行分類。在文章最后對現有工作進行討論和總結,并提出了若干有潛力的未來發展方向。
論文地址:
https://ieeexplore.ieee.org/document/9709663
(或點擊文末“閱讀原文”跳轉)
一、背景知識
1. 數據質量基礎
數據的數量和質量宛如一枚硬幣的兩面,對數據管理同樣重要。大數據時代人們往往更關注數據的數量,對質量問題的重視程度不夠。
數據質量好壞與具體任務相關,沒有一個完全統一的定義,通常用“fit for use”或“free of defects”來解釋。評估數據質量的不同方面形成了不同的維度,大致可以分為內部維度和外部維度兩種,前者包括準確性、完整性、一致性、時效性、冗余性等問題,反映了數據本身的特性;后者如可獲得性、表征性等,往往與下游任務相關。與質量維度相伴的數據質量指標,則給出了評估不同維度的具體計算方式。
數據從誕生到應用存在不同的生命周期,質量問題會存在于生命周期的各個階段。質量管理任務也可以在各個階段進行,主要包括質量評估、問題發現和質量提升三個過程。
2、從數據質量到知識圖譜質量
數據質量有近30年的研究歷史,而知識圖譜質量研究則是近幾年才開始的。知識圖譜質量可以視為數據質量研究的子類,可以考慮遷移現有的質量控制方法,也可以研究專用于知識圖譜的質量控制方法并擴展到一般的數據類型。
傳統關系數據常用的一種質量控制方法是函數依賴(對于關系模式R(U)的任意兩個可能的關系r1、r2,若r1[x]=r2[x],則r1[y]=r2[y])及其變體。知識圖譜由于無模式性、開放世界假設、噪聲多、規模大等挑戰,直接使用傳統方法可能會存在一些問題。
因此,近年來有越來越多的工作研究專用于知識圖譜的質量控制方法。主要任務可以分為評估、問題發現和質量提升三種,方法可以分為基于人工、統計學習、規則方法和混合方法四種,下面分別展開介紹。
二、基于人工的方法
人工判別和檢測是進行質量控制的一種直觀方法。但由于知識圖譜的規模,一般難以使用人力處理所有條目,故現有的研究點主要集中于兩個:抽樣和眾包。如VLDB19的工作[1]提出了一個迭代抽樣的質量評估指標,并將整個過程置于統計學框架下使其具有理論保證;ISCWC13的工作[2]結合專家和普通工人的眾包技術進行知識圖譜檢錯;ICDE18[3]考慮在預算約束下結合外部知識和眾包進行補全和糾錯等。
總的來說,人可以很容易地參與到質量控制的各個環節并具有較大的可信性保證,但在大規模數據量下需要考慮一些更高效的方案,如通過優化眾包任務設計和任務分配技術來更好地利用人力等。
三、基于統計/學習的方法
統計方法存在一個從早期的基于統計分布進行離群點檢測和缺失類型預測,到基于手工提取特征訓練機器學習分類器,再到使用各種表示學習技術進行鏈接預測和知識圖譜補全的發展歷程。由于輸入數據的錯誤和稀疏性問題,也有較多工作考慮結合文本、查詢日志等外部資源。
近年來的嵌入表示學習方法,如平移距離模型、張量分解模型、神經網絡模型等,通過將知識圖譜中的實體和關系映射到低維稠密向量并保持其結構和屬性特征,可用于鏈接預測、實體分類、三元組分類等任務以解決知識圖譜的完整性問題,是進行知識圖譜質量控制的一種重要手段。但其存在任務形式受限、對輸入數據敏感、可解釋性差等問題。在補全之外的評估、檢錯和糾錯任務,在完整性之外的多種維度等,都還需要更進一步的研究。
四、基于規則的方法
對知識圖譜質量控制來說,規則方法是一大類,有多種不同的規則形式,以及不同的規則挖掘、評估和應用算法研究。
本文將用于知識圖譜質量控制的規則劃分為四種主要類型:謂詞邏輯規則、本體規則、圖模式規則和其他規則,并分別介紹了其中的代表性工作和主要方法。
基于規則的方法可以將質量控制全流程納入統一的框架下,利用一套統一的規則進行質量評估、檢錯和糾錯。但是規則形式的選擇需要在表達能力和復雜性之間尋求平衡。另外,雖然規則方法有能力處理質量控制的各個環節,但現有工作大多只關注了一小部分,目前還沒有一個完整的一體化解決方案。
五、混合方法
人工、規則和統計學習方法各有優缺,因此將不同技術結合起來的混合方法表現出很大的潛力。如ICDE18[4]提出一個人機結合的框架做實體鏈接,并設計具有質量保證的任務分配方法;WWW20[5]結合神經網絡和規則方法對知識庫進行糾錯;ICDE20的[6]將人、統計機器學習和規則方法置于一個統一的框架下進行過期事實的檢測,實現了一個人在環路的數據標注、模型訓練和規則生成的迭代范式,展現了混合策略的優勢。
六、討論和未來方向
文章最后用較大篇幅對現有工作的研究重心和局限性展開了討論,并提出了若干未來方向。如一體化解決方案、準確性和完整性之外的更多維度、屬性和字面值問題、結合策略、外部資源、動態知識圖譜等方面都還存在較大的研究空白。
總的來說,知識圖譜質量控制是一個覆蓋面很廣的研究問題,針對不同的任務、對象、維度和方法,都有很多值得深入研究和探索的點。
參考文獻
[1] JunyangGao,?Xian Li,?Yifan Ethan Xu,?Bunyamin Sisman,?Xin LunaDong,?Jun Yang: Efficient?Knowledge?Graph?Accuracy?Evaluation.?Proc.VLDB Endow.?12(11):?1679-1691?(2019)
[2] Acosta M,Zaveri A, Simperl E, et al. Crowdsourcing linked data qualityassessment[C]//International semantic web conference. Springer, Berlin,Heidelberg, 2013: 260-276.
[3] Jiang L, ChenL, Chen Z. Knowledge base enhancement via data facts and crowdsourcing[C] //2018IEEE 34th International Conference on Data Engineering (ICDE). IEEE, 2018:1109-1119.
[4] Chen Z, ChenQ, Fan F, et al. Enabling quality control for entity resolution: A human andmachine cooperation framework[C]//2018 IEEE 34th International Conference onData?Engineering (ICDE). IEEE, 2018: 1156-1167.
[5] Chen J, ChenX, Horrocks I, et al. Correcting knowledge base assertions[C]//Proceedings ofThe Web Conference 2020. 2020: 1537-1547.
[6] Hao S, Chai C,Li G, et al. Outdated Fact Detection in Knowledge Bases[C]//2020 IEEE 36thInternational Conference on Data Engineering (ICDE). IEEE, 2020: 1890-1893.
總結
以上是生活随笔為你收集整理的TKDE2022 | 知识图谱质量控制综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RNA修饰技术介绍|介孔二氧化硅纳米颗粒
- 下一篇: [HITCON 2016]Leaking