论文浅尝 | Data Intelligence 已出版的知识图谱主题论文
本文轉載自公眾號:DI數據智能。? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
? 知識圖譜被稱為人工智能的基石,它的前身是語義網,由谷歌在2012年率先提出,用于改善自身的搜索業務。Data Intelligence執行主編、東南大學計算機科學與技術學院漆桂林教授這樣定義知識圖譜:知識圖譜是人工智能中研究如何將人類的知識轉化為圖,從而方便計算機存儲并用于推理,計算機可以通過知識圖譜實現從感知智能到認知智能的飛躍,支持智能問答、輔助決策、智能分析等應用。DI編委、同濟大學特聘研究員王昊奮老師是知識圖譜方面的專家,曾深入參與過IBM Watson系統的研發工作,他的定義是知識圖譜旨在描述真實世界中存在的各種實體或概念。其中,每個實體或概念用一個全局唯一確定的ID來標識,稱為它們的標識符。每個屬性-值對用來刻畫實體的內在特性,而關系用來連接兩個實體,刻畫它們之間的關聯。
?知識圖譜是DI的核心主題之一,創刊以來,已刊發了大量相關論文。我們特別對已出版的知識圖譜主題論文進行了整理,并對每篇論文的核心內容做了中文簡述,以饗關心和支持DI發展的專家和讀者。
?衷心希望DI刊發的文章能啟發您的思想,助力您的科研!
?注:點擊二維碼可直達文章全文頁面。
1. Constructing and Cleaning Identity Graphs in the LOD Cloud
Citation: J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F. Sa?s. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057
簡述:作者之前的工作展示過一張包含超過5億條明確含有owl:sameAs語句和350億條暗含owl:sameAs語句的等價關系圖譜(identity graph)。作者提出了一個可擴展的方法,可自動計算每一條語句的錯誤程度。在本文中,作者生成了整張等價關系圖譜的子圖,這些子圖都包含一定程度的錯誤數據。本文結論是盡管語義網中包含了許多錯誤的owl:sameAs語句,語義網上的數據仍是可用的,同時可把因錯誤使用owl:sameAs語句帶來的負面影響降到最低。本文作者之一的Frank van Harmelen教授是荷蘭阿姆斯特丹自由大學計算機科學系教授,是世界頂級的語義網技術專家。
2. Virtual Knowledge Graphs: An Overview of Systems and Use Cases
Citation: G. Xiao, L. Ding, B. Cogrel, & D. Calvanese. Virtual knowledge graphs: An overview of systems and use cases. Data Intelligence 1(2019), 201-223. https://doi.org/10.1162/dint_a_00011
簡述:虛擬知識圖譜技術(VKG)也被稱為基于本體的數據訪問,本文詳細總結了VKG的軟件生態圈和應用案例。本文第一作者意大利博爾扎諾自由大學計算機學院Guohui Xiao (肖國輝)?博士,是當今最先進的VKG系統Ontop?研究團隊的負責人,作者Diego Calvanese教授是知識圖譜領域的國際知名專家。
3. Learning to Complete Knowledge Graphs with Deep Sequential Models
Citation: L. Guo, Q. Zhang, W. Hu, Z. Sun, & Y. Qu. Learning to complete knowledge graphs with deep sequential models. Data Intelligence 1(2019), 224-243. https://doi.org/10.1162/dint_a_00016
簡述:本文提出了一種新的知識圖譜補全方法,通過擴展多層RNN將知識圖譜建模成長度為3的序列,同時提出了3種不同策略來集成RNN單元,并通過實驗展示了不同特點。本文通訊作者是南京大學計算機科學與技術系胡偉副教授。
4. KnowID: An Architecture for Efficient Knowledge-Driven Information and Data Access
Citation: P.R. Fillottrani & C.M. Keet. KnowID: An architecture for efficient knowledge-driven information and data access. Data Intelligence 2(2020), 487–512. doi: 10.1162/dint_a_00060
簡述:本文介紹了在信息管理系統中知識-數據轉換的一種架構,KnowID。該架構提出了在實體-聯系模型和關系模型之間轉換的新的規則。和其他基于本體的數據訪問方法相比,KnowID的突出特點是Runtime 運行可以利用在信息系統設計中經常使用的封閉世界假定思想(closed world assumption),同時利用路徑查詢提高SQL查詢效率。
5. AMiner: Search and Mining of Academic Social Networks
Citation: H. Wan, Y. Zhang, J. Zhang, & J. Tang. AMiner: Search and mining of academic social networks. Data Intelligence 1(2019), 58-76.https://doi.org/10.1162/dint_a_00006
簡述:AMiner是一個新型的由作者、論文、會議、期刊以及機構所組成的大規模在線學術搜索與挖掘系統。本文第一作者是北京交通大學萬懷宇副教授,通訊作者唐杰教授是國內知名學者、清華大學計算機科學與技術系教授,國家杰出青年科學基金獲得者。
6. XLORE2: Large-scale Cross-lingual Knowledge Graph Construction and Application
Citation: H. Jin, C. Li, J. Zhang, L. Hou, J. Li, & P. Zhang. XLORE2: Large-scale cross-lingual knowledge graph construction and application. Data Intelligence 1(2019), 77-98. https://doi.org/10.1162/dint_a_00003
簡述:本文介紹了基于維基百科和百度百科自動構建的XLORE升級版的構建和應用。本文為清華大學計算機科學與技術系李涓子教授團隊的最新研究成果。李涓子教授目前是中國中文信息學會語言與知識計算專委會主任、清華-青島數據科學研究院科技大數據研究中心主任。
7. CN-DBpedia2: An Extraction and Verification Framework for Enriching Chinese Encyclopedia Knowledge Base
Citation: B. Xu, J. Liang, C. Xie, B. Liang, L. Chen,& Y. Xiao. CN-DBpedia2: An extraction and verification framework for enriching Chinese encyclopedia knowledge base. Data Intelligence 1(2019), 244-261. https://doi.org/10.1162/dint_a_00017
簡述:本文提出了一種抽取加驗證的知識庫增強框架。相比CN-DBpedia,新版本的知識庫(CN-DBpedia2)增加了大量從實體描述文本中抽取出來的高置信度的事實。本文通訊作者肖仰華是復旦大學計算機學院教授、博導、青年973首席科學家。
8. Microsoft Concept Graph: Mining Semantic Concepts for Short Text Understanding
Citation: L. Ji, Y. Wang, B. Shi, D. Zhang, Z. Wang & J. Yan. Microsoft concept graph: Mining semantic concepts for short text understanding. Data Intelligence 1(2019), 262-294. https://doi.org/10.1162/dint_a_00013
簡述:本文詳述了大型概念知識圖譜系統——微軟知識圖譜?(Microsoft Concept Graph)?的構建實踐。通訊作者為微軟亞洲研究院紀蕾研究員。
9. Constructing a Scene-Based Knowledge System for E-Commerce Industries: Business Analysis and Challenges
Citation: M. Fu, Q. Chen, W. Lin, P. Wang, & W. Zhang. Constructing a scene-based knowledge system for e-commerce industries: Business analysis andchallenges. Data Intelligence 1(2019), 295-308. https://doi.org/10.1162/dint_a_00012
簡述:本文詳述了阿里巴巴集團構建的基于場景的知識系統,從商業角度分析該系統的優勢和面臨的挑戰。本文通訊作者為阿里巴巴集團付敏高級工程師。
10. Knowledge Graph Construction and Applications for Web Search and Beyond
Citation: P. Wang, H. Jiang, J. Xu & Q. Zhang. Knowledge graph construction and applications for Web search and beyond. Data Intelligence 1(2019), 345-361. https://doi.org/10.1162/dint_a_00019
簡述:本文介紹了搜狗公司構建大規模多源數據知識圖譜的案例。作者均來自于搜狗公司。
11. GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology
Citation: L. Zhou, M. Cheatham, A. Krisnadhi & P. Hitzler. ?GeoLink data set: A complex alignment benchmark from real-world ontology. Data Intelligence 2(2020), 353-378. https://doi.org/10.1162/dint_a_00054
簡述:本文構建了用于本體匹配的來自于GeoLink 項目的真實數據集。本文第一作者來自于堪薩斯大學計算機系Pascal Hitzler教授團隊。Pascal Hitzler教授是語義網領域國際知名學者,Semantic Web 期刊的創刊主編(Founding Editor-in-Chief)?。
12. The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas
Citation: A. A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F.Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020), 379-416. https://doi.org/dint_a_00055
簡述:本文詳述了計算機科學本體(Computer Science Ontology)的自動構建過程。該本體包括1.4萬個主題,12.2萬條語義關系。本文通訊作者Angelo A. Salatino是英國開放大學知識媒體研究所的教授,FrancescoOsborne是語義網領域的國際知名青年學者。
13. Refining Linked Data with Games with a Purpose
Citation: I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020),? 417-442. https://doi.org/dint_a_00056
簡述:本文構建了嵌入眾包任務以優化關聯數據的開源軟件游戲框架。本文通訊作者Irene Celino為意大利Cefriel公司知識技術團隊負責人,是語義網技術和人機對話技術領域國際知名學者。
14. The Semantic Data Dictionary – An Approach for Describing and Annotating Data
Citation: S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A. Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary –an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/dint_a_00058
簡述:利用語義數據字典可促進數據的被發現、互操作、可重用,可溯源和可再現。本文展示了可公開獲取的美國國家健康與營養檢驗調查數據集的語義標注的實例,討論了數據建模的挑戰,描述了研究者利用語義數據字典方法進行的工作,包括美國國立衛生研究院資助的大型健康數據網站和倫斯勒理工學院和IBM合作的“分析、學習和語義”健康賦能項目。在評測部分,研究者們設計了四個指標:數據、語義、FAIR原則和普適性,分別對比了語義數據字典、傳統數據字典、映射語言和數據集成工具在這四個指標上的得分。研究者們也對該方法的局限性進行了討論并對未來研究方向進行了展望。
15. An RDF Data Set Quality Assessment Mechanism for Decentralized Systems
Citation: L. Huang,Z. Liu, F. Xu & J.Gu. An RDF data set quality assessment mechanism for decentralized systems. Data Intelligence 2(2020), 487–511. https://doi.org/10.1162/dint_a_00059
簡述:本文提出了RDF數據質量評測模型,利用區塊鏈技術記錄數據質量評測結果,設計了針對質量評估結果的升級策略。
16. KB4Rec: A Data Set for Linking Knowledge Bases with Recommender Systems
Citation: W.X.Zhao, G. He, K. Yang, H. Dou, J. Huang,S. Ouyang, & J.-R.Wen. KB4Rec: Adata set for linking knowledge bases with recommender systems. Data Intelligence 1(2019), 121-136. https://doi.org/10.1162/dint_a_00008
簡述:本文展示了數據集KB4Rec v1.0。該數據集將三個廣泛使用的推薦系統數據集的物品鏈接到兩個流行的知識圖譜—FreeBase和YAGO。本文通訊作者為中國人民大學信息學院趙鑫副教授。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文浅尝 | Data Intelligence 已出版的知识图谱主题论文的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开源开放 | 疾病科室、心血管系统疾病知
- 下一篇: 论文浅尝 | TuckER:基于张量分解