技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间
本文轉載自公眾號:AI前線。
??
作者 | 李冬梅
采訪嘉賓 | 唐杰
知識圖譜是近年來人工智能技術蓬勃發展的核心驅動力之一,已廣泛應用在金融、電商、醫療、政務等眾多領域,經過短短幾年的發展,熱度依舊不減,未來,知識圖譜又將解決哪些其他技術無法解決的問題呢?它又面臨著哪些新的挑戰?
知識圖譜的發展脈絡
作為人工智能的一個重要研究領域,其研究和發展可以追溯到第一個人工智能浪潮。1968 年圖靈獎獲得者 Edward Feigenbaum 研發出世界首個專家系統 DENDRAL,并隨后在第五屆國際人工智能會議上正式提出知識工程的概念,目標是將知識融入計算機系統用以解決只有領域專家才能解決的復雜問題。1999 年互聯網發明人、圖靈獎獲得者 Tim Berners-Lee 爵士提出語義網的概念,核心理念是用知識表示互聯網,建立常識知識,但一直苦于規模小、應用場景不清楚而發展緩慢,因此,2012 年以前,學術界和工業界普遍認為知識圖譜技術處于初級發展階段。
直到 2012 年,這一狀況才有了改變。這一年,谷歌發布了 570 億實體的大規模知識圖譜,其宣傳語是“Things, not Strings”給出了知識圖譜的精髓,即,不要無意義的字符串,而是獲取字符串背后隱含的對象或事物,多組研究者也曾獨立地提出過相似的理論。“Things, not Strings”理論脫胎于眾多著名認知心理學家提出的 Semantic Networks 理論,最為著名的有 Sowa 等人在 1984 年提出的 ConceptNet。在符號主義的思潮中,許多早期知識圖譜將關系局限為幾種特殊的基本關系,如“擁有屬性”、“導致”、“屬于”等,并定義一系列在圖譜上推理的規則,期望通過邏輯推理實現智能。
然而,早期知識圖譜的思路遇到了許多實際的困難,比如結構化知識信息的大量缺失,推理規則的無法窮舉問題等。當然,這些問題也并非來自知識圖譜,而是符號主義本身的特性。知識圖譜的缺點本質上都是“二元一階謂詞邏輯”作為知識表示的本身缺陷帶來的。知識表示是長久以來研究者孜孜不倦追尋探索的話題,完全依靠(頭實體、關系、尾實體)這樣的命題,盡管能表示大部分簡單事件或實體屬性,對于復雜知識卻束手無策。
2012 年發布的谷歌知識圖譜將常識知識圖譜構建應用于實際系統(Freebase 是谷歌知識圖譜的前身,它整合了包括許多私人維基在內的大量網絡資源,后來被谷歌收購)。自谷歌第一版知識圖譜推出以來,它在學術界和工業界掀起了一股熱潮,隨之而來的是各類知識圖譜如雨后春筍般涌現。
DBpedia,它從維基百科中抽取結構化知識在進行本體的構建,通過結構化,用戶可以使用 SPARQL 語言進行查詢;? ?
YAGO 也是開源知識圖譜,被應用于 IBM Waston 問答系統;? ?
NELL 則是卡耐基梅隆大學 Tom Mitchell 教授帶領開展的知識自動學習—NELL 項目開啟了一個機器學習實現知識圖譜構建的浪潮,目標是持續不斷地從網絡上獲取資源并進行事實發現、規則總結等,里面涉及到命名實體識別、同名消岐、規則歸納等關鍵技術;? ?
ArnetMiner 是面向清華大學知識工程實驗室構建的面向科技領域的知識圖譜,項目實現了高精度學者畫像、同名消歧、智能推薦、趨勢分析等關鍵技術。該工作獲得了 ACM SIGKDD 的 Test-of-Time Award(時間檢驗論文獎),這也是華人團隊首次在該領域獲得此國際獎項。
知識圖譜的下一步是認知圖譜
深度學習時代的知識圖譜擁有大量的實體和關系,然而大量不同的關系上很難定義邏輯規則,在知識圖譜上“推理”也轉入黑盒模型預測的范式。Bordes 等人的知識庫結構嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先將神經網絡引入 知識圖譜 的研究,特別是后者將知識圖譜中實體和關系的單詞嵌入的平均作為該節點的表示,訓練神經網絡判斷(頭實體、關系、尾實體)的三元組是否為真,在知識圖譜補全(推理)任務中取得了很好的效果。
知識圖譜的一個重要特點就是可解釋性和發現新知識的能力,這是目前深度學習方法很難做到的。知識圖譜把領域知識或常識整理成結構化的形式,然后在此基礎上進行推理,類似于人腦的功能。比如評審專家的推薦,使用深度學習的方法進行訓練,專家的查找過程是個黑盒操作,無法追溯推薦的理由。使用知識圖譜建立的高精度的專家畫像,及專家關系網絡能夠為專家推薦提供可解釋性,比如評審專家的學科相似度、評審人和專家的關系等等。
但知識圖譜同樣存在不足。知識圖譜的缺點本質上都是“二元一階謂詞邏輯”作為知識表示的本身缺陷帶來的。知識表示長久以來研究者孜孜不倦追尋探索的話題,完全依靠(頭實體、關系、尾實體)這樣的命題,盡管能表示大部分簡單事件或實體屬性,對于復雜知識卻束手無策。
近年得益于自然語言處理的極大進步,BERT 等預訓練模型帶來的文本理解和檢索能力使得我們可以在原始文本上進行理解和推理,例如 Chen 等人的 DrQA 就是使用神經網絡直接從文本中抽取問題答案,掀起開放領域問題的新熱潮。另一方面,我們必須保持知識圖譜的圖結構帶來的可解釋性和精準穩定的推理能力。例如,知識圖譜很難構建百分百正確的、超大規模的知識圖譜,因此,針對這些不足,認知圖譜應運而生。
本質上,認知圖譜的改進思路是減少圖譜構建時的信息損失,將信息處理壓力轉移給檢索和自然語言理解算法,同時保留圖結構進行可解釋關系推理。認知圖譜主要有三方面創新,分別對應人類認知智能的三個方面:
1.(長期記憶)直接存儲帶索引的文本數據,使用信息檢索算法代替知識圖譜的顯式邊來訪問相關知識;
2.(系統一推理)圖譜依據查詢動態、多步構建,實體節點通過相關實體識別模型產生;
3.(系統二推理)圖中節點產生的同時擁有上下文信息的隱表示,可通過圖神經網絡等模型進行可解釋的關系推理。
事實上,認知圖譜正是由人類認知過程所啟發,“快速將注意力定位到相關實體”和“分析句子語意進行推斷”是兩種不同的思維過程。在認知學里,著名的“雙過程理論(dual process theory)”認為,人的認知分為兩個系統,系統一(System 1)是基于直覺的、無知覺的思考系統,其運作依賴于經驗和關聯;而系統二(System 2)則是人類特有的邏輯推理能力,此系統利用工作記憶(working memory)中的知識進行慢速但是可靠的邏輯推理,系統二是顯式的,需要意識控制的,是人類高級智能的體現。
認知圖譜首先由清華大學和阿里巴巴在 2018 年的中國計算機大會上提出,后來 Ding 等人將其應用于多跳開領域閱讀理解問答中。傳統方法中,開領域問答往往依靠大規模的知識圖譜,而閱讀理解問答一般面向單段,此時閱讀理解的 NLP 模型,例如 BERT,可以直接處理。然而,這樣的方法在多跳(推理)問答中存在“短視檢索”的問題,即在幾跳(幾步推理)的文本和問題回答中,真正的答案可能和問題相關性較低,很難被直接檢索到,這導致了效果不佳。認知圖譜問答提出一種新穎的迭代 框架:算法使用兩個系統來維護一張認知圖譜,系統一在文本中抽取與問題相關的實體名稱并擴展節點和匯總語義向量,系統二利用圖神經網絡在認知圖譜上進行推理計算。
基于認知圖譜技術,北京智譜華章科技有限公司(以下簡稱:智譜.AI)還研發了支持知識推理的科技情報挖掘系統。團隊將認知圖譜技術作為知識圖譜的補齊任務,針對由現實世界中的實體和關系組成的知識圖譜,提出了 CogKR 框架,基于認知科學中的雙過程理論,通過構建認知圖來完成在已知頭實體和關系類型情況下推理尾實體的任務。比起基于嵌入的方法,該方法多跳推理的能力更強,并且具有更好的可解釋性。比起過去的基于路徑的多跳推理方法,該方法能夠利用更加復雜的子圖結構進行推理,而不會局限在單條路徑,因此有更好的準確性。
數據和算法在知識圖譜中扮演的角色?
在知識圖譜中,數據扮演著底部基石的作用。據智譜.AI 的創始人唐杰教授介紹,知識圖譜是源于數據的,是從數據中抽取結構化信息,數據的好壞直接關系到知識圖譜構建的效率和質量。比如從結構化的數據中構建知識圖譜會比從非結構化的數據中構建效率和準確率要高,數據越復雜,噪音越大,構建成本也就越高。智譜.AI 的“智慧人才”項目包含了大量科研人才、政府工作數據集,這些數據通過多個渠道來獲取,包括通過和相關機構合作或購買版權的形式獲取的內部數據,如 Digital Science、中國工程院等等;其次是通過爬蟲的形式獲取網絡中的開放數據,比如國家和地方政府的網站,學者個人主頁等等;此外智譜.AI 還使用了信息抽取的方法從論文、專利等科研文獻中抽取相關的內容。這些不同數據源的異構數據在獲取以后會通過數據融合算法進行融合與關聯,為知識圖譜構建提供基礎。
知識圖譜擁有大量的實體和關系,然而大量不同的關系上很難定義邏輯規則,因此算法,尤其是深度學習算法在知識圖譜中占據著舉足輕重的地位。例如,Bordes 等人的知識庫結構嵌入和 Socher 等人的 Neural Tensor Network(NTN)率先將神經網絡引入知識圖譜的研究,特別是后者將知識圖譜中實體和關系的單詞嵌入的平均作為該節點的表示,訓練神經網絡判斷(頭實體,關系,尾實體)的三元組是否為真,在知識圖譜補全(推理)任務中取得了很好的效果。然而,簡單用詞向量表示實體本身,忽略了他們的獨特的符號特征:例如美國網紅“James Charles”和 20 世紀著名時尚設計師“Charles James”的詞向量平均結果相同,可是其知識圖譜上的相關屬性必然有很大差別。后來更多的目光轉向大型知識圖譜自身的嵌入訓練,其中最為優雅有效的開創性工作是 Bordes 等人的 TransE。算法的目的是為知識圖譜中每個關系或實體學習一個 d 維向量表示,對于知識圖譜中任意的三元組事實 (h,r,t),算法要求它們的向量表示滿足 h+r≈t。
針對知識建模,智譜.AI 也提出了一整套知識圖譜構建的流程和算法:首先,是提出多維關系依賴的概率圖標注模型,可以描述實例間的序列依賴關系,以及實例間層次依賴和二維依賴關系,將語義標注錯誤率降低 40-56%;針對開放互聯網數據噪音大、冗余的特點,提出一階邏輯概率因子圖模型,提高了標注準確率,這個模型也獲得了 ICDM 的競賽冠軍。其次,是提出多策略動態選擇的語義集成方法 RiMOM,根據不同集成任務動態選擇集成策略,實現全局集成風險最小化;提出基于隨機場的概率實體排歧模型,根據對象表示的語義聚集性及其之間的拓撲關系提升了排歧性能。6 年獲得國際語義集成 OAEI 評測的第一名。
值得一提的是,唐杰教授的團隊還從理論上證明已有的多種網絡表示學習方法(DeepWalk、LINE 等)都可以歸一化到矩陣分解理論框架下,提出了網絡表示學習的新思路。基于該理論,提出一種全新的基于矩陣分解的知識網絡表示學習算法 NetMF,在多個公開數據集上,算法明顯優于已有方法。此外,智譜.AI 也將該方法應用異構知識融合,利用鏈接相似度對跨語言知識圖譜進行統一建模。
工業級知識圖譜的技術難點
和未來應用場景
目前,知識圖譜在工業界的應用已經非常廣泛,半自動化的知識圖譜構建方法目前也已經基本達到了實際應用的水平。工業級的知識圖譜要能夠滿足具體的業務需求,那么,在具體的落地應用中,又面臨著哪些技術難點?
對此問題,唐杰教授表示,工業級知識圖譜的應用,難點首先是知識的精準抽取與融合,多源異構數據的融合在實際應用場景中要復雜得多,而且數據質量也很難保證。可以根據各應用領域的特征有針對性的建立抽取及融合模型,也可以結合一些預訓練模型進行分析。
其次是需要一個更加高效和友好的交互系統,輔助知識圖譜的構建和校驗,比如結合主動學習、對抗學習及小樣本學習等方法,盡量減少人工的干預;利用日常工作中使用的系統,隱式的收集標注知識等等。在應用方面,目前知識推理的研究還是一個重要的難點,為此,智譜.AI 也探索了使用雙系統理論進行認知推理,此外結合圖神經網絡及認知符號的推理方法也是一個很好的研究思路。
唐杰教授認為,目前知識圖譜的應用主要還是集中在文本分析方面,將文本數據擴展到圖像、語音等不同模態,多模態知識圖譜的表示、獲取和推理是目前值得關注的方向,學術界和工業界也都有了一些探索性的研究。盡管存在諸多技術難點,但隨著深度學習的發展和算法的不斷迭代,知識圖譜已普遍應用在了知識融合、語義搜索和推薦、問答和對話系統中,未來將會在決策推理、深度關聯挖掘等場景中發揮重要作用。
智譜.AI 首席顧問兼戰略規劃院名譽院長張鈸院士,曾經指出知識圖譜與公司的未來發展的關系:公司要辦好的前提首先是發展方向正確,要將知識驅動與模型驅動相結合,走第三代人工智能之路。其次,要找到知識真正的應用場景。知識就是力量,我們要做知識的生產者,知識圖譜與知識庫就是財富的轉換源泉。因為智譜.AI 是依托清華大學計算機系在知識圖譜和智能計算方面的長期積累,是通過學校技術成果轉化、在知識智能方向創立的第一家公司。張鈸院士曾表示,在科技成果轉化出來的公司中,最看重智譜.AI,也寄語智譜.AI:技術成果轉化具有重要意義。但作為公司,還有很長的路要走,希望智譜.AI 能夠像在學校里面做研究一樣專注把每件事做好,創造真正的價值。
知識圖譜的構建已走到下半場
從知識圖譜的構建技術看,它經歷了由人工構建到群體智慧構建到自動獲取、構建的過程。人工構建是早期知識圖譜構建的主要方法,手工構建的優點首先是準確率較高,其次是人類便于理解,缺點是效率低、成本高,構建出的圖譜規模有限。
自動或半自動的構建方法,可以不同程度的提高構建效率,降低成本,目前很多方法已經能夠實現億級知識圖譜的構建,這也得益于結構化和半結構化數據的積累。半自動化的知識圖譜構建方法在將來一段時間內仍然會是主流,尤其對醫療、安全和金融等領域,數據質量要求較高,需要通過人工審核保證準確性。
在唐杰教授看來,認為知識圖譜的構建研究已經走到下半場,知識圖譜的應用還沒有走到下半場,比如知識推理。目前已經有相當規模的工業級知識圖譜已經落地,尤其是在金融、電商、醫療、社交、文娛、教育等領域。比如企查查、天眼查等企業知識圖譜、Facebook、騰訊等社交知識圖譜、美團的美食知識圖譜等。
智譜.AI 也在科技情報領域構建了億級科技知識圖譜,包括技術、學者、論文、機構等實體、關系及屬性信息,通過網絡挖掘算法實現專家人才發現、技術洞察與趨勢分析等應用。此外,公司還和阿里合作構建了千億級的電商知識圖譜,目前也已經應用于手機淘寶的推薦,將知識圖譜自動構建準確率從 55% 提升到 88%,全面支撐手機淘寶搜索和推薦。
嘉賓介紹:
唐杰,清華大學計算機系教授、副系主任。研究興趣領域包括:人工智能、數據挖掘、知識圖譜和社交網絡。
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | BERT:Pre-trai
- 下一篇: 技术实践 | ICDE2021-大规模知