观点 | 抛开炒作看知识图谱,为什么现在才爆发?
本文轉載自公眾號:AI前線。 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
知識圖譜正在被大肆炒作,Gartner 的 2018 年新興技術炒作周期中就包含了知識圖譜。我們甚至不必等 Gartner 宣布 2018 年是“知識圖譜年”,與活躍在這個領域的所有人一樣,我們都看到了機會,但也看到了威脅:伴隨炒作而來的是混亂。
知識圖譜是真實的,它們至少已經存在了 20 年。知識圖譜的原始定義是關于知識表示和推理,如受控詞匯表、分類法、模式和本體之類的東西,它們都是建立在標準和實踐的語義 Web 基礎之上。
那么,有哪些東西發生了變化?為什么 Airbnb、亞馬遜、谷歌、LinkedIn、Uber 和 Zalando 等公司的核心業務都應用了知識圖譜?為什么亞馬遜和微軟加入了圖數據庫提供商的行列?你又能做些什么?
當知識圖譜還沒那么酷的時候知識圖譜聽起來似乎很酷,但它們究竟是什么?問這樣的問題似乎有點幼稚,但要構建知識圖譜,首先要正確地定義它們。從分類法到本體論——本質上是不同復雜性的模式和規則,而這些就是人們多年來一直在做的事情。
用于編碼這些模式的 RDF 標準就具有圖的結構。因此,將基于圖結構編碼的知識稱為“知識圖譜”是件很自然的事情,而相應的數據建模者就被稱為知識工程師或本體論者。
知識圖譜有很多應用——從編目項目到數據集成和 Web 發布,再到復雜的推理。這個領域的一些佼佼者包括 schema.org、Airbnb、亞馬遜、Diffbot、谷歌、LinkedIn、Uber 和 Zalando。這就是為什么經驗豐富的知識圖譜人士對炒作嗤之以鼻。
知識圖譜現在已經出現在新興技術的炒作周期中。對于擁有超過 20 年歷史的技術來說,還算不錯。
與其他數據建模一樣,這是一項艱難而復雜的任務。它必須考慮到很多利益相關者和世界觀、管理起源和模式漂移等。加上混合推理和 Web 規模,事情很容易失控,這就是為什么這種方法直到現在仍然沒能成為最流行的方法。
另一方面,無模式卻一直很流行。無模式可以讓你快速入門,而且至少在某種程度上,它更簡單、更靈活。但無模式可能帶有欺騙性,因為不管是什么領域,都存在模式。讀時模式(schema-on-read)?或許可以。那么完全無模式呢?
你可能不會事先對你的模式有充分的了解。它可能很復雜,而且會發生變化,但它一定存在。因此,忽略或淡化模式并不能解決任何問題,只會讓事情變得更糟。問題將會潛伏起來,并花費你更多的時間和金錢,因為它們會給開發應用程序并獲得對模糊數據洞察力的開發人員和分析人員帶來阻力。
關鍵在于不是要拋棄模式,而是讓它發揮作用,讓它變得靈活和可互換。RDF 就很好,因為它也是數據交換標準化格式(如 JSON-LD)的基礎。順便說一下,RDF 還可以用于輕量級模式和無模式方法以及數據集成。
圖譜的知識輸入和輸出那么,這項 20 年的老技術為何出現在炒作周期的新興技術中?炒作是真實存在的,而出現炒作也不是沒有原因的。這與迅速崛起的人工智能炒作一樣:并不是因為方法本身發生了變化,更多的是因為數據和算力的發展讓它可以大規模運作。
此外,AI 本身也起到一定作用?;蛘?#xff0c;更確切地說,是如今被炒得火熱的自下而上、基于機器學習的 AI。知識圖譜本質上也是另外一種 AI,但不是那種被大肆宣傳的 AI,而是那種象征性的、自上而下的、基于規則的、迄今為止仍然不是很流行的那種。
并不是說這種方法就沒有局限性。對復雜的領域知識進行編碼,并進行大規模推理是很困難的事情。因此,機器學習就像無模式方法一樣才會變得流行起來,并且有充分的理由。
知識圖譜起初可能很難,但不要放棄。實踐是走向完美的鋪路石。
隨著大數據的大肆發展和 NoSQL 的崛起,開始出現其他的一些東西。有關非 RDF 圖譜的工具和數據庫開始出現在市場上。這些標簽屬性類型( Labeled Property Kind,LPG)的圖譜更簡單和簡潔。與 RDF 相比,它們缺少模式或只提供了基本的模式功能。
它們通常在運營類應用、圖算法或圖分析方面表現得更好。最近,圖也開始被應用于機器學習。這些都是非常有用的東西。
算法、分析和機器學習可以提供有關圖的見解,一些常見的用例包括欺詐檢測或推薦系統。因此,你可以說這些技術和應用程序從圖譜中獲取知識,是自下而上的。另一方面,RDF 圖譜將知識引入圖譜,這是自上而下的。
那么,自下而上的圖譜也是知識圖譜嗎?
知識工程師可能會說,這是一個語義問題。我們很容易陷入知識圖譜炒作中。但最終,可能會因為缺乏清晰度而無法發揮太大作用。圖算法、圖分析和基于圖的機器學習和見解,這些都很好,它們也不與“傳統”的知識圖譜相互排斥。
我們之前提到的這個領域的佼佼者都使用了多種方法的組合。例如,使用機器學習來計算知識圖譜有助于構建最大的知識圖譜——至少在實例方面。這也是像 DeepMind 這樣的 AI 先驅正在研究的東西。
有些舊東西,有些新東西,有些借來的東西通常,使用何種圖譜方法和工具取決于你的實際用例。對于圖數據庫來說也是一樣的,我們一直在密切關注它的發展,一路看著新的提供商和功能的加入。
在不久前的 Strata 大會上,獲得最具顛覆性創業獎的獲獎者和亞軍都是圖數據庫:TigerGraph 和 Memgraph。如果你想要這個領域快速進展的證據,那么這就是。順便說一句,這兩家創業公司都很年輕。
對于在 2017 年 9 月低調現身的 TigerGraph 來說,這是非?;钴S的一年。TigerGraph 剛剛宣布推出了新版本。它包含了一些舊東西,一些新東西,一些借來的東西。
自上而下還是自下而上?
新東西很少。他們都在解決 TigerGraph 現有的痛點。TigerGraph 增加了與流行數據庫和數據存儲系統的集成,包括:RDBMS、Kafka、Amazon S3、HDFS 和 Spark(即將推出)。TigerGraph 表示,他們將會推出開源的數據庫連接器,并托管在 GitHub 上。
當然,如果沒有社區,Github 存儲庫也不會有太大作用。TigerGraph 正在努力,并發布了新的開發者門戶和電子書。這個版本還帶來了更多部署選項,添加了對微軟 Azure 的支持。為了跟上容器化趨勢,還增加了對 Docker 和 Kubernetes 的支持。
我們之前提到了圖算法,這可能是這個版本最有趣的方面。TigerGraph 增加了對圖算法的支持,例如 PageRank、Shortest Path、Connected Components 和 Community Detection。有趣的是,這些是通過 TigerJraph 自己的查詢語言 GSQL 來提供支持的。
我們已經提到了查詢語言對圖數據庫的重要性。最近,領先的圖數據庫提供商 Neo4j 提出了為 LPG 圖數據庫創建標準查詢語言的建議。與自帶 SPARQL 的 RDF 不同,這在 LPG 世界中尚不存在。
最開始,TigerGraph 回應了 Neo4j 的提議,但現在情況正在發生變化。TigerGraph 剛剛發布了一個 Neo4j Migration Toolkit,主要用于將 Cypher(Neo4j 的查詢語言)翻譯成 GSQL。
TigerGraph 這樣做是有道理的,因為一直要遷移現有的 Cypher 查詢體系將會成為他們發展的障礙。TigerGraph 的實現方式很有趣,他們提供了一次性的批量翻譯過程,而不是進行交互式的遷移。
這是一種戰略選擇。TigerGraph 希望人們切換到 GSQL,而不是在 TigerGraph 之上使用 Cypher。一般來說,開發人員一直不愿意學習新的查詢語言。TigerGraph 可以嘗試去說服他們,但能不能奏效完全取決于每個人。
舊東西是指 TigerGraph 發布公告包含的基準測試。這些基準測試實際上是新的,但 TigerGraph 在剛推出時就已經提供了基準測試。對于一款聲稱比其他任何解決方案都要快的產品,這樣做是無可厚非的?;鶞蕼y試將 TigerGraph 與 Neo4j、亞馬遜 Neptune、JanusGraph 和 ArangoDB 進行了對比,并且不出意料的是,它比其他產品都要快。
那么哪些東西是借來的?當然是知識圖譜。TigerGraph 的員工也證實了客戶對此表現出極大的興趣,例如知識圖譜相關活動在中國吸引了 1000 多人參與。哪個知識圖譜?現在你應該知道了。
英文原文:
https://www.zdnet.com/article/knowledge-graphs-beyond-the-hype-getting-knowledge-in-and-out-of-graphs-and-databases/
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的观点 | 抛开炒作看知识图谱,为什么现在才爆发?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 近期论文精选
- 下一篇: linux不挂断运行python文件