陈华钧 | 知识图谱构建,将成为智能金融的突破口
本文轉載自公眾號:恒生技術之眼。
我們太容易被機器下棋這樣的事所吸引,以至于現在談到人工智能就基本都是在說機器學習和深度學習,而相對忽視了與人工智能相關的另外一個重要的方向:知識圖譜。
——陳華鈞
”盡管人工智能依靠機器學習技術的進步取得了巨大的進展,例如,AlphaGoZero不依賴人類知識的監督,通過自我強化學習獲得極高的棋力,但人工智能在很多方面,如語言理解、視覺場景理解、決策分析等,仍然舉步維艱。關鍵問題在于,機器必須要掌握大量的知識,特別是常識知識才能實現真正類人的智能。
人類知識與機器知識
哲學家柏拉圖把知識(Knowledge)定義為“Justified True Belief”,即知識需要滿足三個核心要素:合理性(Justified)、真實性(True)、被相信(Believed)。簡單而言,知識是人類通過觀察、學習和思考有關客觀世界的各種現象而獲得和總結出的所有事實(Facts)、概念(Concepts)、規則或原則(Rules & Principles)的集合。人類發明了各種手段來描述、表示和傳承知識,如自然語言、繪畫、音樂、數學語言、物理模型、化學公式等。具有獲取、表示和處理知識的能力是人類心智區別于其它物種心智的重要特征。人工智能的核心也是研究怎樣用計算機易于處理的方式表示、學習和處理各種各樣的知識。知識表示是現實世界的可計算模型?(Computable Model of Reality),廣義的講,神經網絡也是一種知識表示形式。
在人工智能的早期發展流派中,符號派(Symbolism)側重于模擬人的心智,研究怎樣用計算機符號來表示人腦中的知識和模擬心智的推理過程;連接派(Connectionism)側重于模擬人腦的生理結構,即人工神經網絡。符號派一直以來都處于人工智能研究的核心位置。近年來,隨著數據的大量積累和計算能力大幅提升,深度學習在視覺、聽覺等感知處理中取得突破性進展,進而又在圍棋等博弈類游戲、機器翻譯等領域獲得成功,使得人工神經網絡和機器學習獲得了人工智能研究的核心地位。深度學習在處理感知、識別和判斷等方面表現突出,能幫助構建聰明的AI,但在模擬人的思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱。
符號派關注的核心是知識的表示和推理(KRR:Knowledge Representation and Reasoning)。早在1960年,認知科學家Allan M. Collins提出用語義網絡(Semantic Network)來研究人腦的語義記憶。WordNet是典型的語義網絡,它定義了名詞、動詞、形容詞和副詞之間的語義關系,例如動詞之間的蘊含關系(如:“打鼾”蘊含著“睡眠”)等。WordNet被廣泛應用于語義消歧等自然語言處理領域。
從“知識庫”到“推理機”
1970年,隨著專家系統的提出和商業化發展,知識庫構建和知識表示更加得到重視。專家系統的基本想法是:專家是基于大腦中的知識來進行決策,因此,人工智能的核心應該是用計算機符號來表示這些知識,并通過推理機模仿人腦對知識進行處理。依據專家系統的觀點,計算機系統應該由知識庫和推理機兩部分組成,而不是由函數等過程性代碼組成。早期專家系統最常用的知識表示方法包括基于框架的語言(Frame-based Languages)和產生式規則(Production Rules)等??蚣苷Z言主要用于描述客觀世界的類別、個體、屬性及關系等,較多的被應用于輔助自然語言理解。產生式規則主要用于描述類似于IF-THEN的邏輯結構,適合于刻畫過程性知識。
經常與知識表示并提的另外一個重要概念是機器推理,實際上推理相比于機器學習對于高層AI的實現來說可能更加重要。目前AI比較前沿的研究方向都是在考慮怎樣把連接主義所推動的機器學習能力與傳統符號主義所關注的機器推理問題相結合,以實現感知到認知層的跨越。
讓機器像人類一樣認知世界
知識圖譜說yes
知識圖譜的早期理念來自于Web之父Tim Berners Lee于1998年提出的Semantic Web,其最初理想是把基于文本鏈接的萬維網轉化成基于實體鏈接的語義網。語義網十余年的發展積累了大量語義知識庫,如:Freebase、DBpedia、Yago、WikiData等。谷歌在吸收語義網相關成果基礎上于2012年推出了基于其稱之為知識圖譜的搜索引擎產品。隨后,知識圖譜逐步在語義搜索、智能問答、輔助語言理解、輔助大數據分析等很多領域發揮出越來越重要的作用。
1989年,萬維網之父、圖靈獎獲得者Tim Berners-Lee提出構建一個全球化的以“鏈接”為中心的信息系統(Linked Information System)。任何人都可以通過添加鏈接把自己的文檔鏈入其中。他認為以鏈接為中心和基于圖的組織方式,比起基于樹的層次化組織方式,更加適合于互聯網這種開放的系統。這一思想逐步被人們實現,并演化發展成為今天的World Wide Web。
1994年,Tim Berners-Lee 又提出,Web不應該僅僅只是網頁之間的互相鏈接。實際上,網頁中所描述的都是現實世界中的實體和人腦中的概念。網頁之間的鏈接實際包含有語義,即這些實體或概念之間的關系,然而機器卻無法有效的從網頁中識別出其中蘊含的語義。他于1998年提出了Semantic Web(語義互聯網)的概念。Semantic Web仍然基于圖和鏈接的組織方式,只是圖中的節點代表的不只是網頁,而是實體(如:人、機構、地點等),而超鏈接也被增加了語義描述,具體標明實體之間的關系(如:出生地是、創辦人是等)。相對于傳統的網頁互聯網,Semantic Web的本質是知識的互聯網或語義互聯網。
在語義互聯網被提出之后,出現了一大批新興的語義知識庫。如作為谷歌知識圖譜后端的Freebase,作為IBM Waston后端的DBPedia和Yago,作為Amazon Alexa后端的True Knowledge,作為蘋果Siri后端的Viv等。尤其值得一提的是,2010年谷歌收購了早期語義網公司MetaWeb,并以其開發的Freebase為數據基礎之一,于2012年正式推出了稱為知識圖譜的搜索引擎服務。谷歌知識圖譜的宣傳口號是:“Things, Not Strings!”。所解決的核心問題是把對文本(String)的網頁搜索轉化為的對事物(Things)的語義搜索,可以看做是語義互聯網的一種商業化實現。
從“后備”到“前鋒”,現代知識圖譜遇難題
知識圖譜并非突然出現的新技術,而是歷史上很多相關技術相互影響和繼承發展的結果,這包括語義網絡、知識表示、本體論、Semantic Web、自然語言處理等,有著來自Web、人工智能和自然語言處理等多方面的技術基因。
從早期的人工智能發展歷史來看,Semantic Web是傳統人工智能與Web融合發展的結果,是知識表示與推理在Web中的應用;RDF/OWL都是面向Web設計實現的標準化的知識表示語言;而知識圖譜則可以看做是Semantic Web的一種簡化后的商業實現。
但我們要強調知識圖譜與傳統專家系統時代的知識工程有顯著的不同。首先,傳統專家系統的知識庫構建大多以實現高端的決策智能為目標,而知識圖譜雖然也被用來實現大數據決策分析(如Plantir),其首要的應用目標是輔助搜索和智能問答。另外一方面,與傳統專家系統時代主要依靠專家手工獲取知識不同,現代知識圖譜的顯著特點是規模巨大,無法單一依靠人工和專家構建。傳統的知識庫,如由Douglas Lenat從1984年開始創建的常識知識庫Cyc僅包含700萬條的事實描述(Assertion),最新的ConceptNet 5.0也僅包含2800萬RDF三元組關系描述,而現代知識圖譜已經包含超過千億級別的三元組。
知識圖譜的規模化發展
現代知識圖譜對知識規模的要求源于“知識完備性”難題。馮諾依曼曾估計單個個體的大腦中的全量知識需要2.4*1020個bits來存儲??陀^世界擁有不計其數的實體,人的主觀世界更加包含有無法統計的概念,這些實體和概念之間又具有更多數量的復雜關系,導致大多數知識圖譜都面臨知識不完全的困境。在實際的領域應用場景中,知識不完全也是困擾大多數語義搜索、智能問答、知識輔助的決策分析系統的首要難題。
此專家非彼專家
領域知識圖譜變身“百事通”
領域知識圖譜是相對于通用知識圖譜(如DBPedia、Yago、Wikidata等)而言,面向特定領域的知識圖譜,如電商、金融、醫療等。相比較而言,領域知識圖譜知識來源更多、規?;瘮U展要求更迅速、知識結構更加復雜、知識質量要求更高、知識的應用形式也更加廣泛。
通用知識圖譜與領域知識圖譜的比較
以比較有代表性的金融領域為例。在金融領域,圍繞金融的本體知識建模一直都有不少人在做。在大約10多年前,就有一批做金融信息的結構化描述的人在嘗試構建整個金融領域的本體知識模型,其中一直延續到現在的一項工作是FIBO。他們的目標就是希望能夠定義整個金融域的規則,并且是采用Top-Down的做法,這是成本非常高昂的工作,而我們現在更多的強調領域知識圖譜的構建應該從大量數據中去挖掘和總結。
金融領域比較典型的例子如Kensho采用知識圖譜輔助投資顧問和投資研究,國內以恒生電子為代表的金融科技機構以及不少銀行、證券機構等也都在開展金融領域的知識圖譜構建工作。金融知識圖譜構建主要來源于機構已有的結構化數據和公開的公報、研報及新聞的聯合抽取等。在知識表示方面,金融概念也具有較高的復雜性和層次性,并較多的依賴規則型知識進行投資因素的關聯分析。在應用形式方面,則主要以金融問答和投顧投研類決策分析型應用為主。金融知識圖譜的一個顯著特點是高度動態性,且需要考慮知識的時效性,對金融知識的時間維度進行建模。
金融知識圖譜特點(細化到具體層面論述)
此外金融領域還有一些比較適合于做知識圖譜的特點,如文本資源非常豐富,且動態性非常高。大量高度動態的新聞、公報、研報都是自動化獲取知識圖譜的有力來源,在這方面,我們可以較為深入應用實體識別、大規模自動化詞庫構建、結合遠程監督和深度學習的關系抽取等多方面的圖譜構建技術。只要一點一點積累高質量的知識圖譜,結合深度學習和自然語言處理等領域的最新進展,金融知識圖譜會發揮出門檻式的重大價值。
結語
互聯網促成了大數據的集聚,大數據進而促進了人工智能算法的進步。新數據和新算法為規?;R圖譜構建提供了新的技術基礎和發展條件,使得知識圖譜構建的來源、方法和技術手段都發生極大的變化。知識圖譜作為知識的一種形式,已經在語義搜索、智能問答、數據分析、自然語言理解、視覺理解、物聯網設備互聯等多個方面發揮出越來越大的價值。AI浪潮愈演愈烈,而作為底層支撐的知識圖譜賽道也從鮮有問津到緩慢升溫,雖然還談不上擁擠,但作為通往未來的必經之路,注定會走上風口。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的陈华钧 | 知识图谱构建,将成为智能金融的突破口的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 剑指offer-python解答
- 下一篇: ConvLab介绍及使用