领域应用 | 金融资管领域知识图谱的构建和应用
轉載公眾號 |?DataFunTalk
? ? ? ? ? ? ? ?? ? ? ?
分享嘉賓:李漁?熵簡科技 聯合創始人
編輯整理:唐汝佳
出品平臺:DataFunTalk
導讀:本次分享的主題是金融資管領域知識圖譜的構建和應用,主要介紹如何運用大數據、AI這些技術手段,來幫助金融資管客戶構建一套面向金融資管領域的知識圖譜系統。主要內容包括:
金融資管行業為什么需要知識圖譜系統
數據接入:多源異構數據采集平臺
熵簡知識圖譜系統核心技術
熵簡知識圖譜的典型應用
01
金融資管行業為什么需要知識圖譜系統
先簡要介紹下熵簡科技,我們公司成立于2017年,是一家為金融機構提供數據智能整體解決方案的金融科技公司。具體情況介紹如下圖所示。
所以,在我們看來,為什么金融資管行業需要知識圖譜系統?
1. 投資研究:對抗信息不對稱和認知不對稱
我們知道資本市場是一個典型的非完美博弈市場。投資的本質是基于時間維度做價格預測,賺取預期差的錢。而這種預期差主要是來源于那么信息的不對稱和認知的不對稱。其中認知的不對稱會導致“他知我不知”;信息的不對稱會令人無法充分利用顯性的信息,導致“只知其一,不知其二”的現象。
現實中,我們人腦是有限注意力的,再資深的研究員和基金經理也會面臨不同程度的信息盲點和認知盲點。因此,我們希望構建一套智能化投資研究系統(簡稱智能投研系統),其核心價值就是幫助投資者持續的對抗其相較于市場的信息不對稱和認知不對稱上,獲取到競爭優勢。
2. 智能投研流程:平臺化、工業化、可沉淀
什么是智能投研?簡單來說:以海量數據為驅動力,通過采集研究標的的生產經營活動等數據,利用NLP技術,對數據進行智能化處理,以形成便于解讀的指標,并利用機器學習技術,對指標進行進一步的建模分析,最終形成具有決策參考價值的投研情報。
什么是智能?在熵簡知識圖譜中,我們認為,智能=數據(數據中臺)+邏輯(知識圖譜)。利用數據中臺豐富金融投資數據的多樣性,幫助投研人員提升競爭優勢,拓寬數據的使用邊界。通過知識圖譜承載投研邏輯,將數據轉化為知識,幫助金融機構實現研究框架沉淀和結構化表達。
3. 熵簡智能投研體系:產品組件架構
上圖中為熵簡知識圖譜的產品架構設計。我們經過幾年的探索,構建起一套完整的面向金融投資的數字化體系,整個產品矩陣分為數據層、中臺層和業務層。
數據層的核心任務是數據獲取,我們打造了一套將傳統數據和另類數據相融合的數據生產平臺,幫助我們的客戶以更低的成本觸達更加豐富的研究素材。
中臺層的核心任務是將多源異構數據轉變為投資研究直接可以使用的指標數據、決策支持數據。其中我們提煉了三大中臺:數據中臺、知識中臺和算法中臺。
應用層的核心人物是將知識和事實應用于各類資管的投資場景當中,比如說模擬組合、合規風控等。
02
數據接入:多源異構數據采集平臺
1.?數據生產平臺的需求和挑戰
在前面提到過,金融競爭的本質來自于信息不對稱,因此但凡對于投資標的有一定參考價值的數據都需要納入進來,金融投資需要廣泛且多樣的數據和信息。針對這些需求,數據生產平臺實現了對海量異構數據源(包括研究資訊、宏觀經濟數據、互聯網公開數據等)和數據類型的采集和監控。
在數據生產平臺中,最核心的任務是如何構建一個兼容數千種不同的數據源類型、日處理的數據量在TB級別的大數據采集系統。
解決這個任務面臨三個方面的挑戰:
第一點:如何實現異構來源網站的海量數據抓取;
第二點:如何能夠以比較低的成本快速拓展新的數據源;
第三點:在上千個數據源的情況下如何保證數據采集的實時性和穩定性。
2. 海量數據+異構來源的解決方案:云原生的采集系統
為了解決數據海量和異構來源的問題,我們采用了云原生架構構建大數據采集系統。
系統以kafka為消息中心,采用事件驅動模型,構建在高可用的Kubernetes集群之上。在 kubernetes上,整個系統由4大功能模塊構成,分別是用戶控制臺、數據采集引擎、數據存儲服務、監控和日志服務。我們會把數據采集當中所涉及到的底層技術要素全部進行封裝,用戶只需要通過簡單的配置就可以完成數據采集的任務,大大簡化數據采集過程。
云原生架構的系統,具備微服務化和容器化的特點。
微服務化——所有組件和服務互相解耦并且獨立運行,以支持上千種不同數據源的采集;
容器化——通過容器編排引擎本身的動態伸縮能力,系統可以自動應對TB級別的數據洪峰的沖擊。
3. 新數據源快速拓展的解決方案:AI賦能的智能化網頁抽取系統
簡單來說,對于這樣一個系統,我們只需要給出想要抓取網頁網址,系統就能夠自動識別出該網頁哪些字段是標題,哪些字段是正文,哪些字段是日期,而不再需要去翻頁,也不需要人工的一個頁面一個頁面去配置。
實現原理:如上圖所示,網頁布局中,每個網頁都可以等價為一棵樹,網頁上的文本、圖片都是樹上各個節點所攜帶的信息。想要從原始網頁上提取核心字段,具體分為兩步:① 將不屬于提取內容的節點刪掉;② 根據各個節點在樹的位置,將節點中的信息序列化為一維文本。
為了將不屬于提取內容的節點刪掉:
第一步:需要將HTML標簽進行數字化表示,我們受到谷歌word2vec算法的啟示,提出了tag embedding算法,關鍵思想是學習tag之間的共現關系來實現tag的分布式表示。優點是可以在大規模數據集上進行無監督訓練,學習出不同標簽之間的語義關系,而不依賴于人工的標注,從而實現HTML標簽在50維空間上的分布式表示,并且顯著提高后續分類模型的泛化能力,顯著降低后續的分類模型對于標注數據量的需求。
第二步:在tag embedding基礎上,通過三層前饋神經網絡的二分類器,來判斷節點是否應該保留。輸入特征是主要包括三大類:1.父節點的標簽信息(parent node vector);2.子節點的標簽信息(child node vector);3.當前節點的一個標簽信息(current node vector)、以及當前節點其他的特征:文本長度(text length current node)、超鏈接個數(the number of hyperlink of current node)。我們是在10萬個標注數據上對模型進行訓練,數據來自于50多個新聞資訊網站,在多個網站上進行的測試表示:標記的準確率能夠達到97%上,正文中抽取的準確率能夠達到95%以上。
除此之外,這個方法還可以推廣到其他應用場景,比如說網頁類型的識別,判斷當前頁面的類型是目錄頁、廣告頁、其他頁。
4. 數據采集層技術架構:完善的數據校驗和監控系統
為了保證系統能夠高質量穩定的進行數據采集和監控,我們在系統中也構建了一套完備的監控和報警系統,當任何一層一旦發生問題,就可以向運維人員報警,以保證系統的穩定性。
03
熵簡知識圖譜系統核心技術
1. 知識圖譜系統的典型需求
2. 知識圖譜系統架構
3. 知識中臺層技術架構:核心技術
以上列出了知識圖譜系統面臨的幾大核心挑戰:
金融資管場景下的本體設計,通用知識圖譜以三元組的結構為主,只能存放簡單知識,沒辦法滿足金融領域復雜知識和邏輯的組織需求。所以我們針對金融資管領域的需求,設計了專門的本體體系。
如何利用AI的技術來輔助實現人機協作的圖譜構建,我們通過這種人機協作的模式,實現高質量知識圖譜的持續的生長。
投研圖譜的知識推理;
時間維度的動態建模。
因為時間的原因,今天主要是重點介紹前面兩點。
4. 熵簡知識圖譜本體體系
前面提到,通用知識圖譜以三元組結構為主,存放的知識比較簡單,沒辦法滿足金融領域復雜的組織需求。而我們的設計目標是通過層次化概念組合,全面精準的表示投資標的,滿足至少90%以上的金融分析的一個需求。所以,我們的本體體系一共分為三層,分別是金融實體層、金融概念層和金融事實層。
上圖為知識圖譜本體體系的可視化展示,不同顏色代表不同的節點類型,包含三大類節點,金融實體、金融概念和金融事實。
從這張圖,可以看到,通用知識圖譜是我們圖譜的一個子集,在我們的圖譜當中,除了包含年齡、任職的關系等通用知識圖譜中的知識外,還包含了許多層次化的金融概念和金融事實。
比如對一家公司的投資分析,可以從運營能力、盈利能力、品牌知名度、行業驅動因素等多個維度進行。對于一個人物實體,除了年齡等基本信息外,還包括像財務輿情、私生活輿情相關的知識,因為現實中財務輿情、私生活輿情對于該公司的未來走向可能會產生一些重大的影響,所以這也是熵簡知識圖譜中的一個重要信息,或者說一個知識的維度。
① 本體內知識構建的關鍵技術:知識匹配
在構建好本體體系后,如何將這些指標數據等,與相應的金融概念進行知識匹配。為此,我們構建了一個基于語義層次分類的知識匹配模型,本質上是一個多層次短文本分類模型,它本質上是一個多層次短文本分類模型,采用Hierarchy TextCNN和memory block架構相結合,兼具強泛化和高精度。目前已經實現了兩級的金融概念分類,可以將數據的標題與相應的金融概念進行匹配,涵蓋了三十多個金融類別。但這種方法中,類別是固定的,所以我們又引入了基于相關性檢索的匹配模型,將金融概念分類問題等價為搜索問題,其對于類別外的金融概念匹配,具有更好的泛化能力。
基于相關性檢索的匹配模型,是一個簡化的搜索系統,分為兩個部分:實時預測和離線處理。在離線處理部分,系統對現有的知識圖譜上的各個節點進行屬性提取、關鍵詞提取等預處理,并在數據庫中建立相關的索引。在實時預測部分,對于每個新數據,通過短文本理解、召回、結果排序的三階段處理,我們可以從數據庫中匹配到與當前這條數據在金融概念上最接近的一條或多條數據,由此得到相應的金融概念。
② 本體內知識構建的關鍵技術:知識抽取
經過結構化數據的知識匹配后,對于年報、財經新聞等非結構化文本,需要進行知識抽取。為此,我們首先構建一個句子級別的金融概念識別模型,將知識抽取的問題等價為句子級別序列標注問題,逐句的對研報內容進行分析。當文本片段很長時,我們使用算法中臺里的FinBERT構建文本自動摘要模型,將識別為同一概念的句子集合,總結融合為不超過50字或者30字的短文,從而形成金融事實的描述性文本。
FinBERT預訓練方式
這里介紹一下FinBERT工作,FinBERT是熵簡知識圖譜系統算法中臺的核心語言模型,用,我們是用幾百萬的研報、財經新聞對原生bert進行二次預訓練,得到的適用于金融領域的bert,我們稱之為finbert,圖中右側為整個finbert的訓練框架,相對于原生的bert,我們主要做了三方面的改進:
引入金融領域語料,包含了30億的token,超過了原生bert的預訓練規模。采用100多萬篇左右的金融財經類新聞,200多萬篇各類研報,以及從公開渠道收集到的金融類百科詞條大概100多萬條;
基于金融詞典,引入了全詞mask,代替了原本字級別mask,這樣可以更好的把金融領域的知識和概念引入到模型當中,我們通過權威詞典、學術期刊等渠道收集了大約10萬詞規模的金融領域專門詞匯。
加入了一些語義級別的監督任務,比如說行業分類、機構、人物實體提取等,另外為了提高整體的效率,我們在訓練過程中引入了混合精度的運算。它可以至少降低一半的模型對顯存的占用,同時還能夠提高模型的訓練速度,大概能夠提高三倍。
知識抽取具體介紹
這里介紹如何從表格中抽取知識。
比如說從研報的表格中抽取知識,平常有看研報習慣的同學知道很多研報的第一頁會有一張盈利預測表,表格會直接列出這家研究機構對于公司未來幾年的業績預測,所以這個表格的數據是很值得我們把它提取出來、并且匹配到相應的知識圖譜的節點上的。自動提取表格分為以下兩步:
針對研報表格提取這個場景,熵簡科技自研了一套PDF圖表提取工具,利用目標檢測OCR識別PDF、表格解析等各類的技術,從研報的表格當中把數據提取成結構化數據。
對于結構化數據,利用前面提到的分層次的語義分類模型,以及基于相關性搜索的匹配技術,把抽取出來的知識關聯到相應的圖譜的節點上。
③ 本體內知識構建的關鍵技術:實體鏈接
實體鏈接的核心目標是將前一步知識匹配和知識抽取階段得到的知識,鏈接到知識庫相對應的實體上。上圖左邊展示了實體鏈接的整套流程,一共包含5個步驟,分別是命名實體識別,實體庫/知識圖譜實體聯合召回,以及實體消歧和基于上下文匹配的實體排序,以及最終的實體判決步驟。
a. 命名實體階段:
我們采用了改進Transformer網絡+crf模型進行人物和公司實體的提取,相對于傳統的 transformer結構,我們這個地方主要是有三方面的改進:在輸入層同時引入了字向量和bigram向量,它可以顯著的提高網絡的編碼能力;引入了前面提到的finbert做一些蒸餾學習,可以一定程度提高現有輕量級網絡的提取能力。
為了進一步提高整體的實體召回率,收集外部實體,并結合知識圖譜上的現有實體,構建了一個龐大的實體庫,涵蓋了A股、港股、中概股以及600多萬家公司的一個實體的數據,再通過AC自動機進行直接的匹配召回。
結合這兩種方式,我們可以實現一個F1值超過0.95的、精確度比較高的實體提取過程。
b.采用基于FinBERT的孿生網絡對進行實體消歧和實體排序,最終根據排序分數來確定知識片段中的實體在知識圖譜中的位置。FinBERT分別對于知識圖譜中的候選實體與知識片段中的實體進行編碼,最終在隱空間進行相關性分析,獲取其匹配分數。
④ 本體內知識構建的關鍵技術:知識融合
知識融合的目的,是將匹配到知識圖譜上同一實體、同一屬性的金融事實,但來源不同、時效不同、質量不同的多條知識進行融合,剔除掉冗余的信息,保持圖譜知識的準確、精煉。對于同一個節點的信息,我們會按照時效性、權威性、豐富度、觀點沖突這四個維度進行融合,把多余、錯誤的信息去除掉,突出相對價值量最大的信息。對于時效性,我們根據金融事實的時問戳以及消息類型來判斷知識優先級,一般而言,越近的知識權重越高。對于權威性,不同來源的金融事實具備不同的可信度,對于研報來源,可根據券商評級來給予不同的權重。比如說從人民日報提取的知識一定比自媒體信息的權威性更高。在一些情況下,也要綜合考慮時效性和權威性,比如說對于GDP,國家統計局給出的數據即使顯著早于某些媒體上公布的數據,但我們也依然以國家統計局的數據為準。
04
熵簡知識圖譜的典型應用
最后一部分,介紹一個下游場景的應用:智能投研助手。
上圖舉例了5G行業知識圖譜的構建和應用案例,圖中可以看到:5G圖譜包含了二級市場的行情數據等,也包括一些非結構化的5G輿情數據。在這個基礎上,結合前面提到的整套構建框架,我們就可以得到整個5G行業知識圖譜。
今天的分享就到這里,謝謝大家。
分享嘉賓:
?
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的领域应用 | 金融资管领域知识图谱的构建和应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文浅尝 | 面向视觉常识推理的层次语义
- 下一篇: 大型网站架构设计