事理图谱概念辨析及其与风险标签分类结合的应用探讨
以事件為描述核心,以揭示事件之間的演化邏輯關系的事理圖譜自提出后,引起了工業界的極大興趣,在積極探索事理圖譜本質、事理圖譜構建技術細節的同時,如何找到技術與應用場景之間的結合成為目前廣泛討論的問題。我們團隊持續對以上兩個問題進行研究和實踐,積累了一些認識,寫出來與大家分享。
一、事理圖譜本質的類型和認知
目前提到“事理圖譜”這個名詞時,大家或許在認知上會有很大的差異,并會伴隨著如“事件圖譜”、“事件知識圖譜”等眾多別名的出現。從圖像感官上,“事理圖譜”與知識圖譜外觀相似,如下圖1所示的典型事理圖譜印象。
圖1-事理圖譜印象
當然,要找到一個標準統一的定義是較難的,本質和定義會隨著外部環境和應用場景而發生變化,若應用到深度學習圖神經網絡當中,事理圖譜是一種圖模型結構,在文本分析中,事理圖譜可以是一種時間線或故事線敘事鏈條,在流程性業務中,事理圖譜可以是業務狀態序列,等等。我們在實踐過程當中,總結性地認為,根據事件外部表示以及關系的不同,事件類知識圖譜主要包括事件知識圖譜、抽象事理圖譜、事件邏輯知識圖譜、領域狀態事件決策圖譜四種類型。
1、 事件知識圖譜(event knowledge graph)
事件知識圖譜,在這里,我們認為這個圖譜本身更傾向于為一個事件知識庫,事件知識圖譜的工作主要圍繞事件知識本身進行展開,關注點在于事件內部信息,如ACE中的8大類事件,將這幾類事件中的信息進行抽取和填充就能夠得到一個以特定事件類型作為分類標準的事件知識庫,如婚姻事件庫、爆炸事件庫等。最近的工作包括金融事件知識圖譜的工作,集中于資產凍結等少數幾個特定事件的事件知識圖譜。這種事件知識圖譜中的事件由特定的事件類型及其事件論元槽構成,內部關系主要考慮包括事件論元之間的關聯,對外部事件之間的關聯關注較少。
2、抽象事理圖譜(abstract event evolutionary graph)
抽象事理圖譜,最早由哈工大信息檢索實驗室在narrative chain的基礎上提出,目標是揭示事件之間的演化性,關系上主要考慮順承和因果兩種,在事件節點的設置上傾向于事件的抽象性,以原文短句的形式作為字符串表示,這種抽象性質決定了該事件不具備更為細致的內部事件信息,形式上很為簡潔。但存在的挑戰很多,例如如何抽象,抽象的力度如何控制,不同的抽象粒度會得到不同的抽象結果,適用場景也會因此而相對受限。
3、 事件邏輯知識圖譜(event logic knowledge graph)
事件邏輯知識圖譜,是綜合事件知識圖譜和抽象事理圖譜之間的一種知識圖譜類型,該知識圖譜既保留了事件知識圖譜中事件內部信息的完備性,又保留了抽象事理圖譜中外部事件表示的抽象性,具有完備性和抽象性雙重特征。不過,事件邏輯知識圖譜與事件圖譜不同,事件邏輯知識圖譜規避了事件知識圖譜的領域特征,而采用統一的事件槽,即通用的事件N個論元組對事件表示,其中論元的設置綜合考慮了回答5個W,1個H的問題的同時,更考慮事件的情緒、確定性、完成性、主觀性、權威性等信息,并通過領域實體的增加與替換來達到對不同領域的適配。本質上來說,事件邏輯知識圖譜的核心在于邏輯,而這種邏輯的本質特性是抽象性,因此事件之間的邏輯關系需要從底層的事件進行高度抽象而成,這種抽象主要體現在事件邏輯知識庫中事件外部形式的表示上。與抽象事理圖譜不同,由于有了底層具有豐富內部屬性的實例事件作為支撐,可用于事件抽象的信息更多,在事件融合方面帶來了極大的便利,另外在事件之間的關系上,進一步進行擴展,可以形成對立、條件、部分與整體等多種邏輯網絡。我們團隊目前主要在這一類事理圖譜上做了大量基礎和探索性的工作。
4、領域狀態事件決策圖譜
領域狀態事件決策圖譜,主要側重狀態事件和決策圖譜兩個部分,更偏向于描述具有典型業務流程的領域,狀態事件部分完成對業務流程的抽象和梳理,如電器維修場景下,電器維修整個業務詢問鏈條的構建,什么電器,什么故障,如果是冰箱制冷故障的話,是制冷機壞了,還是供電問題,將這些步驟進行梳理,抽象成一個個事件狀態,并為后期的決策部分提供基礎事件性的支持。這種事件決策圖譜在業務流程較為規范的場景下可以有一定應用,通過對業務流程抽象出來,能夠提升業務買方和業務賣方之間的溝通效率。
二、事理圖譜的領域性分類
作為知識圖譜的一個變體,事理圖譜很自然地繼承了知識圖譜的性質,這種性質更多的體現在知識的領域性,知識圖譜根據不同的領域可以進一步細分為百科類常識知識圖譜、語法語義類知識圖譜、金融領域知識圖譜、醫療領域知識圖譜等等,不同的知識圖譜類型決定了其應用場景的可行性、難易度以及廣度。事理圖譜在領域上主要可以分成常識性事理圖譜、風險類事理圖譜以及觸發類事理圖譜。
1、常識類事理圖譜
常識類事理圖譜,與百科類知識圖譜類似,主要目的是刻畫具有常識性的邏輯,如不喝水會很渴;長時間不睡覺會犯困;吃飯之前得先做飯;炒菜之前需要準備食材;打雷時先看到閃電再聽到雷聲等等,這類常識性的邏輯能夠應用于閑聊問答任務。例如:
問題:為什么要讀書
回答: [‘賺錢!’, ‘讀書改變命運’, ‘讀書可以改變你的容貌’, '為了融入社會,必須讀書]
問題:為什么要有女朋友
回答: [‘為下一代’, ‘因為你需要女朋友’, ‘男女搭配.干活不累’]
以上列舉了兩個閑聊式問答的例子,這種閑聊問答方式能夠補充靜態性的簡單百科知識問答,增加問題域的廣度和提升用戶提問積極性。
2、風險類事理圖譜
風險類事理圖譜,根源于決策邏輯,目的于風險控制,以提前掌握事件演化規律為前提,對未來發生的事情進行提前預知并防患于未然,它作為人們對現有邏輯知識的總結和歸納,并指導未來工作,是涉及范圍最廣的一種事理圖譜。從技術實現方式上來看,包括事件邏輯建立和事件風險分類兩個子任務。事件邏輯建立可以通過機器進行自動挖掘,也可以使用人工手動編輯錄入,依靠后套邏輯知識數據進行推薦摘錄的方式進行。由于就風險控制而言,風險事件之間的影響事件會有很多,因此構建起來的數據大多是一種局部、分散的事理影響邏輯。為了規避這種問題,在風險我們做了一定的嘗試,放在本文第三個部分詳細敘述。
3、觸發類事理圖譜
觸發類事理圖譜,通常指在業務流程型較強的一種圖譜,主要有三大要素構成,分別是原事件、觸發條件以及觸發結果事件。這類圖譜在醫療領域和司法領域使用較多,比如醫療領域之間的藥物病理觸發圖譜、掛號流程觸發圖譜,司法領域的處罰條例事理圖譜等在建成后將有重要應用價值。
以司法領域的觸發事理圖譜為例,可以構建起罪行觸發規則和條件邏輯知識網絡。以普通道路交通安全處罰依據和標準為文本來源,將條例中的事件進行抽象化,形成“罰款”、“拘留”、“吊銷駕駛證”、“記分”、“把機動車交給無駕駛證的人駕駛”、“挪用、轉借機動車牌證或者駕駛證”、“駕駛無牌無證機動車”、“不按規定超車或讓車”、“超載”、“超速”等事件,并進一步細分成違規事件和處罰事件兩類,違規事件通常會觸發處罰類事件。這兩類事件自身帶有數據屬性,如典型的“超速”事件會導致“罰款”這一事件,但不同的超速情況所觸發的“罰款”金額數值不一,因此,在描述“超過規定時速不足50%的處以200元罰款,機動車行駛超過規定時速50%的500元起”這一條款下,可以形式化表示成<超速,超速<50%,罰款200元>,<超速,超速>50%,罰款500元>,其中超速比作為兩個事件的觸發條件,罰款200元和罰款500元是“罰款”事件的兩個子事件。當然,當這個處罰邏輯知識圖譜很健全時,我們可以發現同一個原因事件可以根據不同的觸發條件直接觸發不同的結果事件,也可以間接地觸發另一個原因事件,從而再抵達結果事件。在應對復雜事件類型時,可以將復雜事件細分成多個事件,并通過觸發類條件之間的傳遞關系,最終滿足各類業務需求。
三、風險事理圖譜與標簽分類結合的應用
為了進一步探究事理圖譜在金融領域中的應用,我們嘗試更換文本領域,設計事件標簽體系,通過選定文本領域,構建金融領域因果事件庫,在此基礎上進行打標簽操作,形成一個可供檢索、分析的事理圖譜應用范式。
1、公司因果邏輯事件的風險分類
我們以A股3600多家公司為例,采集了從2009年至今10年共計1200萬的公司個股新聞資訊,應用因果事件抽取方法,抽取形成了唯一事件規模約400萬,因果事件關系240萬的因果事理圖譜,在因果事件抽取準確率方面,通過人工標注9000條因果對,準確率達到86.4%。以此圖譜數據作為后臺數據,設計風險分類方法,對400萬事件數據進行了風險分類,得到共計73萬,風險細類別數目達到140類的A股事件風險庫。圖2列舉了部分公司邏輯事件風險分類結果。
圖2-A股公司事件風險分類結果(部分)
從圖中我們可以看出,我們從行業與政策、經營、合規、財務、投資并購等層面對風險進行了分類,并在這個分類層級上進一步劃分了行業改善、行業惡化、產品問題等分類標簽,通過標簽將事件進行標引可以從事件的角度對公司個方面風險的情況進行追蹤。
2、行業因果邏輯事件的風險分類
除此之外,我們還對行業新聞進行分類,以包裝行業作為試點,通過采集包裝行業文本數據,提取該行業的因果事件。針對行業與公司的差異性,我們制定了包括市場風險、產品風險、經營風險、財務風險等11個類別的行業風險體系,并以此為依據對事件進行分類,形成行業領域事件風險分類結果。如圖3所示:
圖3-包裝行業領域事件風險分類結果(部分)
3、公司、人物主體風險分類
除風險標簽之外,由于研究對象是金融領域中的公司,我們設計了以公司主體為核心的公司層面標簽體系,包括公司實體、高管實體以及財務實體等,通過使用實體鏈接技術和標簽技術對事理圖譜中的事件進行進一步標簽細分類。有了完善的多維度事件標簽體系,可以實現不同標簽下的邏輯性事件進行追蹤和分析。例如,圖4展示了以比亞迪、復星醫藥為中心的相關風險事件。
圖4-公司主體事件風險分類結果(部分)
下圖5展示了以孟晚舟、劉強東兩位公眾人物為核心的風險事件例子,聯合上述公司為核心的風險事件,形成人-公司-風險三維一體的事理標簽體系,可以最大化地描述整個事理信息。
圖5-人物實體事件風險分類結果(部分)
4、風險分類體系自動梳理
在公司、行業之外,我們還在債券領域進行了探索性的工作,通過收集公開的債券文本,包括債券新聞、債券研究報告等,運用事理抽取技術和風險分類技術,我們構建起了一套可自動梳理風險體系的方法,如圖6展示了債券領域風險體系自動梳理和可視化的部分結果。
圖6-債券領域風險分類體系自動梳理結果(部分)
從上圖中我們可以發現,債券風險包括債券利率風險、債券收益率風險、債券市場風險以及債券評級風險等幾個風險類別,其中每個風險類別又下分成不同的子風險類別,通過對子風險類別下的事件進行關聯,可以迅速找到該事件類別下所對應的原因事件和結果事件。通過這樣的風險知識組織和展現形式,自動化的發現和梳理,并進行可視化,可以將不同標的類型的風險體系一目了然地呈現在相關從業人員眼前。
四、總結
針對不同的業務場景催生了不同的“事理圖譜”變體以及大家對“事理圖譜”概念認知的差異性,本文介紹了我們在實際的實踐過程中對不同事理圖譜概念的認識,以及事理圖譜的領域類別,并著重對在風險類別事件中的工作進行了介紹。
與知識圖譜類似,事理圖譜由于技術所限以及復雜業務場景對技術的嚴苛要求,大規模應用事理圖譜的道路還很漫長,將事理圖譜的領域特性考慮進去,并結合具體業務的需求,才能找到更好的應用落地場景。檢索和推薦類應用可能是事理圖譜短期可以落地的一個方向,運用事理圖譜抽取技術,對領域內邏輯知識進行加工,配合知識標簽技術,形成一個領域業務完整的知識網絡,提供具有前瞻性和推薦性的知識服務,將具有重大市場價值。
當然,從實現技術而言,人機互助的方式是最佳選擇和唯一出路。由于事理圖譜構建技術本身面臨著處理文本來源內容的真實性和不確定性,使用人工來對源頭進行控制,在知識抽取階段使用人工干預的方式進行校驗,逐步迭代完善,這樣才能保證數據的準確性和可信度,推進業務的進展和落地。總而言之,事理圖譜技術本身以及應用落地都需要學界和業界一同發力,技術端和產品業務端進行密切溝通和交流,形成合力。我們團隊將持續致力于信息抽取、知識圖譜、事理圖譜相關技術的研究,并密切關注與實際應用場景的結合,歡迎持續關注我們的工作,聯系郵箱:mkt@datahorizon.cn
如有自然語言處理、知識圖譜、事理圖譜、社會計算、語言資源建設等問題或合作,可聯系我:
1、我的github項目介紹:https://liuhuanyong.github.io。
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com
總結
以上是生活随笔為你收集整理的事理图谱概念辨析及其与风险标签分类结合的应用探讨的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android官方开发文档Trainin
- 下一篇: Failed to execute go