事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?
過去幾個月,深陷所謂“事理圖譜”當中,苦惱不已。從2018年4月份開始做所謂的“事理圖譜”以來至今,磕磕碰碰,做了很多技術(shù)上的嘗試,也不乏在應用事理圖譜上嘗試了多種做法,也不乏寫了幾篇關(guān)于事理圖譜的文章(實際有未想明白之處)。現(xiàn)在寫個階段性的總結(jié),以對過去在“事理圖譜”中的工作進行一種反思,工程中的事理圖譜要比學術(shù)報告PPT中的情況復雜的多,展示的圖要亂的多,性能的數(shù)字少得多。。。。。
一、事理圖譜是怎么來的?
“事理圖譜”這個詞是國內(nèi)哈工大劉挺老師首次提出,與此同時較該團隊之前有類似的工作,如中科院軟件所、數(shù)據(jù)地平線公司的工作,也叫事理圖譜。目前見學術(shù)文章的以劉挺老師的團隊為例。英文版本,出現(xiàn)過EEG(Event Eventionary Graph),或后面的(Abstract Event Graph),或后面的ELG(Event Logical Graph),定義上而言,為“事件演化的規(guī)律和模式”。
二、抽象事理圖譜VS知識圖譜?
上面所說的事理圖譜,實際上是“抽象事理圖譜”,構(gòu)成要素是抽象事件以及事件之間的關(guān)系,實際上并不是什么新事物。之前自己整理過一個關(guān)于事理圖譜與知識圖譜的對比圖,現(xiàn)在看著,這種對比實際是有問題的:
1、 可比性。
事理圖譜本身并沒有跳出知識圖譜的范疇,兩者不是平級關(guān)系,沒有可比性,真的要比,那么應該是實體知識圖譜和抽象事理圖譜。
2、靜態(tài)與動態(tài)。
之前的說法是,知識圖譜中存儲的是實體,是靜態(tài)知識,事理圖譜中存儲的是動態(tài)知識。這種說法是有問題的,靜態(tài)和動態(tài)如何去區(qū)分?名詞性實體就是靜態(tài)的,動作性事件就是動態(tài)的?還是其中一個事件與另外一種事件之間存在著一種演化關(guān)系,這種演化性就動態(tài)了?
3、新一代的問題。
我在2018年12月份寫的一篇文章中,介紹性地說,知事理圖譜是下一代知識圖譜,這種說法到現(xiàn)在我實在是比較難以認同(軟文需要),因為我到目前為止還找不到這個“下一代”的證據(jù)。事理圖譜并沒有解決知識圖譜的任何問題,存儲方式,提取方法等等,沒有發(fā)生根本性的改變。所以,不存在什么下一代的問題,事理圖譜只是一種知識圖譜變體罷了,舊瓶換新水,本質(zhì)上并沒有改變。
三、抽象事理圖譜是純學術(shù)需求?
對于事理是不是純學術(shù)需求,這個論斷困擾我很久,我越來越傾向于說YES。主要原因如下:
1、 抽象事件界定模糊。
什么是事件?什么是抽象事件?怎樣才算抽象?抽象事件怎么去顯示它?這一系列問題到目前并沒有論述清楚。此外,抽象的層級又如何去界定?這些問題都沒有解釋清楚。
2、無法管理、建模能力差。
正是由于對這種抽象性的界定不清楚,所以無法對整個現(xiàn)實社會的事件類型進行建模,這里所說的建模能力,是指具有可枚舉的層級體系的事件認知,但這個顯然沒有,沒有體系的概念,即便可以引入上下位,那也是相當噪聲的上下位,局部有效的上下位。沒有明確的事件體系和事件類型,整個事理圖譜中的數(shù)據(jù)猶如一盤散沙、形式混亂,這嚴重導致了事理圖譜在管理、可用上的障礙。
3、事件的識別模糊。
抽象的事件,怎么去識別邊界?整個事件的抽象問題都沒有定義好,這使得抽取的過程淪為了一種思路,怎么抽都行。例如,“我吃了飯,然后去了學校”,識別的事件是“吃了飯”還是“我吃了飯”,“去了學校”,還是“去學校”。這種識別出來的抽象事件其實只是一個事件片段而已,就算抽取出來了,后續(xù)的一些再抽象等之類的算法,也只會造成誤差傳播,沒法用。
4、事理圖譜單事件對概率的無效性。
這里的無效性,指的是事理圖譜在實際的應用過程中,這種概率的無效性,對于一個Ai會出來很多個Bj,針對每一個AiBj都會有條邊出來。雖然可以利用統(tǒng)計手段,對事件的條件概率進行估計,或者放到圖網(wǎng)絡中隨機游走給出一個實際的數(shù)值,但究其根本,取決于曝光度,那就是編輯們的曝光量,而一旦曝光少,但很有可能,這種統(tǒng)計方式是統(tǒng)計不到的。另外,每個AiBj發(fā)生的變量絕非單變量,相反多變量多的我們難以想象,曝光量僅僅只是其中之一。
5、事理圖譜單事件鏈條的無效性。
另外一個方面是多度的誤導性。一旦從Ai出來,不斷往后延伸,會得到一系列的Bj,Ck,Dm…等等,越往后,整個鏈條的錯誤率其實越大,原因是:1)抽象事件本身的問題,事件的抽象問題把握不好,A到B還說的是豬肉問題,B到C已經(jīng)說到感冒問題,這類問題其實特別常見,本質(zhì)問題是這種事件的上下文信息即語境信息太少,傳遞下來,語境變化太差,整個傳到邏輯就是錯的。2)錯誤的傳播。每條因果關(guān)系邊都是失真的,讓他不斷地往后走,失真的會越來越厲害。3)整個傳播邏輯的取舍難度大。假設前2個問題都已經(jīng)解決,從一個起始事件到一個終止事件,可以有很多種路徑,但哪條路徑的可能性最大,在實現(xiàn)上是很大的問題。
6、對高質(zhì)量海量語料的高度依賴
對語料的高度依賴性是所謂抽象事理圖譜構(gòu)建的最大問題之一。這種依賴性體現(xiàn)在“質(zhì)”和“量”兩個方面上,這里的“質(zhì)”是對語料的質(zhì)量來看,尤其體現(xiàn)在對事理邏輯的表達,因為有的事理不會很直白的表現(xiàn)出來,如政治領(lǐng)域中的文本,越偏向于對公正純事實的報道就越不可能有事理邏輯的存在,抽象事理是對邏輯的總結(jié),偏向于一種觀點。“量”的表達,是另一個決定因素,如果數(shù)據(jù)量很少,那么即便“質(zhì)”保證了,整個數(shù)量很少,也缺乏了實際意義。
四、事理圖譜能用的先決條件
1、 完善的事件體系作為支撐與靈活可用的事件管理機制
以因果事理圖譜構(gòu)建的方式來看,屬于一種圍繞因果觸發(fā)詞出發(fā)的一種因果關(guān)聯(lián)挖掘,而一直沒有解決事件的這種抽象性問題,所以后續(xù)有事件融合(也稱事件共指關(guān)系識別)、事件層次抽象的任務。這個任務的最終目標應該是建成一個可用的全局的事件類型體系,采用的是一種自下而上的方式加以構(gòu)建,難度非常之大。即提出了一個現(xiàn)實問題:是否能夠基于現(xiàn)有的大規(guī)模的基礎(chǔ)數(shù)據(jù),自動聚類和搭建起整個事件類型體系。
沒有事件體系的事理圖譜是一團散沙,有事件體系但缺乏事件管理機制的事理圖譜則無法應用。這種管理機制,體現(xiàn)在對事理知識庫的動態(tài)更新、多類型數(shù)據(jù)的管理上。
2、 高精準且模塊化的事理組件
事理圖譜中的事件體系問題是應該是決定事理圖譜可用性的根本條件,首先提供高精準的事件類型體系構(gòu)建方法是相當重要的,如何借助外部知識庫輔助體系的構(gòu)建,如何對冗余的事件體系進行剪枝,如何解決融合和共指問題,是決定體系的必要手段。此外,務必需要確定事理圖譜中的事件定義問題,即3.1的問題。此外,語義外部知識庫,這里的語義外部知識庫包括各種,如同義詞詞林、hownet, conceptnet等。
3、 必要的領(lǐng)域?qū)<医尤?br /> 通用的事理圖譜只能是死路一條。抽象事理圖譜對事件的表示打破了領(lǐng)域與領(lǐng)域之間的墻,使得事理邏輯在不同的領(lǐng)域中隨意穿行。領(lǐng)域?qū)<医尤?#xff0c;事件的領(lǐng)域分類、事件關(guān)系的領(lǐng)域分類都需要花費大量的力氣去做。
五、總結(jié)
事理圖譜,是一種純學術(shù)需求、無法落地、漏洞百出的新技術(shù)或新概念?目前的經(jīng)驗告訴我,如果不解決以上幾個問題,刻意回避事理圖譜的一些本質(zhì)問題,一味地扯概念,寫技術(shù)展望帖、刷模型帖,不考慮實際應用需求,那么只能是紙上談兵。畢竟,現(xiàn)在這樣的氛圍,太濃了。回到開始,事件體系+事件管理機制+領(lǐng)域事理+人機協(xié)同,真正把這個踏踏實實地做好,才能真正應用下去,我們團隊,將致力于這方面的工作。
如有自然語言處理、[知識圖譜、事理圖譜]、社會計算、語言資源建設等問題或合作,如果對事件知識庫有興趣的落地或者研究,可聯(lián)系我:
1、我的github項目介紹:https://liuhuanyong.github.io
2、我的csdn博客:https://blog.csdn.net/lhy2014
3、about me:劉煥勇,中國科學院軟件研究所,lhy_in_blcu@126.com
4、懂預言者得天下,得語言者分天下,得知識邏輯者,游得天下。
總結(jié)
以上是生活随笔為你收集整理的事理图谱:一种纯学术需求、无法落地、漏洞百出的新技术或新概念?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android官方开发文档Trainin
- 下一篇: 论文笔记(A Neural Influe