AAAI 2018经典论文获奖者演讲:本体论的昨天和今天
本文轉(zhuǎn)自公眾號(hào):AI科技評(píng)論。
AI 科技評(píng)論按:正在美國(guó)新奧爾良召開(kāi)的 AAAI 2018?的經(jīng)典論文獎(jiǎng)?lì)C給了《Algorithm and Tool for Automated Ontology Merging and Alignment》。這篇論文發(fā)表在 2000?年的第 17 屆?AAAI?大會(huì)上。這次頒獎(jiǎng)是為了表彰這篇論文在本體匹配和集成研究方面的先驅(qū)性貢獻(xiàn),論文中分析了這個(gè)問(wèn)題的具體情況,并提出了首個(gè)創(chuàng)新的解決方案。組委會(huì)認(rèn)為這篇論文直到今天也有重要意義,它非常清晰地定義了本體合并問(wèn)題,并創(chuàng)造了啟發(fā)式的工具來(lái)應(yīng)對(duì)這個(gè)問(wèn)題。
根據(jù)維基百科介紹,在計(jì)算機(jī)科學(xué)與信息科學(xué)領(lǐng)域,理論上,本體是指一種「形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明」。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對(duì)象類(lèi)型或概念及其屬性和相互關(guān)系;或者說(shuō),本體就是一種特殊類(lèi)型的術(shù)語(yǔ)集,具有結(jié)構(gòu)化的特點(diǎn),且更加適合于在計(jì)算機(jī)系統(tǒng)之中使用;或者說(shuō),本體實(shí)際上就是對(duì)特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達(dá)(formal representation)。本體是人們以自己興趣領(lǐng)域的知識(shí)為素材,運(yùn)用信息科學(xué)的本體論原理而編寫(xiě)出來(lái)的作品。本體一般可以用來(lái)針對(duì)該領(lǐng)域的屬性進(jìn)行推理,亦可用于定義該領(lǐng)域(也就是對(duì)該領(lǐng)域進(jìn)行建模)。作為一種關(guān)于現(xiàn)實(shí)世界或其中某個(gè)組成部分的知識(shí)表達(dá)形式,本體論目前的應(yīng)用領(lǐng)域包括:人工智能、語(yǔ)義網(wǎng)、軟件工程、 生物醫(yī)學(xué)信息學(xué)、圖書(shū)館學(xué)以及信息架構(gòu)。
趁獲獎(jiǎng)機(jī)會(huì),AAAI?組委會(huì)邀請(qǐng)了論文作者之一的?Natasha Noy?進(jìn)行演講。當(dāng)年論文發(fā)表時(shí)?Natasha Noy?還在斯坦福大學(xué)攻讀,如今她就職于谷歌研究院。
AI 科技評(píng)論把演講主要內(nèi)容整理如下,并做了不改變?cè)獾木庉嫼托薷摹?/span>
Natasha Noy:謝謝邀請(qǐng)我演講,這是一次很有趣的機(jī)會(huì)。
當(dāng)時(shí)研究這個(gè)問(wèn)題的時(shí)候我還在斯坦福大學(xué)研究生物醫(yī)學(xué)信息,當(dāng)我們?cè)谘芯可窠?jīng)細(xì)胞的時(shí)候遇到了這個(gè)問(wèn)題。論文完成后投到?AAAI ,當(dāng)告知被接收之時(shí),我們也覺(jué)得很驚喜。在座的各位如果對(duì)自己的論文不是很有信心,其實(shí)也可以投投看,最壞還能怎么樣呢。今天演講主要包含以下四部分內(nèi)容:
本體論的早期發(fā)展:需要合并,需要對(duì)齊
其實(shí)本體論的研究由來(lái)已久,它可以研究任何實(shí)物上的任何一個(gè)組成部分。它的定義可以看作是世界上任意兩個(gè)事物之間的關(guān)系。到了上世紀(jì) 80-90 年代,人工智能的出現(xiàn)重新統(tǒng)一化了問(wèn)題的形式。
這是當(dāng)年的論文,也有那個(gè)時(shí)代定義的框架用來(lái)交換知識(shí)、正式地定義問(wèn)題。如果讓智能體能夠?qū)κ澜缃⑵鹫降拿枋?#xff0c;而且理解這些描述,它們就有可能可以合作解決問(wèn)題。
這種分享知識(shí)的想法在當(dāng)時(shí)還很初級(jí),現(xiàn)在已經(jīng)迅速發(fā)展到了知識(shí)圖譜;雖然聽(tīng)起來(lái)不太一樣,但是其實(shí)和谷歌知識(shí)庫(kù)是一回事。現(xiàn)在許多公司都有知識(shí)圖譜,用它來(lái)描述關(guān)系和實(shí)體。
最初的本體論方法并不正式,現(xiàn)在已經(jīng)發(fā)展得很正式。當(dāng)時(shí)有兩個(gè)問(wèn)題在各種論壇上反復(fù)被討論提及,一個(gè)是「本體論是什么?它需要變得有多正式?什么時(shí)候才能提取出確定性的內(nèi)容?」在 AAAI 1999 的論壇上就討論了這個(gè)問(wèn)題。
另一個(gè)問(wèn)題是「是否每個(gè)領(lǐng)域都需要一個(gè)獨(dú)立的本體論,還是可以有一組共通的理論在所有領(lǐng)域內(nèi)共享」,比如在金融、生物、醫(yī)療中的本體論是否相同。這個(gè)問(wèn)題的兩種觀點(diǎn)當(dāng)時(shí)都有很多人強(qiáng)烈支持,有一些針對(duì)單個(gè)領(lǐng)域的本體論提出后就得到了很多人支持,典型的例子比如基因領(lǐng)域,表達(dá)基因和生物函數(shù)的時(shí)候,不需要考慮別的麻煩的東西,直接使用基因的本體論就好了。
到了我們寫(xiě)論文的時(shí)候,我們關(guān)心的是創(chuàng)造出一個(gè)足夠規(guī)律化的、足夠哲理化的本體論理論作為知識(shí)分享的描述方法的全部?jī)?nèi)容,不僅很適合閱讀,也會(huì)構(gòu)建出我們自己的本體論,從而有更多的研究和項(xiàng)目可以建立在上面,我們自己也會(huì)有一些交互性的工具可以使用。
重新審視這篇?AAAI 2000?的論文
現(xiàn)在看這篇論文的話,這確實(shí)是一次有趣的實(shí)踐,嘗試為這個(gè)問(wèn)題的研究做出貢獻(xiàn)。而且反正當(dāng)時(shí)也有很多人在做本體合并和對(duì)齊研究,不管我們到底有沒(méi)有發(fā)表這篇論文,我們也就是剛好碰上了這個(gè)熱門(mén)的研究課題。
不過(guò)有幾件我們嘗試做的事情到現(xiàn)在都還有意義,我們嘗試給本體合并和對(duì)齊下定義。當(dāng)時(shí)人們只能做到:這是一件事情,這是另一件事情,然后有一些公共知識(shí)的表征。
我們也設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)算法 PROMPT,作為廣泛使用的開(kāi)發(fā)工具 Protege 的插件,有不少研究者用它來(lái)幫助解決他們的問(wèn)題。
另一件我們做到了、但當(dāng)時(shí)并不那么流行的事情,就是這個(gè)工具是交互式的,我們其實(shí)花了很多心血開(kāi)發(fā)它。它的規(guī)模并不大,我們當(dāng)時(shí)并沒(méi)有很多資源,不過(guò)我們還是在考慮如何評(píng)估一個(gè)這樣的交互式系統(tǒng),要問(wèn)哪些問(wèn)題,我們?nèi)绾卧u(píng)估它確實(shí)有所不同。
合并還是對(duì)齊,這是我們當(dāng)時(shí)主要考慮的問(wèn)題之一,這真的是兩個(gè)不同的過(guò)程嗎?我們必須有一個(gè)基于本體論的工具來(lái)處理它們。在研究了一些案例之后我們覺(jué)得,確實(shí)不能把合并和對(duì)齊兩件事混為一談,必須各自獨(dú)立。我們就給它們做了不同的定義,雖然它們內(nèi)部的機(jī)理很相似,但確實(shí)是兩件不同的任務(wù)。
據(jù)此我們也就提出了我們的算法 PROMPT,它首先提出初步的建議,然后進(jìn)入這個(gè)逐步選擇、提議、驗(yàn)證的過(guò)程。
這是我們的軟件界面,作為 Protege 的插件。
我們需要考慮如何評(píng)估它。首先我們考慮了把人做實(shí)體合并的表現(xiàn)和工具的表現(xiàn)做對(duì)比,一個(gè)人用 PROMPT,一個(gè)人不用,把做出的動(dòng)作和工具建議的部分做對(duì)比,據(jù)此計(jì)算準(zhǔn)確率和召回率。在 2000 的時(shí)候還很少有人考慮這些問(wèn)題,這可能也是我們的論文顯得突出的原因。
這一點(diǎn)在今天的意義就是,我們需要考慮我們的交互式系統(tǒng)實(shí)際上要做什么、我們要解決的問(wèn)題到底是什么、是交互的部分更重要還是算法的部分更重要。
自 2000?年之后的本體匹配、合并、對(duì)齊的發(fā)展
論文本身就說(shuō)這么多。當(dāng)時(shí)就有很多不同的本體論理論在發(fā)展,到現(xiàn)在這個(gè)領(lǐng)域的研究?jī)?nèi)容非常的豐富,在谷歌上搜索都是上萬(wàn)個(gè)結(jié)果。幾乎任何相關(guān)學(xué)術(shù)會(huì)議都有本體論對(duì)齊的會(huì)場(chǎng)或者論壇。
這么多年發(fā)展下來(lái),本體論的方法方面也出現(xiàn)了很多有意思的點(diǎn)子,最初有詞法相似性、結(jié)構(gòu)相似性;也有了使用外部資源的方法;最新的還有機(jī)器學(xué)習(xí)的方法。
之所以這個(gè)領(lǐng)域有這么多的研究成果,我覺(jué)得本體對(duì)齊評(píng)估組織(OAEI)也功不可沒(méi)。它從 2004 年開(kāi)始運(yùn)轉(zhuǎn),每年都會(huì)設(shè)計(jì)不同的任務(wù)對(duì)各種方法進(jìn)行評(píng)估,基本上創(chuàng)建了許多對(duì)齊任務(wù)的黃金標(biāo)準(zhǔn)。這些任務(wù)里也是有的更正式一些,有的不正式一些,有基于不同語(yǔ)言的本體對(duì)齊對(duì)比,尤其也有我們當(dāng)時(shí)研究的生物醫(yī)學(xué)的。
參與 OAEI 評(píng)估的系統(tǒng)在前幾年也不斷增多。
當(dāng)今的本體論系統(tǒng)發(fā)展
我近期看了 OAEI 上的最新結(jié)果,醫(yī)學(xué)的這個(gè)是唯一一個(gè)大規(guī)模實(shí)驗(yàn)得到的結(jié)果,不過(guò) 2017 年的最佳表現(xiàn)的系統(tǒng)并沒(méi)有比 2004 年的系統(tǒng)提高太多。
也有過(guò)新的互動(dòng)式評(píng)估的匹配測(cè)試。
本體論的研究方面這些年來(lái)確實(shí)有各種各樣的進(jìn)步,提升了準(zhǔn)確率和召回率、能解決更復(fù)雜的問(wèn)題、有交互式評(píng)估的工具、學(xué)術(shù)會(huì)議也有本體論的會(huì)場(chǎng)等等。
不過(guò)工業(yè)界運(yùn)用本體論的例子還非常少,工業(yè)級(jí)會(huì)議幾乎不討論本體對(duì)齊,他們確實(shí)有知識(shí)圖譜,但用的方法不是本體對(duì)齊。
我自己也在思考為什么。我也嘗試查資料了解實(shí)際應(yīng)用的真實(shí)需求,想到了這些問(wèn)題,但還沒(méi)有確切的答案。再過(guò) 15 年,本體論有更好的發(fā)展的時(shí)候可能我們會(huì)有更好的答案。
不過(guò)挑戰(zhàn)可能也并不在于找到更好的對(duì)齊算法,而是讓讓更多的實(shí)際應(yīng)用能夠使用算法。
謝謝大家!
OpenKG.CN
中文開(kāi)放知識(shí)圖譜(簡(jiǎn)稱OpenKG.CN)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的AAAI 2018经典论文获奖者演讲:本体论的昨天和今天的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 如何恢复在 PyCharm 中误删的整个
- 下一篇: 解读 | 滴滴主题研究计划:机器学习专题