當(dāng)前位置：首頁(yè) > 人工智能 > ChatGpt >内容正文

ChatGpt

AAAI 2018经典论文获奖者演讲：本体论的昨天和今天

發(fā)布時(shí)間：2024/7/5 ChatGpt 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 AAAI 2018经典论文获奖者演讲：本体论的昨天和今天小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

本文轉(zhuǎn)自公眾號(hào)：AI科技評(píng)論。

AI 科技評(píng)論按：正在美國(guó)新奧爾良召開(kāi)的 AAAI 2018?的經(jīng)典論文獎(jiǎng)?lì)C給了《Algorithm and Tool for Automated Ontology Merging and Alignment》。這篇論文發(fā)表在 2000?年的第 17 屆?AAAI?大會(huì)上。這次頒獎(jiǎng)是為了表彰這篇論文在本體匹配和集成研究方面的先驅(qū)性貢獻(xiàn)，論文中分析了這個(gè)問(wèn)題的具體情況，并提出了首個(gè)創(chuàng)新的解決方案。組委會(huì)認(rèn)為這篇論文直到今天也有重要意義，它非常清晰地定義了本體合并問(wèn)題，并創(chuàng)造了啟發(fā)式的工具來(lái)應(yīng)對(duì)這個(gè)問(wèn)題。

根據(jù)維基百科介紹，在計(jì)算機(jī)科學(xué)與信息科學(xué)領(lǐng)域，理論上，本體是指一種「形式化的，對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明」。本體提供的是一種共享詞表，也就是特定領(lǐng)域之中那些存在著的對(duì)象類(lèi)型或概念及其屬性和相互關(guān)系；或者說(shuō)，本體就是一種特殊類(lèi)型的術(shù)語(yǔ)集，具有結(jié)構(gòu)化的特點(diǎn)，且更加適合于在計(jì)算機(jī)系統(tǒng)之中使用；或者說(shuō)，本體實(shí)際上就是對(duì)特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達(dá)（formal representation）。本體是人們以自己興趣領(lǐng)域的知識(shí)為素材，運(yùn)用信息科學(xué)的本體論原理而編寫(xiě)出來(lái)的作品。本體一般可以用來(lái)針對(duì)該領(lǐng)域的屬性進(jìn)行推理，亦可用于定義該領(lǐng)域（也就是對(duì)該領(lǐng)域進(jìn)行建模）。作為一種關(guān)于現(xiàn)實(shí)世界或其中某個(gè)組成部分的知識(shí)表達(dá)形式，本體論目前的應(yīng)用領(lǐng)域包括：人工智能、語(yǔ)義網(wǎng)、軟件工程、生物醫(yī)學(xué)信息學(xué)、圖書(shū)館學(xué)以及信息架構(gòu)。

趁獲獎(jiǎng)機(jī)會(huì)，AAAI?組委會(huì)邀請(qǐng)了論文作者之一的?Natasha Noy?進(jìn)行演講。當(dāng)年論文發(fā)表時(shí)?Natasha Noy?還在斯坦福大學(xué)攻讀，如今她就職于谷歌研究院。

AI 科技評(píng)論把演講主要內(nèi)容整理如下，并做了不改變?cè)獾木庉嫼托薷摹?/span>

Natasha Noy：謝謝邀請(qǐng)我演講，這是一次很有趣的機(jī)會(huì)。

當(dāng)時(shí)研究這個(gè)問(wèn)題的時(shí)候我還在斯坦福大學(xué)研究生物醫(yī)學(xué)信息，當(dāng)我們?cè)谘芯可窠?jīng)細(xì)胞的時(shí)候遇到了這個(gè)問(wèn)題。論文完成后投到?AAAI ，當(dāng)告知被接收之時(shí)，我們也覺(jué)得很驚喜。在座的各位如果對(duì)自己的論文不是很有信心，其實(shí)也可以投投看，最壞還能怎么樣呢。今天演講主要包含以下四部分內(nèi)容：

本體論的早期發(fā)展：需要合并，需要對(duì)齊

其實(shí)本體論的研究由來(lái)已久，它可以研究任何實(shí)物上的任何一個(gè)組成部分。它的定義可以看作是世界上任意兩個(gè)事物之間的關(guān)系。到了上世紀(jì) 80-90 年代，人工智能的出現(xiàn)重新統(tǒng)一化了問(wèn)題的形式。

這是當(dāng)年的論文，也有那個(gè)時(shí)代定義的框架用來(lái)交換知識(shí)、正式地定義問(wèn)題。如果讓智能體能夠?qū)κ澜缃⑵鹫降拿枋?#xff0c;而且理解這些描述，它們就有可能可以合作解決問(wèn)題。

這種分享知識(shí)的想法在當(dāng)時(shí)還很初級(jí)，現(xiàn)在已經(jīng)迅速發(fā)展到了知識(shí)圖譜；雖然聽(tīng)起來(lái)不太一樣，但是其實(shí)和谷歌知識(shí)庫(kù)是一回事。現(xiàn)在許多公司都有知識(shí)圖譜，用它來(lái)描述關(guān)系和實(shí)體。

最初的本體論方法并不正式，現(xiàn)在已經(jīng)發(fā)展得很正式。當(dāng)時(shí)有兩個(gè)問(wèn)題在各種論壇上反復(fù)被討論提及，一個(gè)是「本體論是什么？它需要變得有多正式？什么時(shí)候才能提取出確定性的內(nèi)容？」在 AAAI 1999 的論壇上就討論了這個(gè)問(wèn)題。

另一個(gè)問(wèn)題是「是否每個(gè)領(lǐng)域都需要一個(gè)獨(dú)立的本體論，還是可以有一組共通的理論在所有領(lǐng)域內(nèi)共享」，比如在金融、生物、醫(yī)療中的本體論是否相同。這個(gè)問(wèn)題的兩種觀點(diǎn)當(dāng)時(shí)都有很多人強(qiáng)烈支持，有一些針對(duì)單個(gè)領(lǐng)域的本體論提出后就得到了很多人支持，典型的例子比如基因領(lǐng)域，表達(dá)基因和生物函數(shù)的時(shí)候，不需要考慮別的麻煩的東西，直接使用基因的本體論就好了。

到了我們寫(xiě)論文的時(shí)候，我們關(guān)心的是創(chuàng)造出一個(gè)足夠規(guī)律化的、足夠哲理化的本體論理論作為知識(shí)分享的描述方法的全部?jī)?nèi)容，不僅很適合閱讀，也會(huì)構(gòu)建出我們自己的本體論，從而有更多的研究和項(xiàng)目可以建立在上面，我們自己也會(huì)有一些交互性的工具可以使用。

重新審視這篇?AAAI 2000?的論文

現(xiàn)在看這篇論文的話，這確實(shí)是一次有趣的實(shí)踐，嘗試為這個(gè)問(wèn)題的研究做出貢獻(xiàn)。而且反正當(dāng)時(shí)也有很多人在做本體合并和對(duì)齊研究，不管我們到底有沒(méi)有發(fā)表這篇論文，我們也就是剛好碰上了這個(gè)熱門(mén)的研究課題。

不過(guò)有幾件我們嘗試做的事情到現(xiàn)在都還有意義，我們嘗試給本體合并和對(duì)齊下定義。當(dāng)時(shí)人們只能做到：這是一件事情，這是另一件事情，然后有一些公共知識(shí)的表征。

我們也設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)算法 PROMPT，作為廣泛使用的開(kāi)發(fā)工具 Protege 的插件，有不少研究者用它來(lái)幫助解決他們的問(wèn)題。

另一件我們做到了、但當(dāng)時(shí)并不那么流行的事情，就是這個(gè)工具是交互式的，我們其實(shí)花了很多心血開(kāi)發(fā)它。它的規(guī)模并不大，我們當(dāng)時(shí)并沒(méi)有很多資源，不過(guò)我們還是在考慮如何評(píng)估一個(gè)這樣的交互式系統(tǒng)，要問(wèn)哪些問(wèn)題，我們?nèi)绾卧u(píng)估它確實(shí)有所不同。

合并還是對(duì)齊，這是我們當(dāng)時(shí)主要考慮的問(wèn)題之一，這真的是兩個(gè)不同的過(guò)程嗎？我們必須有一個(gè)基于本體論的工具來(lái)處理它們。在研究了一些案例之后我們覺(jué)得，確實(shí)不能把合并和對(duì)齊兩件事混為一談，必須各自獨(dú)立。我們就給它們做了不同的定義，雖然它們內(nèi)部的機(jī)理很相似，但確實(shí)是兩件不同的任務(wù)。

據(jù)此我們也就提出了我們的算法 PROMPT，它首先提出初步的建議，然后進(jìn)入這個(gè)逐步選擇、提議、驗(yàn)證的過(guò)程。

這是我們的軟件界面，作為 Protege 的插件。

我們需要考慮如何評(píng)估它。首先我們考慮了把人做實(shí)體合并的表現(xiàn)和工具的表現(xiàn)做對(duì)比，一個(gè)人用 PROMPT，一個(gè)人不用，把做出的動(dòng)作和工具建議的部分做對(duì)比，據(jù)此計(jì)算準(zhǔn)確率和召回率。在 2000 的時(shí)候還很少有人考慮這些問(wèn)題，這可能也是我們的論文顯得突出的原因。

這一點(diǎn)在今天的意義就是，我們需要考慮我們的交互式系統(tǒng)實(shí)際上要做什么、我們要解決的問(wèn)題到底是什么、是交互的部分更重要還是算法的部分更重要。

自 2000?年之后的本體匹配、合并、對(duì)齊的發(fā)展

論文本身就說(shuō)這么多。當(dāng)時(shí)就有很多不同的本體論理論在發(fā)展，到現(xiàn)在這個(gè)領(lǐng)域的研究?jī)?nèi)容非常的豐富，在谷歌上搜索都是上萬(wàn)個(gè)結(jié)果。幾乎任何相關(guān)學(xué)術(shù)會(huì)議都有本體論對(duì)齊的會(huì)場(chǎng)或者論壇。

這么多年發(fā)展下來(lái)，本體論的方法方面也出現(xiàn)了很多有意思的點(diǎn)子，最初有詞法相似性、結(jié)構(gòu)相似性；也有了使用外部資源的方法；最新的還有機(jī)器學(xué)習(xí)的方法。

之所以這個(gè)領(lǐng)域有這么多的研究成果，我覺(jué)得本體對(duì)齊評(píng)估組織（OAEI）也功不可沒(méi)。它從 2004 年開(kāi)始運(yùn)轉(zhuǎn)，每年都會(huì)設(shè)計(jì)不同的任務(wù)對(duì)各種方法進(jìn)行評(píng)估，基本上創(chuàng)建了許多對(duì)齊任務(wù)的黃金標(biāo)準(zhǔn)。這些任務(wù)里也是有的更正式一些，有的不正式一些，有基于不同語(yǔ)言的本體對(duì)齊對(duì)比，尤其也有我們當(dāng)時(shí)研究的生物醫(yī)學(xué)的。

參與 OAEI 評(píng)估的系統(tǒng)在前幾年也不斷增多。

當(dāng)今的本體論系統(tǒng)發(fā)展

我近期看了 OAEI 上的最新結(jié)果，醫(yī)學(xué)的這個(gè)是唯一一個(gè)大規(guī)模實(shí)驗(yàn)得到的結(jié)果，不過(guò) 2017 年的最佳表現(xiàn)的系統(tǒng)并沒(méi)有比 2004 年的系統(tǒng)提高太多。

也有過(guò)新的互動(dòng)式評(píng)估的匹配測(cè)試。

本體論的研究方面這些年來(lái)確實(shí)有各種各樣的進(jìn)步，提升了準(zhǔn)確率和召回率、能解決更復(fù)雜的問(wèn)題、有交互式評(píng)估的工具、學(xué)術(shù)會(huì)議也有本體論的會(huì)場(chǎng)等等。

不過(guò)工業(yè)界運(yùn)用本體論的例子還非常少，工業(yè)級(jí)會(huì)議幾乎不討論本體對(duì)齊，他們確實(shí)有知識(shí)圖譜，但用的方法不是本體對(duì)齊。

我自己也在思考為什么。我也嘗試查資料了解實(shí)際應(yīng)用的真實(shí)需求，想到了這些問(wèn)題，但還沒(méi)有確切的答案。再過(guò) 15 年，本體論有更好的發(fā)展的時(shí)候可能我們會(huì)有更好的答案。

不過(guò)挑戰(zhàn)可能也并不在于找到更好的對(duì)齊算法，而是讓讓更多的實(shí)際應(yīng)用能夠使用算法。

謝謝大家！

OpenKG.CN

中文開(kāi)放知識(shí)圖譜（簡(jiǎn)稱OpenKG.CN）旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián)，促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。

點(diǎn)擊閱讀原文，進(jìn)入 OpenKG 博客。

總結(jié)

以上是生活随笔為你收集整理的AAAI 2018经典论文获奖者演讲：本体论的昨天和今天的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：如何恢复在 PyCharm 中误删的整个
下一篇：解读 | 滴滴主题研究计划：机器学习专题