东南大学王萌 | “神经+符号”学习与多模态知识发现
轉(zhuǎn)載公眾號(hào) | DataFunTalk
分享嘉賓?? |王萌博士 東南大學(xué) 助理教授
編輯整理?? |盛泳潘 重慶大學(xué) 助理研究員
導(dǎo)讀:近年來(lái),多模態(tài)一詞在知識(shí)圖譜、計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等領(lǐng)域逐漸引起越來(lái)越多的關(guān)注。從認(rèn)知科學(xué)角度看,個(gè)體感知、認(rèn)知外界多模態(tài)信息進(jìn)而形成知識(shí)的過(guò)程,通常是多種感官同時(shí)對(duì)信息進(jìn)行處理和融合,這也對(duì)應(yīng)著神經(jīng)網(wǎng)絡(luò)與符號(hào)知識(shí)兩類(lèi)人工智能方法。本文將介紹東南大學(xué)認(rèn)知智能研究所在多模態(tài)知識(shí)發(fā)現(xiàn)的最新工作,并介紹神經(jīng)網(wǎng)絡(luò)方法與傳統(tǒng)的符號(hào)知識(shí)結(jié)合相關(guān)研究進(jìn)展。
具體將圍繞以下幾部分展開(kāi):
引言——兩個(gè)例子
為什么符號(hào)知識(shí)很重要
“神經(jīng)”+“符號(hào)”學(xué)習(xí)
多模態(tài)知識(shí)發(fā)現(xiàn)
01
引言——兩個(gè)例子
首先按照我自己的風(fēng)格,先舉兩個(gè)和本次分享主題相關(guān)的例子。
第1個(gè)例子是現(xiàn)在非常火的GPT-3(據(jù)相關(guān)報(bào)道,GPT-3已開(kāi)源,大家可以用其提供的預(yù)訓(xùn)練語(yǔ)料與計(jì)算資源所學(xué)習(xí)到的淺層知識(shí))。這個(gè)例子是去年在KR 2020會(huì)議上Marcus所舉的。“一個(gè)人倒了一杯蔓越莓汁,然后漫無(wú)目的地用湯勺去攪拌了一些葡萄汁在里面,它看起來(lái)不錯(cuò)。你嘗試去聞,因?yàn)槟愀忻傲?#xff0c;所以聞不到任何味道。因?yàn)槟惴浅??#xff0c;所以你喝了它。”之后緊跟著一句話(huà),“你現(xiàn)在死了”。對(duì)應(yīng)上圖中的黑色字體,是GPT-3自動(dòng)生成的。
這個(gè)例子很有意思,GPT-3從上面這段文本中學(xué)習(xí)到/認(rèn)為的新的知識(shí)是:葡萄汁是有毒的。實(shí)際中,一個(gè)零經(jīng)驗(yàn)的人都可以從網(wǎng)上或自身的歷史經(jīng)驗(yàn)中得到一個(gè)結(jié)論:蔓越莓/葡萄汁是沒(méi)有毒的,你之所以聞不到它們是因?yàn)槟愀忻傲恕闹形覀兛吹?#xff0c;被視為異常強(qiáng)大的GPT-3在這樣一個(gè)簡(jiǎn)單的生物醫(yī)學(xué)的推理場(chǎng)景下依然會(huì)犯很低級(jí)的錯(cuò)誤。這還是給我們帶來(lái)了很多思考:符號(hào)知識(shí)/知識(shí)表示在神經(jīng)學(xué)習(xí)系統(tǒng)中是非常重要的。
第2個(gè)例子是和多模態(tài)相關(guān)的,談到神經(jīng)和符號(hào),我們知道神經(jīng)系統(tǒng)在視覺(jué)以及一些非結(jié)構(gòu)化的文本任務(wù)上取得了長(zhǎng)足的進(jìn)步。這個(gè)例子來(lái)源于NeurIPS’2020,Facebook公司提出的一個(gè)任務(wù),說(shuō)明在很多時(shí)候我們都需要多種模態(tài)的數(shù)據(jù)來(lái)共同處理。
02
為什么符號(hào)知識(shí)很重要
Bengio在2020年的ICLR上做了一個(gè)keynote,包括國(guó)內(nèi)的唐杰老師、肖仰華老師,都在提系統(tǒng)1到系統(tǒng)2的轉(zhuǎn)變,如上圖(左)。上圖(右),我們追溯至1986年Marvin Minsky(圖靈獎(jiǎng)獲得者)的《社會(huì)心智》這本書(shū),他在這本書(shū)中同樣提到了人類(lèi)大腦中的不同認(rèn)知結(jié)構(gòu),它們對(duì)于外界所傳達(dá)信息的接收能力與反應(yīng)方式也是不同的。
對(duì)上述內(nèi)容感興趣的同學(xué)或朋友們,我建議大家可以看看以上三本書(shū)。中間這本書(shū)是一個(gè)諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者寫(xiě)的一本關(guān)于認(rèn)知科學(xué)理論的書(shū),其中有一些很有意思的題目讓你去做,你會(huì)發(fā)現(xiàn)人腦在處理這些相同或類(lèi)似的任務(wù)時(shí),所產(chǎn)生的差異也是非常明顯的。哪怕是非常接近的任務(wù),有的任務(wù)你可能需要思考很長(zhǎng)的時(shí)間才能完成,有的任務(wù)你可能在直覺(jué)上一下子就能判斷出來(lái)。我想這可能也對(duì)應(yīng)現(xiàn)實(shí)世界中的一些應(yīng)用場(chǎng)景,可以幫助你找到答案。
從本質(zhì)上來(lái)講,Bengio還是從認(rèn)知學(xué)的理論去討論我們應(yīng)該用哪一種系統(tǒng)學(xué)習(xí)的機(jī)制。從知識(shí)圖譜/語(yǔ)義網(wǎng)絡(luò)的角度來(lái)看,毫無(wú)疑問(wèn),現(xiàn)有的神經(jīng)系統(tǒng)特別擅長(zhǎng)處理特定場(chǎng)景的問(wèn)題,如車(chē)牌識(shí)別、語(yǔ)義識(shí)別、機(jī)器翻譯、圖像分析等等,并且對(duì)于數(shù)據(jù)噪聲的魯棒性也比較高,這也是神經(jīng)系統(tǒng)能夠識(shí)別“千變?nèi)f化”的手寫(xiě)體數(shù)字的優(yōu)勢(shì)之所在。但是,它很難去解釋或做原子級(jí)的操作,以及很難利用傳統(tǒng)的背景知識(shí)。傳統(tǒng)的符號(hào)系統(tǒng)很難處理機(jī)器學(xué)習(xí)問(wèn)題,對(duì)于數(shù)據(jù)噪聲的容忍性低,但是它很容易被理解并且被人所評(píng)估,以及融入表現(xiàn)背景知識(shí)的設(shè)計(jì)。
從本質(zhì)上講,神經(jīng)系統(tǒng)和符號(hào)系統(tǒng)的目標(biāo)都是一致的,即輸入一個(gè)問(wèn)題(Input(Question)),產(chǎn)生一個(gè)答案(Goal(Answer))。區(qū)別在于它們擅長(zhǎng)處理的數(shù)據(jù)類(lèi)型不一樣,神經(jīng)系統(tǒng)可能擅長(zhǎng)于處理非結(jié)構(gòu)化的文本、語(yǔ)音、圖片等,通常采用的是端到端的方式;符號(hào)系統(tǒng)擅長(zhǎng)處理數(shù)據(jù)庫(kù)以及定義的模式/語(yǔ)義規(guī)則/推理規(guī)則、圖數(shù)據(jù)庫(kù)、圖譜等等。但是從任務(wù)的輸入、輸出的角度來(lái)講,它們都是一致的。
基于此,我們會(huì)發(fā)現(xiàn)這兩種系統(tǒng)各有特點(diǎn)。上圖(右)是一個(gè)視覺(jué)問(wèn)答(VQA)的例子,針對(duì)“圖中有幾只長(zhǎng)頸鹿?”這一問(wèn)題,可以回答:圖中有兩只長(zhǎng)頸鹿,但是如果問(wèn):“長(zhǎng)頸鹿和斑馬的關(guān)系?”這一問(wèn)題,如果僅通過(guò)從大量的樣本中來(lái)學(xué)習(xí),我相信是很難得到“它們都是非洲草原上的草食類(lèi)動(dòng)物”這一事實(shí)。上圖(左)是一個(gè)經(jīng)典的手寫(xiě)體識(shí)別例子,如果我們只用神經(jīng)系統(tǒng)去訓(xùn)練,我們只能判斷新樣本中4<5,5<6這樣從來(lái)沒(méi)有見(jiàn)過(guò)的手寫(xiě)體和它們之間的比較。但是對(duì)于符號(hào)之間的運(yùn)算,卻很難推斷出4<6這個(gè)運(yùn)算過(guò)程。而對(duì)于符號(hào)系統(tǒng)而言,它的泛化能力是非常強(qiáng)的,你只需要寫(xiě)一個(gè)運(yùn)算符的傳遞性規(guī)則,便可以得到想要的運(yùn)算答案。
這里提到的“神經(jīng)”+“符號(hào)”并不是說(shuō)它們兩者是對(duì)立的。我一直在跟蹤前沿的工作,我不是想說(shuō)“符號(hào)系統(tǒng)”有多么的好,而是說(shuō)我們現(xiàn)在需要的是找到所有可能的方式去補(bǔ)充深度學(xué)習(xí)目前所出現(xiàn)的問(wèn)題。這也是我本次分享的核心出發(fā)點(diǎn)。從上圖中可知,目前現(xiàn)有的神經(jīng)系統(tǒng)模型主要還是集中在感知或語(yǔ)言方面,而人類(lèi)的符號(hào)知識(shí)包含了大量的常識(shí),我們?nèi)绾文軌驅(qū)⑺鼈冇迷谏窠?jīng)系統(tǒng)里面,這方面的研究具有無(wú)限的潛力。
到底什么是符號(hào)/符號(hào)知識(shí)?在浙江大學(xué)陳華鈞老師的演講中提到,符號(hào)推理的四種類(lèi)型是:演繹(Deductive reasoning)、歸納(Inductive reasoning)、溯因(Abductive reasoning)、類(lèi)比(Analogical reasoning)。
G.Marcus在2020年的KR會(huì)議上也對(duì)符號(hào)知識(shí)進(jìn)行了概括,他說(shuō)符號(hào)知識(shí)可以分為幾類(lèi),例如變量、實(shí)例,在變量/實(shí)例上的操作,以及綁定(binding)。符號(hào)知識(shí)的泛化能力從何而來(lái)?根據(jù)Gary F.Marcus這本書(shū)中提出的觀點(diǎn),這主要得益于變量的強(qiáng)大之處,也就是說(shuō),當(dāng)我們能在一個(gè)符號(hào)系統(tǒng)中定義有代表性的變量時(shí),它其實(shí)是永無(wú)止境的泛化(open-ended generalization)。
哪些知識(shí)是可以形式化出來(lái)的,像上述提到的變量、實(shí)例是可以定義出來(lái)的,哪些又是很難去描述的。我們知道,人類(lèi)知識(shí)中其實(shí)有很多“本能”信息(innate),例如喜怒哀樂(lè),它從某種程度上來(lái)說(shuō)也是一種知識(shí)。但是它們很難用我們的符號(hào)體系去概括,這就涉及到一些心理學(xué)上的知識(shí)。這里我也給大家一個(gè)參考,Elizabeth Spelke是哈佛大學(xué)一個(gè)長(zhǎng)期從事計(jì)算機(jī)科學(xué)與心理科學(xué)研究的教授,如果你想找到答案,也可以從他的研究中獲取到一些資源。
概括而言,符號(hào)知識(shí)包括:對(duì)一類(lèi)對(duì)象的表示(Representationsof objects),一些結(jié)構(gòu)化的代數(shù)層級(jí)的表示(Structured, algebraicrepresentations),定義在變量上的運(yùn)算(Operations over variables),一些單詞級(jí)別的區(qū)別(A type-token distinction),對(duì)于集合、地點(diǎn)、路徑、軌跡、障礙物以及一些持久性質(zhì)個(gè)體的表達(dá)能力(A capacity to represent sets, locations, paths, trajectories,obstacles and enduring individuals),一種表示對(duì)象屬性的方式(A way of representing the affordances of objects),大量的時(shí)空信息(Spatiotemporal contiguity/conservation of mass),因果關(guān)系(Causality),平均變量(Translational invariance)和成本效益分析能力(Capacity for cost-benefit analysis)。以上可視為對(duì)常見(jiàn)的符號(hào)知識(shí)的系統(tǒng)性的總結(jié)。大家可以思考下,根據(jù)自己的背景知識(shí),是否可以將上述中的每一類(lèi)嵌入到神經(jīng)學(xué)習(xí)系統(tǒng)中來(lái)。
說(shuō)的再遠(yuǎn)一些,還有一些很難去定義的符號(hào)知識(shí),例如一些習(xí)慣的選擇(Habitat selection),對(duì)危險(xiǎn)、恐懼的反應(yīng),以及正義(Justice),性別以及一些傳統(tǒng)意義上的人類(lèi)的本能。當(dāng)然,致力于知識(shí)表示的科學(xué)家們還一直在探索。我們需要思考現(xiàn)有的知識(shí)表示是否還有缺陷,在S.Pinker 1994年出版的一本書(shū)中提到這樣一句話(huà)“人類(lèi)在解決任何一個(gè)現(xiàn)實(shí)世界中的問(wèn)題時(shí),上圖中所列出的機(jī)制/知識(shí)/本能至少要用到其中五種”。這引發(fā)了我們的思考,啟發(fā)我們根據(jù)上述知識(shí)列表去神經(jīng)系統(tǒng)中探索還缺乏哪些知識(shí),以及如何更好地引入它們。
符號(hào)系統(tǒng)不單單是表示問(wèn)題,符號(hào)知識(shí)也是與方法相關(guān)的。但現(xiàn)在為止,AI系統(tǒng)已經(jīng)有很多種類(lèi)型了,我們?cè)谶x擇知識(shí)表達(dá)時(shí)應(yīng)緊密聯(lián)系實(shí)際場(chǎng)景,一個(gè)核心的問(wèn)題是,在一個(gè)“神經(jīng)”+“符號(hào)”的結(jié)合系統(tǒng)中,面向一個(gè)給定的問(wèn)題,或是一個(gè)給定的人來(lái)選擇一個(gè)最合適的知識(shí)表達(dá),這樣最終可以實(shí)現(xiàn)兩個(gè)目的:一是幫助研究者跳出傳統(tǒng)的知識(shí)圖譜/知識(shí)表示的思維,進(jìn)而幫助其獲得全新的知識(shí)理解(New understanding/ insights);二是讓研究者的神經(jīng)系統(tǒng)更加個(gè)性化(Personalizationof system)。
這里舉個(gè)例子,對(duì)于在醫(yī)療領(lǐng)域中診斷高血壓的問(wèn)題:“人群中大概有0.04的人,一個(gè)患慢性病的老人患高血壓的概率為0.95等等”,在上圖中,可以分別從貝葉斯公式、代數(shù)層級(jí)的面積求法、鄰接列表、決策樹(shù)模型的層面給出了這一預(yù)測(cè)問(wèn)題的知識(shí)表示形式。因此,我們不應(yīng)該將知識(shí)表示固化于三元組,而要看解決問(wèn)題時(shí)所采用的方法。換句話(huà)而言,在神經(jīng)網(wǎng)絡(luò)中有很多種方法,對(duì)于每種方法都應(yīng)該設(shè)計(jì)它對(duì)應(yīng)的知識(shí)表示。
基于上述設(shè)計(jì)思想,我們可以充分利用人類(lèi)世界中的不同知識(shí),這些知識(shí)上的不同操作方式,不同個(gè)體對(duì)于該問(wèn)題的不同思考,核心的目的是能夠根據(jù)不同的人,不同的任務(wù)選擇相應(yīng)的符號(hào)知識(shí)與推理規(guī)則,最后將知識(shí)嵌入到模型之中(With symbols model use, inferences model enable, and knowledge modelencode)。
在知識(shí)表示學(xué)習(xí)的會(huì)議ICLR上,每年都會(huì)有精彩的分享。在2020年,其中一個(gè)令我印象深刻的報(bào)告是關(guān)于社交符號(hào)知識(shí)(Social SymbolicKnowledge)的。在很多神經(jīng)系統(tǒng)中都應(yīng)考慮到社會(huì)知識(shí)的作用,這一方面已經(jīng)有了一些工作,但是對(duì)于做“神經(jīng)”+“符號(hào)”的研究者而言,我覺(jué)得在社交符號(hào)知識(shí)方面的研究還是比較空缺的。現(xiàn)在更多的研究還是集中在事實(shí)類(lèi)的知識(shí),例如姚明的身高是多少,美國(guó)總統(tǒng)是拜登等。然而在表情識(shí)別等情感分析任務(wù)中存在大量的社會(huì)常識(shí)/知識(shí),在ICLR的這個(gè)報(bào)告中,給我們?cè)敿?xì)說(shuō)明了在哪些場(chǎng)景中,我們可以將哪些社會(huì)上的淺規(guī)則/知識(shí)來(lái)嵌入到神經(jīng)學(xué)習(xí)的系統(tǒng)中。再者,對(duì)于知識(shí)圖譜構(gòu)建,我們是否能提出一個(gè)基于社會(huì)常識(shí)的知識(shí)圖譜構(gòu)建框架,這也是一個(gè)值得去探索的方向。
總結(jié)一下,我們期望的目標(biāo)是能夠?qū)崿F(xiàn)一個(gè)“神經(jīng)”+“符號(hào)”的系統(tǒng),在這個(gè)系統(tǒng)中,我們可以集成“神經(jīng)”+“符號(hào)”的所有優(yōu)點(diǎn),最終來(lái)完成既定的任務(wù)。在IJCAI 2018的一個(gè)輔導(dǎo)報(bào)告(tutorial)中,專(zhuān)門(mén)介紹了如何來(lái)結(jié)合“神經(jīng)”+“符號(hào)”,本質(zhì)上這是一個(gè)循環(huán)的過(guò)程。
03
“神經(jīng)”+“符號(hào)”學(xué)習(xí)
下面,我將給大家介紹“神經(jīng)”+“符號(hào)”的學(xué)習(xí)方法。
我在IJCAI 2018輔導(dǎo)報(bào)告的基礎(chǔ)上,進(jìn)一步總結(jié)了“神經(jīng)”+“符號(hào)”學(xué)習(xí)方法的演化過(guò)程。現(xiàn)在還沒(méi)有任何一個(gè)系統(tǒng)敢宣稱(chēng):我的系統(tǒng)集合了“神經(jīng)”+“符號(hào)”的全部?jī)?yōu)勢(shì),大家更多的是在自己的任務(wù)上借鑒或是利用另外一個(gè)系統(tǒng)某一個(gè)環(huán)節(jié)的優(yōu)點(diǎn),這導(dǎo)致現(xiàn)有的“神經(jīng)”+“符號(hào)”學(xué)習(xí)都是側(cè)重一方而忽略另一方的。
縱觀這一研究的歷史,從2010年開(kāi)始,圖靈獎(jiǎng)獲得者Leslie Valiant就是在做“神經(jīng)”+“符號(hào)”的整合學(xué)習(xí),也出版了一系列的、可稱(chēng)為“Relational Learning”的專(zhuān)著;再往上走,就是馬爾科夫邏輯網(wǎng)絡(luò)(MarkovLogic Network),它其實(shí)是將一些神經(jīng)的方法嵌入到傳統(tǒng)的馬爾科夫網(wǎng)絡(luò)的構(gòu)建過(guò)程中;2013-2017年,知識(shí)圖譜表示學(xué)習(xí)是一個(gè)非常火熱的方向,至今仍有很多研究者在從事相關(guān)研究,其在本質(zhì)上更側(cè)重于神經(jīng)系統(tǒng)方法,但同時(shí)也引入了很多符號(hào)知識(shí);2016-2018年,牛津大學(xué)的Georg Gottlob等人提出敏捷邏輯(Swift Logic)的相關(guān)概念,在深度學(xué)習(xí)框架下嵌入了很多可推理的組件(DeductiveReasoning with DL);Yoshua Bengio所倡導(dǎo)的Deep Learning 2,以及我所介紹的多模態(tài)知識(shí)圖譜都屬于這個(gè)領(lǐng)域。
詳細(xì)來(lái)說(shuō),第一類(lèi)將神經(jīng)系統(tǒng)直接應(yīng)用于推理任務(wù)中的方法就是表示學(xué)習(xí),它其實(shí)是在用神經(jīng)的方法解決淺層的關(guān)系預(yù)測(cè)問(wèn)題(在符號(hào)系統(tǒng)中,它們本質(zhì)就是簡(jiǎn)單的推理問(wèn)題),但是我們知道,在知識(shí)圖譜表示學(xué)習(xí)中,基本上全部都是用神經(jīng)網(wǎng)絡(luò)或統(tǒng)計(jì)學(xué)習(xí)的方法去解決這個(gè)任務(wù)。還有現(xiàn)在流行的圖神經(jīng)網(wǎng)絡(luò),如GCN,GNN等,它們都是在用神經(jīng)的方法去解決淺層的推理問(wèn)題。但是我想說(shuō)的是,這里的推理更多側(cè)重的是統(tǒng)計(jì)上的推理,而不是邏輯上的演繹推理。所以這里值得我們做更深層的探討,是否可以讓神經(jīng)系統(tǒng)去做更高級(jí)別的推理。
再比如多跳問(wèn)答,相比而言,單跳問(wèn)答是一個(gè)復(fù)雜的推理或復(fù)雜的問(wèn)題,然而在傳統(tǒng)的符號(hào)知識(shí)領(lǐng)域中,它依然是一個(gè)淺層的推理。在多跳問(wèn)答中,常使用循環(huán)神經(jīng)網(wǎng)絡(luò)+注意力機(jī)制(RNN+Attention)或?qū)哟螆D卷積網(wǎng)絡(luò)(Hierarchical GCN)來(lái)解決這一問(wèn)題。
還有一種思路是通過(guò)改進(jìn)神經(jīng)網(wǎng)絡(luò)方法,使其能夠更好地嵌入到推理問(wèn)題中。上文中提到的敏捷邏輯(Swift logic),邏輯張量網(wǎng)絡(luò)(Logic Tensor Network),以及錯(cuò)誤容忍的RDF推理(noise-tolerant RDF reasoning)。這些工作極具代表性,它們并不是直接將神經(jīng)網(wǎng)絡(luò)與符號(hào)相互分離,而是嘗試在某些環(huán)節(jié),如數(shù)據(jù)不完整性、張量網(wǎng)絡(luò)的規(guī)則學(xué)習(xí)過(guò)程中引入一些神經(jīng)的方法,但是在本質(zhì)上它們還是符號(hào)推理系統(tǒng)。
還有一類(lèi)方法主要還是在做神經(jīng)系統(tǒng)面臨的問(wèn)題,主要是通過(guò)引入符號(hào)知識(shí)來(lái)提升神經(jīng)網(wǎng)絡(luò)的效果。其中具有代表性的問(wèn)題包括:信息編審問(wèn)題,如知識(shí)蒸餾(有老師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的過(guò)程,在這些過(guò)程中就可以嵌入一些邏輯的規(guī)則),遠(yuǎn)程監(jiān)督(在自然語(yǔ)言處理的過(guò)程中將知識(shí)圖譜作為監(jiān)督信息,并且在這其中去思考降噪的問(wèn)題)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,本質(zhì)上還是在用符號(hào)知識(shí)的遷移去解決一些小樣本、零樣本的問(wèn)題。
在NLP場(chǎng)景中嵌入知識(shí)的三種常見(jiàn)方法:
第一個(gè)是韓先培老師組的一個(gè)工作,他們將WordNet、Wikipedia、腳本知識(shí)(script knowledge)、相關(guān)性(relatedness)這些統(tǒng)稱(chēng)為符號(hào)知識(shí)。第一步是在一個(gè)自然語(yǔ)言任務(wù)中(如故事結(jié)尾預(yù)測(cè)任務(wù))找出相關(guān)的規(guī)則或推斷,然后去學(xué)習(xí)是否滿(mǎn)足特定規(guī)則的得分函數(shù),最后通過(guò)注意力機(jī)制去學(xué)習(xí)所有得分函數(shù)的聚合,得以對(duì)句子進(jìn)行推斷或故事結(jié)尾的預(yù)測(cè)(請(qǐng)見(jiàn)《Reasoning with Heterogeneous Knowledge for Commonsense MachineComprehension》一文)。這里總結(jié)一下:這類(lèi)方法先去發(fā)現(xiàn)一些規(guī)則,然后從損失函數(shù)的級(jí)別去判斷這些規(guī)則是否都有效,最后結(jié)合注意力機(jī)制進(jìn)行選擇。
第二類(lèi)方法是將問(wèn)題抽象為多任務(wù)學(xué)習(xí)(multi-tasklearning)的任務(wù)(請(qǐng)見(jiàn)《Incorporating Relation Knowledge intoCommonsense Reading Comprehension with Multi-task Learning》一文)。這篇文章的最大貢獻(xiàn)在于:作者提出了一個(gè)概念網(wǎng)絡(luò)(ConceptNet)。作者認(rèn)為在整合多類(lèi)型的知識(shí)時(shí)會(huì)有多個(gè)整合的損失函數(shù)(lossfunction),因此提出了一個(gè)全新的符號(hào)知識(shí),稱(chēng)為ConceptNet,最后將其抽象為一個(gè)多任務(wù)學(xué)習(xí)的過(guò)程。
第三個(gè)工作也比較有代表性(請(qǐng)見(jiàn)《Knowledge-AwareGraph Networks for Commonsense Reasoning》一文),它類(lèi)似于自監(jiān)督學(xué)習(xí)的過(guò)程,并結(jié)合最近流行的圖神經(jīng)網(wǎng)絡(luò)(GNN)來(lái)做常識(shí)知識(shí)推理。上述三類(lèi)方法是目前做的比較好的,說(shuō)明如何在神經(jīng)系統(tǒng)中嵌入符號(hào)知識(shí)的方法。
此外,符號(hào)知識(shí)還能幫助我們更好地解釋神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果,以及提供更好的可解釋性。這些都是“神經(jīng)”+“符號(hào)”學(xué)習(xí)的特點(diǎn)。
現(xiàn)有的“神經(jīng)”+“符號(hào)”網(wǎng)絡(luò)也存在一些缺陷:
我們現(xiàn)在所定義或擁有的知識(shí)是不完整的,即我們嵌入到模型中的實(shí)際上是很缺失的知識(shí)。我們真實(shí)的世界往往服從開(kāi)放世界假設(shè),那么我們會(huì)面臨嵌入的知識(shí)是不存在、不正確,還是因?yàn)闃?gòu)建過(guò)程而導(dǎo)致的缺失問(wèn)題。
嵌入的知識(shí)也不一定是百分之百正確的。
我們可以嵌入一些簡(jiǎn)單的資源,但是這些資源的表達(dá)能力是比較弱的,例如其依然受限于三元組形式的表達(dá)能力。
04
多模態(tài)知識(shí)發(fā)現(xiàn)
“神經(jīng)”+“符號(hào)”學(xué)習(xí)也是未來(lái)多模態(tài)知識(shí)發(fā)現(xiàn)中的一個(gè)探索。
1. 多模態(tài)知識(shí)圖譜?
在今年的NLPCC上我已經(jīng)對(duì)多模態(tài)知識(shí)圖譜做過(guò)相應(yīng)的介紹,下面我做一些簡(jiǎn)單的回顧。
首先多模態(tài)知識(shí)發(fā)現(xiàn)與多模態(tài)知識(shí)圖譜不是一個(gè)新的問(wèn)題,從2004到2019年,在每一個(gè)階段,研究者都有不同的定義。
其中具有代表性的工作包括,Heng Ji等老師率先提出了到底什么是多模態(tài)知識(shí)和多模態(tài)知識(shí)圖譜。他們對(duì)多模態(tài)知識(shí)圖譜的節(jié)點(diǎn)和關(guān)系給出了自己的定義。
他們總結(jié)了在將文本知識(shí)與場(chǎng)景知識(shí)融合過(guò)程中所面臨的一些挑戰(zhàn)。專(zhuān)門(mén)提到了不同模態(tài)知識(shí)的精準(zhǔn)對(duì)齊是多模態(tài)知識(shí)發(fā)現(xiàn)中的一個(gè)核心問(wèn)題。
在去年的ACL會(huì)議上,他們?cè)敿?xì)介紹了一個(gè)多模態(tài)知識(shí)發(fā)現(xiàn)的系統(tǒng)。
上圖為該系統(tǒng)的主要架構(gòu),我們可以發(fā)現(xiàn):多模態(tài)知識(shí)發(fā)現(xiàn)其實(shí)是一個(gè)龐大的工程,因?yàn)槊糠N模態(tài)的知識(shí)都有不同的抽取方法,不同模態(tài)的知識(shí)還涉及對(duì)齊以及聯(lián)合學(xué)習(xí)等核心問(wèn)題。
大家可以順著去發(fā)現(xiàn)在推薦系統(tǒng)(請(qǐng)見(jiàn)《Multi-modalKnowledge Graphs for Recommender Systems》一文)、旅游場(chǎng)景(請(qǐng)見(jiàn)《Constructionof Multi-modal Chinese Tourism Knowledge Graph》一文)、軟件工程(請(qǐng)見(jiàn)《Multimodal Knowledge Graph for Deep Learning Papers and Code》一文)以及個(gè)人生活場(chǎng)景(請(qǐng)見(jiàn)《Multimodal joint learning for personal knowledge base constructionfrom Twitter-based lifelogs》一文),都可以發(fā)現(xiàn)多模態(tài)知識(shí)發(fā)現(xiàn)和多模態(tài)知識(shí)圖譜過(guò)程中不同知識(shí)和神經(jīng)系統(tǒng)相結(jié)合的一些探索。
以及在多模態(tài)知識(shí)的表征學(xué)習(xí)方面,都可以看到各有側(cè)重的方法(請(qǐng)見(jiàn)《HGMF:Heterogeneous Graph-based Fusion forMultimodal Data with Incompleteness》一文)。
這里總結(jié)一下,我借鑒Dong老師等人的表達(dá),上圖所示為商品知識(shí)圖譜。多模態(tài)知識(shí)圖譜的發(fā)展最終會(huì)向上圖中所總結(jié)的情況一樣,在開(kāi)始時(shí)(2016-2017年),多模態(tài)知識(shí)圖譜只是傳統(tǒng)知識(shí)圖譜中的一個(gè)小塊(如圖(A)),大家剛剛開(kāi)始關(guān)注這個(gè)問(wèn)題;到2020年,我們發(fā)現(xiàn)傳統(tǒng)知識(shí)圖譜和多模態(tài)知識(shí)圖譜逐漸成為并列關(guān)系(如圖(B));未來(lái),我相信多模態(tài)知識(shí)圖譜必定是包含了傳統(tǒng)知識(shí)圖譜(如圖(D))。
2.?我們的多模態(tài)知識(shí)圖譜?
現(xiàn)在我簡(jiǎn)單介紹一下我們的相關(guān)工作。作為一個(gè)研究知識(shí)表示出生的團(tuán)隊(duì),我們主要還是立足于我們已有的知識(shí)圖譜,并不斷擴(kuò)展多模態(tài)的信息。然后對(duì)于給定的場(chǎng)景,如場(chǎng)景圖分析、人臉識(shí)別問(wèn)題,我們進(jìn)行一些神經(jīng)抽取。最后我們將由神經(jīng)系統(tǒng)抽取的粗粒度類(lèi)別信息與我們已有的符號(hào)信息相結(jié)合,并應(yīng)用于一些實(shí)體級(jí)別的任務(wù)上。上圖(右)表示我們對(duì)于多模態(tài)知識(shí)的建模,包括多模態(tài)知識(shí)圖譜的“樣子”,以及基于場(chǎng)景的多模態(tài)發(fā)現(xiàn)(類(lèi)似于場(chǎng)景圖)。
對(duì)于上圖中的每個(gè)部分,我們都有相應(yīng)的論文。
這里也做一個(gè)廣告。由于多模態(tài)數(shù)據(jù)/知識(shí)圖譜還是一個(gè)初級(jí)的研究領(lǐng)域,相信今天在座的各位同學(xué)和老師都有自己的多模態(tài)資源,我們今年在CCKS的論文征集中將有一個(gè)全新的模塊,即Resource Track。歡迎大家將自己的數(shù)據(jù)都投稿至這個(gè)模塊,同時(shí)它也是被正文錄取的。希望大家能夠在整個(gè)知識(shí)圖譜與語(yǔ)義計(jì)算的社群中樂(lè)于分享自己的數(shù)據(jù)。
以上是我們對(duì)于場(chǎng)景的理解。
例如,我們?cè)诜?hào)層級(jí)是如何求解這個(gè)問(wèn)題的。
例如在符號(hào)層級(jí),我們?nèi)绾卫脫碛械闹R(shí)去解決尾部關(guān)系類(lèi)型很少的實(shí)體抽取。
最后我們實(shí)現(xiàn)的效果是將傳統(tǒng)意義上的粗粒度的場(chǎng)景圖映射為一個(gè)實(shí)例級(jí)別的場(chǎng)景分析上。
以上為該模型的整體框架,以及相應(yīng)的實(shí)驗(yàn)結(jié)果。
3. 其它多模態(tài)發(fā)現(xiàn)任務(wù)?
首先是多模態(tài)知識(shí)的補(bǔ)全,如上圖所示。
還有如何從無(wú)標(biāo)簽視頻中抽取我們常見(jiàn)的知識(shí)。
那么多模態(tài)是否真的有用呢?
上圖是多模態(tài)機(jī)器翻譯的對(duì)抗性評(píng)價(jià)。
多模態(tài)知識(shí)圖譜在2019年ESWC這個(gè)會(huì)議上發(fā)表了一個(gè)被廣泛關(guān)注的數(shù)據(jù)集,即MMKG(multi-modal knowledge graphs)。在去年的KSEM上,中科大徐童老師也在這個(gè)數(shù)據(jù)集的基礎(chǔ)上提出了自己的模型。但是,如果你自己分析過(guò)這個(gè)數(shù)據(jù)集,就會(huì)發(fā)現(xiàn)其中包含大量的噪聲,例如阿司匹林這個(gè)藥,我們?cè)趯?duì)齊兩個(gè)知識(shí)圖譜上的阿司匹林?jǐn)?shù)據(jù)時(shí),如果使用單模態(tài)的知識(shí)圖譜去完成對(duì)齊,我們發(fā)現(xiàn)已經(jīng)能夠取得不錯(cuò)的效果。但是,如果加入照片信息,會(huì)發(fā)現(xiàn)模型的效果會(huì)降低。我們發(fā)現(xiàn)產(chǎn)生上述問(wèn)題的原因在于,其中一個(gè)知識(shí)圖譜中的阿司匹林是一個(gè)藥盒,另外一個(gè)知識(shí)圖譜中的阿司匹林是一個(gè)分子結(jié)構(gòu)。在這種情況下,實(shí)際上多模態(tài)信息起的是一種反作用。到底什么場(chǎng)景下的多模態(tài)聯(lián)合信息是有作用的,什么場(chǎng)景下的多模態(tài)信息是起反作用的,這也是接下來(lái)我們值得關(guān)注的問(wèn)題。
接下來(lái),我總結(jié)了多模態(tài)數(shù)據(jù)/知識(shí)圖譜中的真實(shí)挑戰(zhàn):
是否真正有多模態(tài)的數(shù)據(jù),如知識(shí)圖譜、文本數(shù)據(jù)、圖像和視頻等;
在符號(hào)層級(jí),我們需要去思考多模態(tài)知識(shí)/符號(hào)知識(shí)應(yīng)該如何去表達(dá);
在神經(jīng)網(wǎng)絡(luò)層級(jí),我們需要去探索多模態(tài)預(yù)訓(xùn)練語(yǔ)言模型,是否有不同模態(tài)基準(zhǔn)的對(duì)齊,以及是否有強(qiáng)大的計(jì)算資源。
最后談一下不同模態(tài)的知識(shí),不同的研究者有不同的見(jiàn)解。大家一定不要把多模態(tài)想象成圖片、文本、音頻、視頻,以及非結(jié)構(gòu)化的知識(shí)。例如在照片層級(jí),我們有cp圖像,也有核磁共振圖像,超聲圖像,其實(shí)這些都是多模態(tài)的數(shù)據(jù);在文本層級(jí),也可以定義出屬于自己的多模態(tài)信息。
上圖給出了這個(gè)領(lǐng)域未來(lái)的淺層研究方向,大家可以去探討。
今天的分享就到這里,謝謝大家。
分享嘉賓:
OpenKG
OpenKG(中文開(kāi)放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開(kāi)放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開(kāi)源開(kāi)放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的东南大学王萌 | “神经+符号”学习与多模态知识发现的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | 利用指针生成网络的知识图谱
- 下一篇: 论文浅尝 | 从树结构的长短期记忆网络改