论文浅尝 | 重新审视语言模型与知识库的关系
筆記整理:陳卓,浙江大學(xué)在讀博士,主要研究方向?yàn)榈唾Y源學(xué)習(xí)和知識(shí)圖譜
論文鏈接:https://arxiv.org/pdf/2106.09231
發(fā)表會(huì)議:ACL 2021
動(dòng)機(jī)
這篇文章類(lèi)似于是批判性的文章,反駁的之前EMNLP2019的一篇文章knowledge models as knowledge bases?這篇文章提出了一個(gè)觀(guān)點(diǎn):語(yǔ)言模型是一種知識(shí)庫(kù),因?yàn)樗梢曰卮鹨恍в兄R(shí)性質(zhì)的完形填空問(wèn)題。這篇文章重新審視了這個(gè)觀(guān)點(diǎn),做了三大部分的實(shí)驗(yàn),來(lái)證明語(yǔ)言模型不是一個(gè)可靠的知識(shí)庫(kù)。首先拋出疑問(wèn),這種MLM的模型預(yù)訓(xùn)練語(yǔ)言模型它是否是一個(gè)可靠的知識(shí)庫(kù)?針對(duì)這個(gè)疑問(wèn),作者進(jìn)行了以下兩個(gè)步驟的測(cè)試:
(1)首先是找出MLM在知識(shí)相關(guān)任務(wù)上取得提升的核心因素到底是什么?
(2)外部的信息是如何去影響模型的一個(gè)預(yù)測(cè)結(jié)果的。
得到最后結(jié)論之前作者定義了三種范式:分別是基于prompt、case、context。把它們分別就是用中文形象表示:
(1)第一種就是直接發(fā)問(wèn),類(lèi)似于問(wèn)斯蒂夫喬布斯是出生在哪,就直接給了“Jobs was born in [MASK].”。
(2)第二部分舉三反一,作者舉了一個(gè)例子,奧巴馬出生在夏威夷,那么喬布斯出生在哪?
(3)第三個(gè)檢索知識(shí),就是說(shuō)作者用jobs was born in到知識(shí)庫(kù)去檢索一段話(huà),得到一個(gè)知識(shí)作為模型的先驗(yàn)來(lái)輔助后面的識(shí)別。
作者總結(jié)的這三種方式分別最后證明現(xiàn)在的MLM不是可靠的這種外部知識(shí)提取器,接下來(lái)進(jìn)行展開(kāi)。
實(shí)驗(yàn)
實(shí)驗(yàn)分為三部分。
第一部分是基于prompt的方法。作者構(gòu)造一個(gè)新的數(shù)據(jù)集WIKI-UNI(是專(zhuān)門(mén)針對(duì)于之前emnlp那篇文章中LAMA數(shù)據(jù)集所構(gòu)造了一個(gè)針對(duì)性數(shù)據(jù)集),格式為完形填空形式,這里每一個(gè)填空都是需要某種意義上的外部知識(shí),好比是三元組的頭實(shí)體或者尾實(shí)體缺失。WIKI-UNI跟它的區(qū)別就WIKI-UN在于答案的分布。如圖所示,
原來(lái)的LAMA數(shù)據(jù)集是直接根據(jù)比如說(shuō)Conceptnet或者是一些大型的知識(shí)庫(kù)構(gòu)造過(guò)來(lái)的,沒(méi)有考慮里面答案的一些分布特征,即平時(shí)所討論的長(zhǎng)尾效應(yīng)。像舉了這個(gè)例子中的答案,從倫敦到墨西哥的一些城市,在原來(lái)的數(shù)據(jù)集里面,可能倫敦出現(xiàn)的次數(shù)很高,但墨西哥基本上就沒(méi)有出現(xiàn),所以出現(xiàn)這種答案分布不均的情況。WIKI-UN刻意規(guī)避了這一點(diǎn),它讓所有的答案的分布是均勻的,圖左是作者的數(shù)據(jù)統(tǒng)計(jì)。
作者之所以這么做的目的就是說(shuō)把這兩個(gè)數(shù)據(jù)集的問(wèn)題都放到模型里面去預(yù)測(cè)出來(lái)答案,結(jié)果發(fā)現(xiàn)預(yù)測(cè)出來(lái)的答案的分布確實(shí)很接近(哪怕真實(shí)的答案是均勻的,最后預(yù)測(cè)出來(lái)的答案的分布也是這種不均勻的長(zhǎng)尾分布),所以作者得出了一個(gè)結(jié)論,認(rèn)為語(yǔ)言模型里所謂的知識(shí)其實(shí)是一種data bias,即數(shù)據(jù)的偏見(jiàn)。模型在學(xué)習(xí)的時(shí)候哪些樣例見(jiàn)的多一些,就更傾向于預(yù)測(cè)這種東西,而不是說(shuō)把知識(shí)預(yù)測(cè)出來(lái)。作者在右邊相關(guān)性分析里面也證明了這一點(diǎn)——兩個(gè)數(shù)據(jù)集最后的答案分布相關(guān)性很高。此外作者還補(bǔ)充了一個(gè)實(shí)驗(yàn),即設(shè)計(jì)了不同的prompt,區(qū)別在于有無(wú)subject。比如說(shuō)史蒂夫喬布斯出生在什么地方,這個(gè)是full,然后把史蒂夫喬布斯也mask掉,只剩下出生在這樣一個(gè)“出生在什么地方”的關(guān)系,這個(gè)就是prompt only。在這兩種模式下的答案分布相關(guān)性也很高,這就說(shuō)明不管是喬布斯也好,還是還是庫(kù)克也好,只要關(guān)系是“出生在”那么他們可能都很大概率會(huì)預(yù)測(cè)出類(lèi)似的地點(diǎn),也就是它被 prompt的設(shè)定所影響。
第二部分是基于case。像這個(gè)例子:“Obama was born in Hawaii. [SEP] Steve Jobs was born in [MASK].”。前面是給了一個(gè)例子作為參考,前人認(rèn)為case起到知識(shí)引導(dǎo)的作用,但作者實(shí)驗(yàn)發(fā)現(xiàn)在這里case主要起一個(gè)type約束作用。
或者說(shuō)是起到一個(gè)對(duì)type的糾正作用作者統(tǒng)計(jì)了加了case之后糾正正確的答案中類(lèi)型變化的比例,可以看到其實(shí)也都很高了,都在85%以上,然后糾正錯(cuò)誤的答案中糾正錯(cuò)誤就是本來(lái)是對(duì)的,加了case之后就答案錯(cuò)了。此外,這些里面哪怕是模型糾正錯(cuò)了,這些預(yù)測(cè)答案的類(lèi)型也基本沒(méi)有變化,所以作者認(rèn)為效果的提升并不是因?yàn)轭A(yù)測(cè)的更好,而是對(duì)類(lèi)型的糾正的更好。
另一個(gè)實(shí)驗(yàn)也證明了這個(gè)觀(guān)點(diǎn):同一類(lèi)型答案的內(nèi)部是沒(méi)有什么提升的,就像這個(gè)圖這樣,對(duì)于一個(gè)正確答案在加了 case之后的提升有多少?作者為了一個(gè)over rank,和in-type rank兩種情況。
Overall意思是只考慮某個(gè)答案在加了case后提升了多少排名,可以看到整體的提升是很高的,證明加case是有用的。但是放到in-type情況下,發(fā)現(xiàn)性能的提高的和降低的以及不變的都類(lèi)似于是平均的一種情況,意思就是說(shuō)如果case的添加沒(méi)有導(dǎo)致答案類(lèi)型的變化,那么對(duì)于結(jié)果就幾乎沒(méi)有影響。
第三部分實(shí)驗(yàn)的結(jié)果是證明context-based的方法包含了顯示/隱式的答案從而導(dǎo)致性能提升,這個(gè)證明結(jié)果對(duì)于論點(diǎn)我個(gè)人感覺(jué)幫助不大,并且結(jié)論在另外一篇論文(How Context Affects Language Models‘ Factual Predictions ?AKBC 2020)里面已經(jīng)被證明過(guò)了。這里不展開(kāi),大家可以看下圖理解:
總結(jié)
該論文核心觀(guān)點(diǎn)是語(yǔ)言模型不是一個(gè)可靠的知識(shí)庫(kù)。此外還有許多可以借鑒的地方:
1.如果prompt上存在過(guò)擬合的可能,也許構(gòu)造反事實(shí)樣例是一種消除data bias的方法2.現(xiàn)有很多利用知識(shí)的相關(guān)方法衡量的都是dataset 擬合能力而不是知識(shí)提取的能力3.預(yù)測(cè)的結(jié)果(答案)的在不同數(shù)據(jù)集上分布和真實(shí)結(jié)果分布的差異衡量模型效果(究竟學(xué)到了什么)4.設(shè)計(jì)數(shù)據(jù)集的時(shí)候要考慮數(shù)據(jù)均衡的問(wèn)題而不僅僅是數(shù)據(jù)隨機(jī)劃分。長(zhǎng)尾效應(yīng)應(yīng)該被考慮(de-biased evaluation datasets)
OpenKG
OpenKG(中文開(kāi)放知識(shí)圖譜)旨在推動(dòng)以中文為核心的知識(shí)圖譜數(shù)據(jù)的開(kāi)放、互聯(lián)及眾包,并促進(jìn)知識(shí)圖譜算法、工具及平臺(tái)的開(kāi)源開(kāi)放。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 網(wǎng)站。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 重新审视语言模型与知识库的关系的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | 利用知识图谱嵌入和图卷积网
- 下一篇: 通过预训练提升语言理解