Transformer性能被高估?DeepMind动态评估模型的时间泛化能力
?PaperWeekly 原創(chuàng) ·?作者 | 王馨月
學(xué)校 | 四川大學(xué)
研究方向 | 自然語(yǔ)言處理
論文標(biāo)題:
Mind the Gap: Assessing Temporal Generalization in Neural Language Models
論文鏈接:
https://arxiv.org/abs/2102.01951
項(xiàng)目地址:
https://github.com/deepmind/deepmind-research/tree/master/pitfalls_static_language_models
這篇論文是 DeepMind 在 NeurIPS 2021上的一篇 spotlight 論文。作者提出,世界是動(dòng)態(tài)的而當(dāng)前的語(yǔ)言建模是靜態(tài)的,并證明了 Transformer-XL 語(yǔ)言模型在預(yù)測(cè)訓(xùn)練期結(jié)束一段時(shí)間之后的現(xiàn)實(shí)設(shè)置中的表現(xiàn)和性能會(huì)越來(lái)越差。僅增加模型大小并不能解決這個(gè)問(wèn)題,但讓模型不斷用新信息更新知識(shí)可以緩解性能隨時(shí)間的下降,作者認(rèn)為我們應(yīng)該重新思考目前訓(xùn)練和評(píng)估語(yǔ)言模型的靜態(tài)方式,并開(kāi)發(fā)能夠不斷變化的自適應(yīng)語(yǔ)言模型。作者提出了 WMT 和 ARXIV 數(shù)據(jù)集上的動(dòng)態(tài)流語(yǔ)言建模基準(zhǔn),以促進(jìn)考慮時(shí)間動(dòng)態(tài)的語(yǔ)言模型評(píng)估。
實(shí)驗(yàn)
作者首先介紹了時(shí)間分層實(shí)驗(yàn)設(shè)置,該設(shè)置檢驗(yàn)了 Transformer LM 在對(duì)超出其訓(xùn)練期的未來(lái)話(huà)語(yǔ)進(jìn)行評(píng)估時(shí)的表現(xiàn)。
作者進(jìn)行了兩種設(shè)置:一是時(shí)間分層設(shè)置(TIME-STRATIFIED setup),二是控制設(shè)置(CONTROL setup)。
TIME-STRATIFIED setup:作者根據(jù)過(guò)去訓(xùn)練的 LM 預(yù)測(cè)在其訓(xùn)練數(shù)據(jù)時(shí)間段之后發(fā)表的未來(lái)文章的能力來(lái)評(píng)估模型。使用從每個(gè)數(shù)據(jù)集的時(shí)間段開(kāi)始到 2017 年 9 月的所有文檔作為訓(xùn)練數(shù)據(jù),并使用 2017 年的最后三個(gè)月作為驗(yàn)證期,然后在上面的 2018-2019 測(cè)試集上評(píng)估模型。
CONTROL setup:作者通過(guò)將 TIME-STRATIFIED 與 CONTROL 設(shè)置進(jìn)行比較來(lái)評(píng)估時(shí)間分層是否對(duì)當(dāng)前 LM 構(gòu)成挑戰(zhàn)。在這個(gè)設(shè)置中,訓(xùn)練集包括來(lái)自與評(píng)估集相同的 2018-2019 時(shí)期的文檔。這種 CONTROL 設(shè)置類(lèi)似于靜態(tài)語(yǔ)言建模實(shí)驗(yàn),它在重疊時(shí)間段的文本數(shù)據(jù)上訓(xùn)練和評(píng)估 LM。
作者在 ARXIV 摘要數(shù)據(jù)集和 WMT News Crawl(WMT)數(shù)據(jù)集上,使用具有 18 層和 1,024 個(gè)隱藏單元的 Transformer-XL 進(jìn)行實(shí)驗(yàn)。下圖是 Transformer-XL 在使用兩種不同設(shè)置進(jìn)行訓(xùn)練時(shí)的困惑度。
與評(píng)估未來(lái)情形的更現(xiàn)實(shí)的 TIME-STRATIFIED 設(shè)置相比,靜態(tài) CONTROL 設(shè)置在多大程度上高估了模型性能?如下圖所示,盡管在完全相同的數(shù)據(jù)集大小上使用相同的模型架構(gòu)訓(xùn)練了兩個(gè)模型,TIMESTRATIFIED 模型的性能比 CONTROL 模型差高達(dá) 16% 的困惑度差異。作者將 CUSTOMNEWS 和 ARXIV 的較高相對(duì)退化歸因于它們最近新文檔的指數(shù)增長(zhǎng),導(dǎo)致數(shù)據(jù)中來(lái)自測(cè)試期的文檔比例更高,因此出現(xiàn)了更困難的時(shí)間泛化問(wèn)題。
在預(yù)測(cè)遠(yuǎn)離訓(xùn)練期的未來(lái)話(huà)語(yǔ)時(shí),Transformer LM 的表現(xiàn)是否越來(lái)越差?下圖是 TIME-STRATIFIED 相對(duì)于 CONTROL 模型的相對(duì)困惑度增加。正如所有數(shù)據(jù)集的上升斜率所證明的那樣,當(dāng)我們要求它預(yù)測(cè)離訓(xùn)練期更遠(yuǎn)的數(shù)據(jù)時(shí),該模型惡化得更多,這表明模型確實(shí)隨著時(shí)間的推移變得越來(lái)越過(guò)時(shí)。作者在文章附錄中還提供了一些更詳細(xì)的差異。
分析
作者提出了這樣的問(wèn)題:模型努力應(yīng)對(duì)的預(yù)測(cè)類(lèi)型究竟是什么?
如上一部分的圖中展示的,常用名詞(橙色)的性能隨時(shí)間推下降。而對(duì)專(zhuān)有名詞(藍(lán)色)和數(shù)字(紫色)進(jìn)行時(shí)間概括時(shí),TIME-STRATIFIED 模型的性能下降最快。定性分析表明,這個(gè)模型在政治領(lǐng)域的實(shí)體上表現(xiàn)不佳。而這種退化是因?yàn)閷?zhuān)有名詞及其實(shí)體往往與最新的真實(shí)世界知識(shí)相關(guān),同樣,這個(gè)模型在文化和社會(huì)變化相關(guān)的概念上也呈現(xiàn)出明顯的退化。
作者還觀察到,與圍繞生活方式的主題相比,關(guān)于政治和體育的模型表現(xiàn)隨時(shí)間變化更快(圖中的三條虛線(xiàn))。這也是非常符合我們認(rèn)知的,政治、體育主題的專(zhuān)有名詞往往在一段時(shí)間內(nèi)發(fā)生很大的變化。
在實(shí)踐中,適應(yīng)是在這個(gè)動(dòng)態(tài)與非平衡的世界中最大化 LM 的潛力的關(guān)鍵條件,這要求模型能夠整合新詞、以前從未出現(xiàn)過(guò)的概念以及含義隨時(shí)間發(fā)生重大變化的詞。在數(shù)據(jù)集 CUSTOMNEWS 中,每個(gè)月都有大約 27% 的獨(dú)特詞。作者將這些詞稱(chēng)為新詞,并認(rèn)為這些概念很重要,因?yàn)樗鼈兎从沉宋覀儾粩嘧兓氖澜绲谋举|(zhì)。比如近期頻繁出現(xiàn)的詞語(yǔ)“COVID-19”,這在 2019 年末之前出現(xiàn)的 unigram 概率為 0,卻是如今 NLP 系統(tǒng)中一個(gè)重要的用例。
作者接著提出:Transformer LM 對(duì)于新信息和新詞的適應(yīng)能力如何?如下圖,作者展示了 TIME-STRATIFIED 模型在測(cè)試文檔中第一次和第二次出現(xiàn)新詞的困惑度。模型第一次在文檔中生成新詞時(shí)候有很低的 ppl,第二次生成相同的單詞時(shí),模型可以簡(jiǎn)單地從上下文中復(fù)制相同的單詞,達(dá)到很高的 ppl。這也意味著 Transformer 以長(zhǎng)程上下文為條件的能力是時(shí)間泛化的一個(gè)有用的特征。但第一次出現(xiàn)在 Transformer 的內(nèi)存外時(shí),沒(méi)有這種現(xiàn)象,這也意味著需要將 Transformer 擴(kuò)展到更長(zhǎng)的序列以改善時(shí)間泛化能力。
即使增加模型大小,過(guò)時(shí)模型的影響依然存在
近期的關(guān)于 LM 的研究表明模型大小對(duì)于困惑度、下游任務(wù)表現(xiàn)以及小樣本學(xué)習(xí)能力都有明顯改善作用。但增加模型大小是否也能改善時(shí)間泛化能力呢?作者訓(xùn)練了一個(gè)更大的 TIME-STRATIFIED 模型,參數(shù)為 448M。實(shí)驗(yàn)結(jié)果如下圖所示。
如果增加模型大小能夠延緩模型隨時(shí)間的退化,圖中較大模型產(chǎn)生的實(shí)線(xiàn)應(yīng)相比于較小模型產(chǎn)生的虛線(xiàn)具有更小的斜率,但實(shí)際上更大的模型對(duì)于線(xiàn)的斜率并沒(méi)有影響。在兩個(gè)數(shù)據(jù)上,截止測(cè)試結(jié)束時(shí),一個(gè)更小但更新的 模型比一個(gè)大 60% 但已經(jīng)過(guò)時(shí)的 模型性能更好。因此,構(gòu)建能夠用新信息更新知識(shí)的模型比簡(jiǎn)單增大模型在時(shí)間泛化方面的能力提升上更有效。
時(shí)間分層問(wèn)答
作者進(jìn)一步探討了過(guò)時(shí)的 LM 如何影響不同類(lèi)型的下游任務(wù)這一問(wèn)題。
作者首先測(cè)試了閉卷問(wèn)答(Closed-book QA)任務(wù),作者用 WMT 數(shù)據(jù)集 預(yù)訓(xùn)練 TXL 模型進(jìn)行微調(diào)以回答 2011 年的問(wèn)題,并對(duì) 2019 年的相關(guān)問(wèn)題進(jìn)行評(píng)估,結(jié)果如下圖所示,證明了微調(diào)后的 LM 缺乏更新的事實(shí)知識(shí)將影響模型在閉卷問(wèn)答任務(wù)的表現(xiàn)。
作者還使用 NewsQA 進(jìn)行了閱讀理解實(shí)驗(yàn),其中的證據(jù)文檔與問(wèn)題一同呈現(xiàn)在模型前綴中,使用 2009 年的問(wèn)題評(píng)估了 2008 年底前在 CUSTOMNEWS 上訓(xùn)練的 LM 與 2009 年底前訓(xùn)練的 LM 的表現(xiàn)——兩種模型表現(xiàn)相同。因此,與知識(shí)密集、閉卷式 QA 不同,閱讀理解(答案是提取性的并可以從文章中復(fù)制)的時(shí)間分層評(píng)估對(duì)過(guò)時(shí)的 LM 構(gòu)成的挑戰(zhàn)更小。這也和上一部分中舉例的 Transformer 的長(zhǎng)程上下文能力類(lèi)似。
保持模型更新:通過(guò)動(dòng)態(tài)評(píng)估在線(xiàn)學(xué)習(xí)
減緩 LM 隨時(shí)間退化的一種方法是,隨著新文檔到達(dá)文檔流中,不斷用新信息更新模型知識(shí)。其中一種解決方案是動(dòng)態(tài)評(píng)估,作者在這里使用動(dòng)態(tài)評(píng)估來(lái)適應(yīng)發(fā)生在按時(shí)間排列的文檔流中的時(shí)間動(dòng)態(tài),從而適應(yīng)跨文檔的時(shí)間趨勢(shì)。
測(cè)試文檔 的 loss 通過(guò)以下公式計(jì)算,其中 為文檔中的 token。
并通過(guò)梯度下降來(lái)動(dòng)態(tài)更新 Transformer-XL 的參數(shù),如以下公式所示,其中 標(biāo)記動(dòng)態(tài)評(píng)估學(xué)習(xí)率, 標(biāo)記當(dāng)前文檔的模型的參數(shù)梯度。
結(jié)果如下圖所示,在所有的數(shù)據(jù)集中,動(dòng)態(tài)評(píng)估降低了模型變得過(guò)時(shí)的速度(上升斜率減小)。其中 ARXIV 的改進(jìn)更明顯,對(duì)于幾周的更細(xì)粒度的分析表明,該模型只需要大概一周的數(shù)據(jù)即可超過(guò) CONTROL 模型。此外,預(yù)測(cè)新詞也有很大的改進(jìn)。
當(dāng)為了保持模型保持最新(尤其是對(duì)于較大的模型)時(shí),輕量但有效的方法更可取,因?yàn)榭梢允鼓P鸵宰钌俚臅r(shí)間與計(jì)算成本快速消化新信息。因此,作者嘗試僅更新 embedding 層(52M 參數(shù))捕獲詞匯語(yǔ)義變化,以及僅更新所有層的偏差項(xiàng)(198K 參數(shù))。下圖展示了成果,僅更新偏差項(xiàng)的效果幾乎與更新完整模型的效果一樣。
作者還注意到,單獨(dú)的動(dòng)態(tài)評(píng)估雖然有效,但依舊不能完全解決時(shí)間泛化問(wèn)題。事實(shí)上,如下圖所示,雖然動(dòng)態(tài)評(píng)估能夠提高對(duì)未來(lái)數(shù)據(jù)的泛化能力,但它也會(huì)災(zāi)難性地遺忘過(guò)去的數(shù)據(jù)。最近的半?yún)?shù)模型(semi-parametric models)非常適合持續(xù)學(xué)習(xí),新知識(shí)可以存儲(chǔ)在外部存儲(chǔ)器中,無(wú)需重新訓(xùn)練整個(gè)模型即可更新。
半?yún)?shù)模型,此處作者指 2020年 ICLM 上 REALM: Retrieval-Augmented Language Model Pre-Training 一文中提出的 REALM 模型。
總結(jié)
作者在本文中提出,當(dāng)前在重疊時(shí)間段的數(shù)據(jù)上進(jìn)行訓(xùn)練和評(píng)估高估了模型對(duì)于未來(lái)話(huà)語(yǔ)的泛化能力,并且 Transformer LM 會(huì)隨著時(shí)間的推移越來(lái)越過(guò)時(shí),而僅增加模型大小并不難解決這個(gè)問(wèn)題。
作者對(duì)未來(lái)的 LM 研究提出以下建議:
我們應(yīng)該評(píng)估 LM 對(duì)未來(lái)數(shù)據(jù)的泛化能力,這可以避免測(cè)試數(shù)據(jù)污染。應(yīng)該獎(jiǎng)勵(lì)泛化超出其預(yù)訓(xùn)練數(shù)據(jù)表面模式的模型,以更好地反映大型 LM 在實(shí)際系統(tǒng)中的使用情況。因此,我們主張?jiān)陬A(yù)訓(xùn)練數(shù)據(jù)和下游任務(wù)中更廣泛地包含時(shí)間戳信息 。
超出訓(xùn)練期的舊 LM 在需要最新事實(shí)知識(shí)的下游任務(wù)上的表現(xiàn)不盡人意。我們還需要更多的任務(wù)、基準(zhǔn)和指標(biāo)來(lái)評(píng)估 LM 整合新信息的能力和速度。
除了做出更大的模型以及相關(guān)的擴(kuò)展工作外,我們還主張開(kāi)發(fā)能夠在當(dāng)前不斷變化的世界中不斷更新的自適應(yīng)語(yǔ)言模型。
作者還表明,這篇文章的本意并非證明周?chē)澜珉S時(shí)間推移變化而我們談?wù)撍姆绞揭蚕鄳?yīng)變化這一顯然的狀況,作者強(qiáng)調(diào)的是當(dāng)前的靜態(tài)評(píng)估如何高估了模型的性能,尤其在與知識(shí)相關(guān)的預(yù)測(cè)方面。我們應(yīng)該重新思考如何構(gòu)建時(shí)間分割來(lái)評(píng)估模型泛化到未來(lái)數(shù)據(jù)的能力。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開(kāi)渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫(xiě),文中配圖以附件形式發(fā)送,要求圖片清晰,無(wú)版權(quán)問(wèn)題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來(lái)稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
·
·
總結(jié)
以上是生活随笔為你收集整理的Transformer性能被高估?DeepMind动态评估模型的时间泛化能力的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 部队文职两个人通过预选,只有一个岗位,只
- 下一篇: NeurlPS 2021论文预讲会议题全