nlp mrc的损失是什么_田渊栋从数学上证明ICLR最佳论文“彩票假设”,强化学习和NLP也适用...
??新智元報(bào)道??
來(lái)源:Facebook AI
作者:Ari Morcos、田淵棟? 編輯:肖琴
【新智元導(dǎo)讀】ICLR 2019最佳論文提出的“彩票假設(shè)”能夠?qū)⑸窠?jīng)網(wǎng)絡(luò)縮小10-100倍,而不損失性能。Facebook田淵棟團(tuán)隊(duì)的最新研究發(fā)現(xiàn)了第一個(gè)確定的證據(jù),證明彩票假設(shè)在相關(guān)但截然不同的數(shù)據(jù)集中普遍存在,并可以擴(kuò)展到強(qiáng)化學(xué)習(xí)和自然語(yǔ)言處理。你怎么看這一系列研究?來(lái)?新智元AI朋友圈?和AI大咖們一起討論吧。
最初由MIT的研究人員Jonathan Frankle 和Michael Carbin 提出的彩票假設(shè)(lottery ticket hypothesis)表明,通過從“幸運(yùn)”初始化(lucky initialization,通常被稱為“中獎(jiǎng)彩票”)開始訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),可以以最小的性能損失(甚至獲得收益)將網(wǎng)絡(luò)縮小10-100倍。
這項(xiàng)工作的意義令人興奮,它不僅可能找到用更少的資源進(jìn)行訓(xùn)練的方法,而且還可以在更小的設(shè)備(例如智能手機(jī)和VR頭盔)上更快地運(yùn)行模型推理。
但彩票假設(shè)尚未被AI社區(qū)完全理解。特別是,我們尚不清楚中獎(jiǎng)彩票是取決于特定的因素,還是代表了DNN的一種固有特性。
Facebook AI的最新研究發(fā)現(xiàn)了第一個(gè)確定的證據(jù),證明彩票假設(shè)在相關(guān)但截然不同的數(shù)據(jù)集中普遍存在,并可以擴(kuò)展到強(qiáng)化學(xué)習(xí)(RL)和自然語(yǔ)言處理(NLP)。
Facebook AI的Ari Morcos和田淵棟是這一系列相關(guān)研究的其中兩位作者,他們?cè)谧钚虏┪闹薪榻B了使用中獎(jiǎng)彩票的實(shí)驗(yàn)結(jié)果和細(xì)節(jié),并提出有關(guān)彩票形成的一個(gè)新理論框架,以幫助研究人員更好地理解幸運(yùn)初始化。
什么是“中獎(jiǎng)彩票”?
訓(xùn)練和壓縮深度神經(jīng)網(wǎng)絡(luò)的標(biāo)準(zhǔn)方法包括調(diào)整神經(jīng)網(wǎng)絡(luò)中的數(shù)百萬(wàn)個(gè)參數(shù),然后刪除或“修剪”不必要的權(quán)重,以將網(wǎng)絡(luò)結(jié)構(gòu)縮減到更易于管理的大小。減小模型尺寸有助于最大程度地減小其內(nèi)存、推理和計(jì)算需求。許多研究發(fā)現(xiàn),經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)中的許多權(quán)重有時(shí)可以被削減多達(dá)99%,從而產(chǎn)生更小、更稀疏的網(wǎng)絡(luò)。
彩票假設(shè)顛覆了DNN的修剪,其核心動(dòng)機(jī)是:與其訓(xùn)練大型網(wǎng)絡(luò)并將其削減為較小的網(wǎng)絡(luò),不如從一開始就確定并訓(xùn)練最優(yōu)的小網(wǎng)絡(luò)?
為了找到中獎(jiǎng)彩票,我們使用隨機(jī)初始化來(lái)訓(xùn)練一個(gè)完整的網(wǎng)絡(luò),在保留其性能的同時(shí)修剪模型,然后在訓(xùn)練開始前將子網(wǎng)絡(luò)重置(或倒回)到初始化。為了評(píng)估中獎(jiǎng)彩票,我們將它們與隨機(jī)彩票進(jìn)行比較,并發(fā)現(xiàn)中獎(jiǎng)彩票(或幸運(yùn)初始化)表現(xiàn)得更好。
隨著網(wǎng)絡(luò)規(guī)模的增大,我們組合地增加了可能的子網(wǎng)絡(luò)的數(shù)量,這意味著存在一個(gè)幸運(yùn)的子網(wǎng)絡(luò)初始化的概率更高。彩票假設(shè)表明,如果我們能找到這個(gè)幸運(yùn)的子網(wǎng)絡(luò),我們就能將小的、稀疏的網(wǎng)絡(luò)訓(xùn)練到高性能,即使刪除了整個(gè)網(wǎng)絡(luò)90%以上的參數(shù)。然而,找到中獎(jiǎng)彩票需要大量的計(jì)算資源,因?yàn)槟P捅仨毥?jīng)過多次訓(xùn)練和再訓(xùn)練,這使得跨問題設(shè)置的泛化成為改進(jìn)深度神經(jīng)網(wǎng)絡(luò)的一個(gè)關(guān)鍵標(biāo)準(zhǔn)。
跨數(shù)據(jù)集和優(yōu)化器進(jìn)行泛化
到目前為止,研究人員只是在原始研究論文中用于尋找中獎(jiǎng)彩票的完全相同問題上測(cè)試了這一假設(shè),部分原因是在新設(shè)置下尋找中獎(jiǎng)彩票所需的計(jì)算能力太大。
在我們今年在NeurIPS上發(fā)表的論文“One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers”中,我們?cè)u(píng)估了6個(gè)不同的自然圖像數(shù)據(jù)集和優(yōu)化器中彩票初始化的通用性。令人鼓舞的是,我們發(fā)現(xiàn)中獎(jiǎng)彩票普遍適用于相關(guān)但不同的數(shù)據(jù)集。類似地,我們還發(fā)現(xiàn)中獎(jiǎng)彩票在不同的優(yōu)化器中都是通用的,這表明中獎(jiǎng)彩票初始化在很大程度上是與優(yōu)化器無(wú)關(guān)的。
論文地址:
https://arxiv.org/pdf/1906.02773.pdf
為了度量中獎(jiǎng)彩票的通用性,我們?cè)谝粋€(gè)源訓(xùn)練配置中生成中獎(jiǎng)彩票,并在不同的目標(biāo)配置中評(píng)估性能。例如,我們可以使用CIFAR-10數(shù)據(jù)集(源配置)生成中獎(jiǎng)彩票,并在ImageNet數(shù)據(jù)集(目標(biāo)配置)上評(píng)估它的性能。通過一系列不同設(shè)置的嚴(yán)格實(shí)驗(yàn),我們觀察到中獎(jiǎng)彩票在不同的圖像數(shù)據(jù)集上可以泛化。有趣的是,我們還觀察到,由大型數(shù)據(jù)集(如ImageNet和Places365)生成的中獎(jiǎng)彩票的遷移效果始終比小數(shù)據(jù)集(如CIFAR-10)好得多。
這些圖顯示了物體分類模型的中獎(jiǎng)彩票是如何跨越大型數(shù)據(jù)集(ImageNet和Places365)和小型數(shù)據(jù)集(CIFAR-10/CIFAR-100)的。圖中不同的線代表中獎(jiǎng)彩票的不同源數(shù)據(jù)集。在ImageNet和Places365上生成的中獎(jiǎng)彩票始終優(yōu)于在較小數(shù)據(jù)集上生成的中獎(jiǎng)彩票。
這些結(jié)果表明,與較小的數(shù)據(jù)集相比,較大的數(shù)據(jù)集會(huì)鼓勵(lì)更多的通用中獎(jiǎng)彩票。我們還發(fā)現(xiàn),在相同數(shù)量的訓(xùn)練示例(但類別數(shù)量不同)的數(shù)據(jù)集上生成的中獎(jiǎng)彩票的表現(xiàn)也有所不同。類別更多似乎就可以更好地泛化(例如,比較CIFAR-10和CIFAR-100中獎(jiǎng)彩票的性能,它們分別有10個(gè)類和100個(gè)類)。
這項(xiàng)研究表明,無(wú)論確切的問題是什么,中獎(jiǎng)彩票都包含有改善深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的一般屬性。這樣就有可能產(chǎn)生少量這樣的中獎(jiǎng)彩票,并在不同的任務(wù)和環(huán)境中使用它們進(jìn)行更有效的訓(xùn)練。(要了解更多細(xì)節(jié),請(qǐng)閱讀論文:One ticket to win them all: Generalizing lottery ticket initializations across data sets and optimizers)。
推廣到其他領(lǐng)域和其他學(xué)習(xí)方法:強(qiáng)化學(xué)習(xí)和NLP
到目前為止,彩票現(xiàn)象只在以視覺為中心的分類任務(wù)這樣的監(jiān)督學(xué)習(xí)環(huán)境中進(jìn)行了測(cè)試,這留下了一個(gè)關(guān)鍵的開放性問題——它們是否只存在于監(jiān)督學(xué)習(xí)方法中,或者僅是圖像分類領(lǐng)域的一個(gè)巧合?如果彩票現(xiàn)象代表了DNN的基本屬性,那么中獎(jiǎng)彩票應(yīng)該出現(xiàn)在各種不同的領(lǐng)域和學(xué)習(xí)環(huán)境中。
在最近的論文“Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP”中,我們研究了這些問題,發(fā)現(xiàn)彩票現(xiàn)象也存在于強(qiáng)化學(xué)習(xí)(RL)和自然語(yǔ)言處理(NLP)領(lǐng)域。對(duì)于RL,我們分析了一組經(jīng)典的控制任務(wù)和Atari游戲;對(duì)于NLP,我們研究了經(jīng)典的長(zhǎng)短時(shí)記憶(LSTM)語(yǔ)言模型和最近的為機(jī)器翻譯訓(xùn)練的Transformer模型。
我們關(guān)注的任務(wù)與最初用于圖像分類和監(jiān)督學(xué)習(xí)的范例和架構(gòu)有很大的不同。例如,在RL中,數(shù)據(jù)分布會(huì)隨著智能體從稀疏的獎(jiǎng)勵(lì)信號(hào)中學(xué)習(xí)而發(fā)生變化,這顯著地修改了優(yōu)化過程和生成的網(wǎng)絡(luò)。在NLP任務(wù)中,DNN需要對(duì)時(shí)間動(dòng)態(tài)進(jìn)行建模,而這在有監(jiān)督的圖像分類中是不存在的。
論文地址:
https://arxiv.org/pdf/1906.02768.pdf
與之前的監(jiān)督圖像分類的工作一致,我們證實(shí)了在RL和NLP問題中,中獎(jiǎng)彩票的表現(xiàn)也優(yōu)于標(biāo)準(zhǔn)隨機(jī)子網(wǎng)絡(luò)初始化,即使在極端的剪枝率下也是如此。對(duì)于RL,我們發(fā)現(xiàn)在經(jīng)典控制問題和許多(但不是全部) Atari游戲中,中獎(jiǎng)彩票的表現(xiàn)遠(yuǎn)遠(yuǎn)好于隨機(jī)彩票。
為機(jī)器翻譯任務(wù)訓(xùn)練的Transformer 模型的中獎(jiǎng)票初始化性能
對(duì)于NLP模型,我們發(fā)現(xiàn)在語(yǔ)言建模任務(wù)訓(xùn)練的LSTM和機(jī)器翻譯任務(wù)訓(xùn)練的Transformer中都存在中獎(jiǎng)彩票。令人驚訝的是,我們發(fā)現(xiàn)擁有超過2億個(gè)參數(shù)的超大型Transformer模型可以從零開始訓(xùn)練到接近等效的性能,而只剩下三分之一的權(quán)重。這一結(jié)果表明,我們有可能從頭開始構(gòu)建和訓(xùn)練基于注意力的語(yǔ)言模型,這些模型被大大簡(jiǎn)化,足以適應(yīng)小型設(shè)備。
總之,這些結(jié)果表明彩票現(xiàn)象并僅僅是圖像分類的產(chǎn)物,而是代表了深度神經(jīng)網(wǎng)絡(luò)(DNN)這個(gè)廣泛領(lǐng)域的一種現(xiàn)象。(關(guān)于這些實(shí)驗(yàn)的詳細(xì)信息,請(qǐng)閱讀論文:Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP。)
進(jìn)一步加深對(duì)“中獎(jiǎng)彩票”的理解
這些研究有助于證明彩票可以在原始研究論文的確切條件之外存在,這為我們加深對(duì)幸運(yùn)初始化的理解提供了更多的激勵(lì)。然而,還有很多關(guān)于神經(jīng)網(wǎng)絡(luò)的潛在屬性和行為的開放性問題,比如這些中獎(jiǎng)彩票是如何形成的,它們?yōu)槭裁创嬖?#xff0c;它們是如何工作的?
為了在深層ReLU網(wǎng)絡(luò)的背景下開始分析這些問題,我們使用了一個(gè)“學(xué)生-教師”的設(shè)置,在這個(gè)設(shè)置中,一個(gè)較大的學(xué)生網(wǎng)絡(luò)必須學(xué)會(huì)準(zhǔn)確地模仿較小的教師網(wǎng)絡(luò)正在做的事情。由于我們可以在此設(shè)置中定義具有固定參數(shù)的教師網(wǎng)絡(luò),因此我們可以定量地測(cè)量學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)進(jìn)度,并且,對(duì)于我們的彩票研究來(lái)說(shuō),了解學(xué)生網(wǎng)絡(luò)的初始化如何影響學(xué)習(xí)過程是至關(guān)重要的。
在“學(xué)生-教師”設(shè)置下的研究中,我們發(fā)現(xiàn),經(jīng)過訓(xùn)練后,被挑選出來(lái)的學(xué)生神經(jīng)元的活動(dòng)模式與教師神經(jīng)元的活動(dòng)模式之間的相關(guān)性比與其他學(xué)生神經(jīng)元的活動(dòng)之間的相關(guān)性更強(qiáng)——這一概念被稱為“學(xué)生專業(yè)化”(student specialization)。這種更強(qiáng)的相關(guān)性表明,在訓(xùn)練期間,學(xué)生網(wǎng)絡(luò)不僅學(xué)習(xí)教師的網(wǎng)絡(luò)輸出,而且可以通過模仿個(gè)別老師的神經(jīng)元來(lái)學(xué)習(xí)教師網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)。
在論文“Luck Matters: Understanding Training Dynamics of Deep ReLU Networks”的分析中,我們發(fā)現(xiàn)這種現(xiàn)象發(fā)生在一個(gè)2層的ReLU網(wǎng)絡(luò)中:如果一個(gè)學(xué)生神經(jīng)元的初始權(quán)重碰巧與某些教師神經(jīng)元的權(quán)重相似,那么就會(huì)出現(xiàn)專門化。神經(jīng)網(wǎng)絡(luò)的大小很重要,因?yàn)閷W(xué)生網(wǎng)絡(luò)越大,越有可能存在一個(gè)學(xué)生神經(jīng)元與教師神經(jīng)元的距離很接近,從而在訓(xùn)練中模仿教師神經(jīng)元的活動(dòng)。更重要的是,如果一個(gè)學(xué)生神經(jīng)元的初始激活區(qū)域與一個(gè)教師神經(jīng)元有更多的重疊,那么這個(gè)學(xué)生神經(jīng)元的就會(huì)更快地專業(yè)化。這一行為證實(shí)了彩票假設(shè),該假設(shè)同樣提出,在神經(jīng)網(wǎng)絡(luò)中存在一些幸運(yùn)的初始化子集,“中獎(jiǎng)彩票”就是幸運(yùn)的學(xué)生神經(jīng)元,它們恰好在訓(xùn)練開始時(shí)處于正確的位置。
論文地址:
https://arxiv.org/pdf/1905.13405.pdf
在我們的后續(xù)研究論文“Student Specialization in Deep ReLU Networks With Finite Width and Input Dimension”中,我們通過消除多種數(shù)學(xué)假設(shè)(包括獨(dú)立激活和局部性)來(lái)強(qiáng)化我們的結(jié)果,并且仍然證明了學(xué)生專業(yè)化在經(jīng)過訓(xùn)練后發(fā)生在深層ReLU網(wǎng)絡(luò)的最底層。從我們的分析中,我們發(fā)現(xiàn)訓(xùn)練動(dòng)態(tài)中的某些數(shù)學(xué)性質(zhì)與彩票現(xiàn)象產(chǎn)生了共鳴:那些在初始化時(shí)具有輕微優(yōu)勢(shì)的權(quán)重,在訓(xùn)練收斂后成為中獎(jiǎng)彩票的可能性更大。
論文地址:
https://arxiv.org/pdf/1909.13458.pdf
通過這個(gè)“教師-學(xué)生”范式,我們已經(jīng)能夠從數(shù)學(xué)上證明幸運(yùn)初始化的彩票行為——超出了經(jīng)驗(yàn)實(shí)驗(yàn)。
彩票假設(shè)的未來(lái)和開放性問題
彩票假設(shè)是一個(gè)令人興奮且潛力巨大的視角,通過它我們可以更好地理解和改善DNN。
通過這一系列的研究和理論分析,我們證明了彩票效應(yīng)可以發(fā)生在各種不同的領(lǐng)域,中獎(jiǎng)彩票的初始化能夠在相關(guān)但不同的數(shù)據(jù)集進(jìn)行泛化,以及更一般的意義上,他們比先前研究人員所理解的更有潛力。如果我們能找到一種方法,從一開始就識(shí)別出中獎(jiǎng)彩票,那么我們不僅可以用今天所使用的計(jì)算資源的一小部分來(lái)構(gòu)建強(qiáng)大的深度學(xué)習(xí)系統(tǒng),而且還可以使用這些技術(shù)來(lái)提高當(dāng)前的大型網(wǎng)絡(luò)的性能。
雖然我們的研究已經(jīng)證明了彩票假設(shè)的普遍性,并且我們的理論框架有助于更具體地證實(shí)這一現(xiàn)象,但這是一個(gè)活躍的研究領(lǐng)域,有許多問題仍然沒有得到解答。中獎(jiǎng)彩票是依賴于標(biāo)簽還是僅僅依賴于數(shù)據(jù)分布?如何更有效地生成中獎(jiǎng)彩票?是否有可能在不同的架構(gòu)之間遷移中獎(jiǎng)彩票?也許最有趣的是,是什么讓中獎(jiǎng)彩票如此特別?我們希望這些工作將推動(dòng)我們的團(tuán)隊(duì)和其他人今后的研究,探討這些懸而未決的問題。
原文鏈接:
https://ai.facebook.com/blog/understanding-the-generalization-of-lottery-tickets-in-neural-networks
新智元AI朋友圈詳細(xì)使用教程,8000名AI大玩家和實(shí)踐者都在這里!總結(jié)
以上是生活随笔為你收集整理的nlp mrc的损失是什么_田渊栋从数学上证明ICLR最佳论文“彩票假设”,强化学习和NLP也适用...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mac怎么安装python开发环境搭建_
- 下一篇: satd残差_RDO、SAD、SATD、