有监督学习和无监督学习举例_对比自监督学习
編譯:ronghuaiyang
原文鏈接:對(duì)比自監(jiān)督學(xué)習(xí)?mp.weixin.qq.com
導(dǎo)讀
利用數(shù)據(jù)本身為算法提供監(jiān)督。
對(duì)比自監(jiān)督學(xué)習(xí)技術(shù)是一種很有前途的方法,它通過(guò)學(xué)習(xí)對(duì)使兩種事物相似或不同的東西進(jìn)行編碼來(lái)構(gòu)建表示。自監(jiān)督方法將取代深度學(xué)習(xí)中占主導(dǎo)地位的直接監(jiān)督范式的預(yù)言已經(jīng)存在了相當(dāng)一段時(shí)間。Alyosha Efros打了一個(gè)著名的賭,賭在2015年秋季之前,一種無(wú)監(jiān)督的方法將會(huì)在檢測(cè)Pascal VOC方面勝過(guò)有監(jiān)督的R-CNN。但四年之后,他的預(yù)言現(xiàn)在已經(jīng)實(shí)現(xiàn)了。目前,自監(jiān)督方法(MoCo, He et al., 2019)在Pascal VOC上的檢測(cè)性能已經(jīng)超越了監(jiān)督方法,并在許多其他任務(wù)上取得了良好的效果。
最近自我監(jiān)督學(xué)習(xí)復(fù)蘇背后的一系列方法遵循一種被稱為對(duì)比學(xué)習(xí)的范式。
許多現(xiàn)代的ML方法依賴于人類提供的標(biāo)簽或獎(jiǎng)勵(lì)作為訓(xùn)練過(guò)程中使用的唯一學(xué)習(xí)信號(hào)形式。這種對(duì)直接語(yǔ)義監(jiān)督的過(guò)度依賴有幾個(gè)危險(xiǎn):
- 基礎(chǔ)數(shù)據(jù)的結(jié)構(gòu)比稀疏標(biāo)簽或獎(jiǎng)勵(lì)所能提供的要豐富得多。因此,純監(jiān)督學(xué)習(xí)算法往往需要大量的樣本來(lái)學(xué)習(xí),并收斂于脆弱的解決方案。
- 高維問(wèn)題不能直接監(jiān)督,RL等問(wèn)題獲取標(biāo)簽的邊際成本更高。
- 它導(dǎo)致針對(duì)特定任務(wù)的解決方案,而不是可以重新利用的知識(shí)。
自監(jiān)督學(xué)習(xí)提供了一個(gè)很有前途的選擇,其中數(shù)據(jù)本身為學(xué)習(xí)算法提供監(jiān)督。在這篇文章中,我會(huì)試著概述對(duì)比方法與其他自監(jiān)督學(xué)習(xí)技術(shù)的不同之處,并回顧這一領(lǐng)域最近的一些論文。
圖解的例子
左圖:憑記憶畫的一美元鈔票。右圖:照著一美元鈔票畫的。
看看Epstein, 2016年做的這個(gè)實(shí)驗(yàn),在這個(gè)實(shí)驗(yàn)中,受試者被要求盡可能詳細(xì)地畫一張美元的圖片。
左邊的圖表示通過(guò)回憶一美元鈔票的樣子畫出的。右邊的圖是他們后來(lái)照著一張現(xiàn)鈔畫的。很明顯,在沒有美元鈔票的情況下所畫的圖與根據(jù)原型所畫的圖有很大的不同。
盡管我們已經(jīng)無(wú)數(shù)次地看到一美元紙幣,但我們沒有得到它的完整表示。事實(shí)上,我們只保留了足夠的特征來(lái)將它與其他物體區(qū)分開來(lái)。類似地,我們能否建立一種不關(guān)注像素級(jí)細(xì)節(jié)、只編碼足以區(qū)分不同物體的高級(jí)特征的表示學(xué)習(xí)算法?
生成方法 vs 對(duì)比方法
當(dāng)代的自監(jiān)督學(xué)習(xí)方法大致可以分為兩類:
對(duì)比法,顧名思義,就是通過(guò)對(duì)比正負(fù)樣本來(lái)學(xué)習(xí)表示。雖然不是一個(gè)新的范式,這種方法在計(jì)算機(jī)視覺任務(wù)已經(jīng)得到了巨大的成功經(jīng)驗(yàn)的計(jì)算機(jī)視覺任務(wù)與非監(jiān)督對(duì)比的前訓(xùn)練。
最值得注意的是:
- 對(duì)比方法在未標(biāo)記的ImageNet數(shù)據(jù)上進(jìn)行訓(xùn)練,使用線性分類器進(jìn)行評(píng)估,超過(guò)現(xiàn)在監(jiān)督AlexNet的準(zhǔn)確性。與純監(jiān)督學(xué)習(xí)相比,從標(biāo)記數(shù)據(jù)學(xué)習(xí)時(shí),它們也表現(xiàn)出了顯著的數(shù)據(jù)效率(data - efficient CPC, Henaff et al., 2019)。
- ImageNet的預(yù)訓(xùn)練成功地遷移到了其他下游任務(wù),并優(yōu)于有監(jiān)督的預(yù)訓(xùn)練對(duì)手(MoCo, He et al., 2019)。
它們不同于更傳統(tǒng)的生成方法來(lái)學(xué)習(xí)表示,后者關(guān)注于像素空間中的重構(gòu)誤差來(lái)學(xué)習(xí)表示。
- 使用像素級(jí)損失可能導(dǎo)致這種方法過(guò)于關(guān)注基于像素的細(xì)節(jié),而不是更抽象的潛在因素。
- 基于像素的目標(biāo)通常假定每個(gè)像素之間是獨(dú)立的,因此降低了它們建模相關(guān)性或復(fù)雜結(jié)構(gòu)的能力。
對(duì)比方法如何工作?
更正式地說(shuō),對(duì)于任何數(shù)據(jù)點(diǎn)x,對(duì)比方法的目的是學(xué)習(xí)編碼器f:
- 這里x+是與x相似或相等的數(shù)據(jù)點(diǎn),稱為正樣本。
- x?是與x不同的數(shù)據(jù)點(diǎn),稱為負(fù)樣本。
- score函數(shù)是一個(gè)度量?jī)蓚€(gè)特征之間相似性的指標(biāo)。
x通常被稱為“錨”數(shù)據(jù)點(diǎn)。為了優(yōu)化這一特性,我們可以構(gòu)造一個(gè)softmax分類器來(lái)正確地分類正樣本和負(fù)樣本。這個(gè)分類器鼓勵(lì)score函數(shù)給正例樣本賦于大值,給負(fù)樣本賦于小值:
分母項(xiàng)由一個(gè)正樣本和N - 1個(gè)負(fù)樣本組成。這里我們使用點(diǎn)積作為score函數(shù):
這是N-way softmax分類器常見的交叉熵?fù)p失,在對(duì)比學(xué)習(xí)文獻(xiàn)中通常稱為InfoNCE損失。在之前的工作中,我們將其稱為多類n-pair loss和基于排序的NCE。
InfoNCE也與互信息有關(guān)系。具體地說(shuō),最小化InfoNCE損失可使f(X)和f(X+)之間互信息的下界最大化。
讓我們更仔細(xì)地看看不同的對(duì)比方法來(lái)理解他們?cè)谧鍪裁?#xff1a;
Deep InfoMax
Deep InfoMax中的對(duì)比任務(wù)
Deep InfoMax (DIM, Hjelm等人,2018)通過(guò)利用圖像中的本地結(jié)構(gòu)來(lái)學(xué)習(xí)圖像的表示。DIM的對(duì)比任務(wù)是區(qū)分全局特征和局部特征是否來(lái)自同一幅圖像。在這里,全局特征是卷積編碼器的最終輸出(一個(gè)平面向量,Y),局部特征是編碼器中間層(一個(gè)M x M特征圖)的一個(gè)輸出。每個(gè)局部特征圖都有一個(gè)有限的感受野。所以,直觀上,這意味著要做好對(duì)比任務(wù)全局特征向量必須從所有不同的局部區(qū)域中獲取信息。
DIM的損失函數(shù)看起來(lái)與我們上面描述的對(duì)比損失函數(shù)完全一樣。給定一個(gè)錨圖像x,
- f(x)為全局特征。
- f(x+)為同一圖像(正樣本)的局部特征。
- f(x?)是指來(lái)自另一幅圖像(負(fù)樣本)的局部特征。
DIM的應(yīng)用還延伸到了其他領(lǐng)域,如graph和RL。對(duì)DIM的后續(xù)研究,即增強(qiáng)多尺度DIM (Bachman et al., 2019),使用線性分類協(xié)議評(píng)估時(shí),使用無(wú)監(jiān)督訓(xùn)練在ImageNet上實(shí)現(xiàn)了68.4%的Top-1準(zhǔn)確率。
Contrastive Predictive Coding
對(duì)比預(yù)測(cè)編碼(CPC (van den Oord et al ., 2018) (https://arxiv.org/abs/1807.03748))是一種對(duì)比方法,可以應(yīng)用于任何形式的可以表示為有序序列的數(shù)據(jù):文字,語(yǔ)音,視頻,甚至圖片(一個(gè)圖像可以看作是一系列像素或patch)。
CPC通過(guò)編碼信息來(lái)學(xué)習(xí)表示,這些信息在相隔多個(gè)時(shí)間步的數(shù)據(jù)點(diǎn)之間共享,放棄了局部信息。這些特征通常被稱為“慢特征”:不會(huì)隨著時(shí)間變化得太快的特征。具體的例子包括音頻信號(hào)中說(shuō)話者的身份,視頻中進(jìn)行的活動(dòng),圖像中的物體等。
圖解使用音頻輸入的CPC的對(duì)比任務(wù)
CPC的對(duì)比任務(wù)設(shè)置如下。設(shè){x1,x2,…,xN}為數(shù)據(jù)點(diǎn)序列,xt為錨點(diǎn)。然后,
- xt+k是錨點(diǎn)的正樣本。
- 從序列中隨機(jī)采樣的數(shù)據(jù)點(diǎn)xt?是一個(gè)負(fù)樣本。
CPC利用單一任務(wù)中的多個(gè)k來(lái)捕獲在不同時(shí)間尺度上演化的特征。
在計(jì)算xt的表示時(shí),我們可以使用運(yùn)行在編碼器網(wǎng)絡(luò)之上的自回歸網(wǎng)絡(luò)來(lái)編碼歷史上下文。
最近的研究(Henaff et al., 2019)擴(kuò)展了CPC,在ImageNet上用線性分類器評(píng)估時(shí)達(dá)到了71.5%的top-1準(zhǔn)確率。
使用對(duì)比學(xué)習(xí)學(xué)習(xí)不變性
左:AMDIM學(xué)習(xí)數(shù)據(jù)增強(qiáng)(如隨機(jī)裁剪)之間的不變的表示。右:CMC學(xué)習(xí)圖像的不同視圖(通道)之間不變的表示
對(duì)比學(xué)習(xí)提供了一種簡(jiǎn)單的方法在表示空間中來(lái)施加不變性。假設(shè)我們想要一個(gè)表示對(duì)一個(gè)變換T不變(例如剪裁、灰度縮放),我們可以簡(jiǎn)單地構(gòu)造一個(gè)對(duì)比目標(biāo),給定一個(gè)錨點(diǎn)x,
- T(x)是正樣本
- T(x′)其中x′是隨機(jī)的圖像或數(shù)據(jù),是負(fù)樣本
最近的幾篇論文中使用了這種方法,并取得了巨大的經(jīng)驗(yàn)成功:
- 增強(qiáng)多尺度DIM (AMDIM,Bachman et al., 2019)使用標(biāo)準(zhǔn)的數(shù)據(jù)增強(qiáng)技術(shù)作為轉(zhuǎn)換集,表示應(yīng)該對(duì)不同的增強(qiáng)方法具有不變性。
- 對(duì)比多視圖編碼(CMC, Tian et al., 2019)使用同一幅圖像的不同視圖(深度、亮度、亮度、色度、表面法線和語(yǔ)義標(biāo)簽)作為變換集,其表示也應(yīng)該是不變的。
擴(kuò)展負(fù)樣本的數(shù)量 (MoCo)
對(duì)比方法中使用負(fù)樣本的不同策略的比較。這里xq是正樣本,xk是負(fù)樣本。注意,在MoCo中,梯度不會(huì)通過(guò)動(dòng)量編碼器回流。
對(duì)比方法在有更多的負(fù)樣本的情況下效果更好,因?yàn)榧俣ǜ嗟呢?fù)樣本可以更有效地覆蓋底層分布,從而給出更好的訓(xùn)練信號(hào)。在通常的對(duì)比學(xué)習(xí)公式中,梯度流通過(guò)編碼器的正樣本和負(fù)樣本。這意味著正樣本的數(shù)量被限制在mini-batch的尺寸上。動(dòng)量對(duì)比(MoCo,He et al., 2019)通過(guò)維持一個(gè)大的負(fù)樣本隊(duì)列,并且不使用反向傳播來(lái)更新負(fù)編碼器,有效地繞過(guò)了這個(gè)問(wèn)題。相反,它定期更新負(fù)編碼器使用動(dòng)量更新:
其中,θk表示負(fù)樣本編碼器的權(quán)重,θq表示正樣本編碼器的權(quán)重。
來(lái)自MoCo的一個(gè)相當(dāng)驚人的結(jié)果是,在PASCAL VOC、COCO和其他數(shù)據(jù)集上,效果比有監(jiān)督的預(yù)訓(xùn)練模型好,有時(shí)候遠(yuǎn)遠(yuǎn)超過(guò)。傳統(tǒng)上,這些任務(wù)需要在ImageNet上進(jìn)行有監(jiān)督的預(yù)培訓(xùn)才能獲得最佳效果,但MoCo的結(jié)果表明,無(wú)監(jiān)督和有監(jiān)督的預(yù)訓(xùn)練訓(xùn)之間的差距已經(jīng)很大程度上縮小了。
自監(jiān)督學(xué)習(xí)的一個(gè)泛化的范式
盡管在這篇文章中對(duì)比學(xué)習(xí)的大部分應(yīng)用都集中在標(biāo)準(zhǔn)的計(jì)算機(jī)視覺任務(wù)上,我希望對(duì)比學(xué)習(xí)對(duì)于自監(jiān)督學(xué)習(xí)來(lái)說(shuō)是一個(gè)任意領(lǐng)域和任務(wù)的范式。它允許我們將關(guān)于數(shù)據(jù)結(jié)構(gòu)的先驗(yàn)知識(shí)注入到表示空間中。這意味著,當(dāng)我們遠(yuǎn)離靜態(tài)iid數(shù)據(jù)集(丟棄了數(shù)據(jù)中的大量底層結(jié)構(gòu))并利用額外的結(jié)構(gòu)信息時(shí),我們可以構(gòu)建更強(qiáng)大的自監(jiān)督方法。
—END—
英文原文:https://ankeshanand.com/blog/2020/01/26/contrative-self-supervised-learning.html
總結(jié)
以上是生活随笔為你收集整理的有监督学习和无监督学习举例_对比自监督学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 军方急试射高超音速武器
- 下一篇: 德式轻武器从此跌落神坛