NeurIPS’20 | 长尾问题太严重?半监督和自监督就可以有效缓解!
文 | Yuzhe Yang
源 | 知乎
來給大家介紹一下我們的最新工作,目前已被NeurIPS 2020接收:Rethinking the Value of Labels for Improving Class-Imbalanced Learning。這項工作主要研究一個經(jīng)典而又非常實際且常見的問題:數(shù)據(jù)類別不平衡(也泛稱數(shù)據(jù)長尾分布)下的分類問題。我們通過理論推導(dǎo)和大量實驗發(fā)現(xiàn),半監(jiān)督和自監(jiān)督均能顯著提升不平衡數(shù)據(jù)下的學(xué)習(xí)表現(xiàn)。
目前代碼(以及相應(yīng)數(shù)據(jù),30多個預(yù)訓(xùn)練好的模型)已開源,Github鏈接如下:
https://github.com/YyzHarry/imbalanced-semi-selfgithub.com
那么開篇首先用一句話概括本文的主要貢獻:我們分別從理論和實驗上驗證了,對于類別不均衡的學(xué)習(xí)問題,利用
半監(jiān)督學(xué)習(xí) --- 也即利用更多的無標(biāo)簽數(shù)據(jù);
自監(jiān)督學(xué)習(xí) --- 不利用任何其他數(shù)據(jù),僅通過在現(xiàn)有的不平衡數(shù)據(jù)上先做一步不帶標(biāo)簽信息的自監(jiān)督預(yù)訓(xùn)練(self-supervised pre-training)
都可以大大提升模型的表現(xiàn),并且對于不同的平衡/不平衡的訓(xùn)練方法,從最基本的交叉熵損失,到進階的類平衡損失[1][2],重采樣[3],重加權(quán)[4][5],以及之前的state-of-the-art最優(yōu)的decouple算法[6]等,都能帶來一致的&較大的提升。相信我們從和現(xiàn)有方法正交的角度的分析,可以作為解決不平衡長尾問題的新的思路,其簡單和通用性也使得能夠很容易和不同方法相結(jié)合,進一步提升學(xué)習(xí)結(jié)果。
接下來我們進入正文,我會先拋開文章本身,大體梳理一下imbalance這個問題以及一部分研究現(xiàn)狀,在此基礎(chǔ)上盡量詳細的介紹我們的思路和方法,省去不必要的細節(jié)。
研究背景
數(shù)據(jù)不平衡問題在現(xiàn)實世界中非常普遍。對于真實數(shù)據(jù),不同類別的數(shù)據(jù)量一般不會是理想的uniform分布,而往往會是不平衡的;如果按照不同類別數(shù)據(jù)出現(xiàn)的頻率從高到低排序,就會發(fā)現(xiàn)數(shù)據(jù)分布出現(xiàn)一個“長尾巴”,也即我們所稱的長尾效應(yīng)。大型數(shù)據(jù)集經(jīng)常表現(xiàn)出這樣的長尾標(biāo)簽分布:
不同數(shù)據(jù)集的標(biāo)簽呈長尾分布。圖片來源:
https://liuziwei7.github.io/projects/LongTail.html
當(dāng)然,不僅僅是對于分類任務(wù),其他任務(wù)比如object detection或instance segmentation,常用數(shù)據(jù)集也存在類別的不均衡。此外,除了視覺領(lǐng)域中的數(shù)據(jù),對于涉及安全或健康的關(guān)鍵應(yīng)用,例如自動駕駛和醫(yī)療/疾病診斷,數(shù)據(jù)本質(zhì)上也是嚴(yán)重失衡的。
為什么會存在不平衡的現(xiàn)象? 其實很好理解,一個通用的解釋就是特定類別的數(shù)據(jù)是很難收集的。拿Species分類來說(參考大型數(shù)據(jù)集iNaturalist[7]),特定種類(如貓,狗等)非常常見,但是有的種類(如高山兀鷲,隨便舉的例子...)就非常稀有。再比如對自動駕駛,正常行駛的數(shù)據(jù)會占大多數(shù),而真正發(fā)生異常情況/存在車禍危險的數(shù)據(jù)卻極少。再比如對醫(yī)療診斷,患有特定疾病的人群數(shù)相比正常人群也是極度不平衡的。對于healthcare data來說另一個可能原因是和privacy issue有關(guān),特定病人可能都很難采集數(shù)據(jù)。
那么,不平衡或長尾數(shù)據(jù)會有什么問題? 簡單來說,如果直接把類別不平衡的樣本丟給模型用ERM學(xué)習(xí),顯然模型會在major classes的樣本上的學(xué)習(xí)效果更好,而在minor classes上泛化效果差,因為其看到的major classes的樣本遠遠多于minor classes。
那么,對于不平衡學(xué)習(xí)問題有哪些解決方法? 我自己總結(jié)的目前主流方法大致分為以下幾種:
重采樣(re-sampling):更具體可分為對少樣本的過采樣[3],或是對多樣本的欠采樣[8]。但因過采樣容易overfit到minor class,無法學(xué)到更魯棒易泛化的特征,往往在非常不平衡數(shù)據(jù)上表現(xiàn)會更差;而欠采樣則會造成major class嚴(yán)重的信息損失,導(dǎo)致欠擬合發(fā)生。
數(shù)據(jù)合成(synthetic samples):即生成和少樣本相似的“新”數(shù)據(jù)。經(jīng)典方法SMOTE[9],思路簡單來講是對任意選取的少類樣本,用K近鄰選取其相似樣本,通過對樣本線性插值得到新樣本。這里會想到和mixup[10]很相似,于是也有imbalance的mixup版本出現(xiàn)[11]。
重加權(quán)(re-weighting):對不同類別(甚至不同樣本)分配不同權(quán)重。注意這里的權(quán)重可以是自適應(yīng)的。此類方法的變種有很多,有最簡單的按照類別數(shù)目的倒數(shù)來做加權(quán)[12],按照“有效”樣本數(shù)加權(quán)[1],根據(jù)樣本數(shù)優(yōu)化分類間距的loss加權(quán)[4],等等。
遷移學(xué)習(xí)(transfer learning):這類方法的基本思路是對多類樣本和少類樣本分別建模,將學(xué)到的多類樣本的信息/表示/知識遷移給少類別使用。代表性文章有[13][14]。
度量學(xué)習(xí)(metric learning):本質(zhì)上是希望能夠?qū)W到更好的embedding,對少類附近的boundary/margin更好的建模。有興趣的同學(xué)可以看看[15][16]。
元學(xué)習(xí)/域自適應(yīng)(meta learning/domain adaptation):分別對頭部和尾部的數(shù)據(jù)進行不同處理,可以去自適應(yīng)的學(xué)習(xí)如何重加權(quán)[17],或是formulate成域自適應(yīng)問題[18]。
解耦特征和分類器(decoupling representation & classifier):最近的研究發(fā)現(xiàn)將特征學(xué)習(xí)和分類器學(xué)習(xí)解耦,把不平衡學(xué)習(xí)分為兩個階段,在特征學(xué)習(xí)階段正常采樣,在分類器學(xué)習(xí)階段平衡采樣,可以帶來更好的長尾學(xué)習(xí)結(jié)果[5][6]。這也是目前的最優(yōu)長尾分類算法。
至此大概總結(jié)了研究背景和常用方法;然而,即使有如數(shù)據(jù)重采樣或類平衡損失等專門設(shè)計的算法,在極端的類別失衡下,深度模型性能的下降仍然廣泛存在。因此,理解類別不均衡的數(shù)據(jù)標(biāo)簽分布所帶來的影響是非常重要的。
我們的研究動機和思路
不同于之前對于長尾分布研究方法,我們從“the value of labels”,即這些本身就不平衡的數(shù)據(jù)標(biāo)簽具有的“價值”這一思路去考慮。與理想情況下平衡的標(biāo)簽不同,這些不平衡的數(shù)據(jù)標(biāo)簽存在一個非常有趣的dilemma。一方面,這些標(biāo)簽提供了非常珍貴的監(jiān)督信息。有監(jiān)督的學(xué)習(xí)通常都比無監(jiān)督的學(xué)習(xí)在給定任務(wù)上具有更高準(zhǔn)確性,因此即使不平衡,這些標(biāo)簽也擁有“正面價值”。但是另一方面,由于標(biāo)簽非常不平衡,訓(xùn)練模型的過程中可以非常自然的強加上label bias,從而使得最后的決策區(qū)域很大程度上被major class影響;這樣的結(jié)果又證明了不平衡標(biāo)簽的“負面價值”。作為總結(jié),在不平衡的訓(xùn)練集中,這些標(biāo)簽就像一把雙刃劍;想要得到更好的結(jié)果,一個非常重要的問題就是如何最大程度的利用不平衡標(biāo)簽的“價值”?
于是,我們嘗試系統(tǒng)性的分解并且分別分析上述兩種不同的角度。我們的結(jié)論表明對于正面的和負面的角度,不平衡標(biāo)簽的價值都可被充分利用,從而極大的提高最后分類器的準(zhǔn)確性:
從正面價值的角度,我們發(fā)現(xiàn)當(dāng)有更多的無標(biāo)簽數(shù)據(jù)時,這些不平衡的標(biāo)簽提供了稀缺的監(jiān)督信息。通過利用這些信息,我們可以結(jié)合半監(jiān)督學(xué)習(xí)去顯著的提高最后的分類結(jié)果,即使無標(biāo)簽數(shù)據(jù)也存在長尾分布。
從負面價值的角度,我們證明了不平衡標(biāo)簽并非在所有情況下都是有用的。標(biāo)簽的不平衡大概率會產(chǎn)生label bias。因此在訓(xùn)練中,我們首先想到“拋棄”標(biāo)簽的信息,通過自監(jiān)督的學(xué)習(xí)方式先去學(xué)到好的起始表示形式。我們的結(jié)果表面通過這樣的自監(jiān)督預(yù)訓(xùn)練方式得到的模型也能夠有效的提高分類的準(zhǔn)確性。
半監(jiān)督框架下的不均衡學(xué)習(xí)
我們首先從半監(jiān)督的不均衡學(xué)習(xí)說起,通過一個簡單的理論模型分析來建立直觀的解釋(省去了許多細節(jié);可以直接跳到解釋部分),之后展示一些有意思的實驗結(jié)果。
理論分析:我們先從一個簡單的toy example入手。考慮一個不同均值,μ 和 μ ,但是相同方差的Guassian mixture模型,我們可以很容易驗證其貝葉斯最優(yōu)分類器為:因此為了更好的分類,我們希望學(xué)習(xí)到他們的平均均值, 假設(shè)我們已有一個在不平衡的訓(xùn)練集上得到的基礎(chǔ)分類器 以及一定量的無標(biāo)簽的數(shù)據(jù),我們可以通過這個基礎(chǔ)分類器給這些數(shù)據(jù)做pseudo-label。令 和 代表pseudo-label為正和為負的數(shù)據(jù)的數(shù)量。為了估計 ,最簡單的方法我們可以通過pseudo-label給這些對應(yīng)的沒有標(biāo)簽的數(shù)據(jù)取平均得到 。假設(shè) 代表基礎(chǔ)分類器對于兩個類的準(zhǔn)確度的gap。這樣的話我們推出以下定理:
那么直觀理解,對于這樣一個toy example,這個定理告訴了我們以下兩點很有意思的結(jié)論:
原始數(shù)據(jù)集的不平衡性會影響我們最后estimator的準(zhǔn)確性。越不平衡的數(shù)據(jù)集我們expect 基礎(chǔ)分類器有一個更大的 。越大的 影響我們的estimator 到理想的均值之間的距離。
無標(biāo)簽數(shù)據(jù)集的不平衡性影響我們能夠得到一個好的estimator的概率。對于還不錯的基礎(chǔ)分類器, 和 可以看做是對于無標(biāo)簽數(shù)據(jù)集的不平衡性的近似。我們可以看到,當(dāng) 約等于時,值更大。同時對于 和 這兩項 ,如果無標(biāo)簽數(shù)據(jù)很不平衡,那么數(shù)據(jù)少的一項會主導(dǎo)另外一項,從而影響最后的概率。
半監(jiān)督的不平衡學(xué)習(xí)框架: 我們的理論發(fā)現(xiàn)表明,利用pseudo-label偽標(biāo)簽(以及訓(xùn)練數(shù)據(jù)中的標(biāo)簽信息)可以有助于不平衡學(xué)習(xí);而數(shù)據(jù)的不平衡程度會影響學(xué)習(xí)的結(jié)果。受此啟發(fā),我們系統(tǒng)地探索了無標(biāo)記數(shù)據(jù)的有效性。我們采用最簡單的自訓(xùn)練(self-training)的半監(jiān)督學(xué)習(xí)方法,即對無標(biāo)記數(shù)據(jù)生成偽標(biāo)簽(pseudo-labeling)進而一起訓(xùn)練。準(zhǔn)確來講,我們首先在原始的不平衡數(shù)據(jù)集 上正常訓(xùn)練獲得一個中間步驟分類器 ,并將其應(yīng)用于生成未標(biāo)記數(shù)據(jù) 的偽標(biāo)簽 ;通過結(jié)合兩部分?jǐn)?shù)據(jù),我們最小化損失函數(shù) 以學(xué)習(xí)最終模型 。
值得注意的是,除了self-training之外,其他的半監(jiān)督算法也可以通過僅修改損失函數(shù)輕松地并入我們的框架中;同時,由于我們未指定 和 的學(xué)習(xí)策略,因此半監(jiān)督框架也能很輕易的和現(xiàn)有類別不平衡的算法相結(jié)合。
實驗: 到了激動人心的實驗部分了 :)! 首先說一下實驗的setting --- 我們選擇了人工生成的長尾版本的CIFAR-10和SVHN數(shù)據(jù)集,因為他們均有天然對應(yīng)、且數(shù)據(jù)分布相似的無標(biāo)記數(shù)據(jù):CIFAR-10屬于Tiny-Images數(shù)據(jù)集,而SVHN本身就有一個extra dataset可用來模擬多余的無標(biāo)記數(shù)據(jù)。這部分更加細節(jié)的setting請詳見我們的文章;我們也開源了相應(yīng)的數(shù)據(jù)供大家使用測試。對于無標(biāo)記數(shù)據(jù),我們也考慮到了其可能的不平衡/長尾分布,并顯式的比較了不同分布的無標(biāo)記數(shù)據(jù)的影響( 和 的典型分布如下):
典型的原始數(shù)據(jù)分布,以及可能的無標(biāo)記數(shù)據(jù)分布
而具體的實驗結(jié)果如下表所示。我們可以清楚看到,利用無標(biāo)記數(shù)據(jù),半監(jiān)督學(xué)習(xí)能夠顯著提高最后的分類結(jié)果,并且在不同的 (1) 數(shù)據(jù)集,(2) base學(xué)習(xí)方法,(3) 標(biāo)記數(shù)據(jù)的不平衡比率,(4) 無標(biāo)記數(shù)據(jù)的不平衡比率下,都能帶來一致的提升。此外,我們在附錄里還提供了 (5) 不同半監(jiān)督學(xué)習(xí)方法的比較,以及不同data amount的ablation study。
最后展示一下定性的實驗結(jié)果。我們分別畫出了不使用/使用無標(biāo)簽數(shù)據(jù),在訓(xùn)練集和測試集上的t-SNE可視化圖。從圖中可以直觀看出,使用未標(biāo)記數(shù)據(jù)有助于建模更清晰的類邊界,并促成更好的類間分離,尤其是對于尾類的樣本。這樣的結(jié)果也符合我們的直觀理解,對于尾類樣本,其所處區(qū)域的數(shù)據(jù)密度低,模型在學(xué)習(xí)過程中不能對這些low-density區(qū)域很好建模邊界,從而造成模糊性(ambiguity)導(dǎo)致較差的泛化;而無標(biāo)記數(shù)據(jù)則能有效提高低密度區(qū)域樣本量,加上了更強的regularization使得模型重新更好地建模邊界。
半監(jiān)督不均衡學(xué)習(xí)的進一步思考
雖然通過半監(jiān)督學(xué)習(xí),模型在不平衡數(shù)據(jù)上的表現(xiàn)能夠得到顯著的提升,但是半監(jiān)督學(xué)習(xí)本身也存在一些實際應(yīng)用的問題,而這些問題在不平衡學(xué)習(xí)中可能會被進一步放大。接下來我們通過設(shè)計相應(yīng)實驗來系統(tǒng)地闡述和分析這些情況,并motivate接下來對于不平衡標(biāo)簽“負面價值”的思考和研究。
首先,無標(biāo)簽數(shù)據(jù)與原始數(shù)據(jù)的相關(guān)性對于半監(jiān)督學(xué)習(xí)的結(jié)果有很大的影響。舉個栗子,對于CIFAR-10(10類分類)來說,獲得的無標(biāo)簽數(shù)據(jù)可能并不屬于原本10類中的任何一類(比如高山兀鷲...),這時多余的信息則可能對訓(xùn)練和結(jié)果造成不小影響。為了驗證這一觀點,我們固定無標(biāo)簽數(shù)據(jù)和原始訓(xùn)練數(shù)據(jù)有相同的不平衡比率,但是通過改變無標(biāo)簽數(shù)據(jù)和原始訓(xùn)練數(shù)據(jù)的相關(guān)性去構(gòu)造不同的無標(biāo)簽數(shù)據(jù)集。從Figure 2中我們可以看出,無標(biāo)簽數(shù)據(jù)的相關(guān)性需要達到將近60%以上才能過對不平衡學(xué)習(xí)有正面的幫助。
既然原始訓(xùn)練數(shù)據(jù)是不平衡的,能夠采集到的無標(biāo)簽數(shù)據(jù)也大概率是極度不平衡的。譬如醫(yī)療數(shù)據(jù)中,你構(gòu)建了自動診斷某類疾病的數(shù)據(jù)集,其中正例(患病)很少,只占總體1%,但因為此病得病率就在1%左右,即使大量搜集無標(biāo)簽數(shù)據(jù),其中真正患病數(shù)據(jù)大概率還是很少。那么,在同時考慮相關(guān)性的前提下,如Figure 3所示,我們首先讓無標(biāo)簽數(shù)據(jù)集有足夠的相關(guān)性(60%),但改變無標(biāo)簽數(shù)據(jù)的不平衡比率。這個實驗中,我們固定原始訓(xùn)練數(shù)據(jù)的不平衡比率為50。可以看到對于無標(biāo)簽數(shù)據(jù),當(dāng)無標(biāo)簽數(shù)據(jù)過于不平衡(本例中不平衡比率高于50)時,利用無標(biāo)簽數(shù)據(jù)反而可能讓結(jié)果變得更差。
上述問題在某些特定的實際不平衡學(xué)習(xí)任務(wù)中,可能是非常普遍的。比如醫(yī)療/疾病診斷的應(yīng)用,對于可能獲得的無標(biāo)記數(shù)據(jù),其絕大多數(shù)大概率也都是從正常樣本上采集的,這首先造成了數(shù)據(jù)的不平衡;其次,即使是患病的樣本,也很可能由很多其他混雜因素(confounding factors)導(dǎo)致,而這會降低與本身研究病癥的相關(guān)性。因此,在一些很難利用半監(jiān)督學(xué)習(xí)的極端情況下,我們需要完全不同的但是也行之有效的方法。非常自然的,我們接下來從不平衡標(biāo)簽負面價值的角度去入手,闡述另一思路 --- 自監(jiān)督學(xué)習(xí)帶來的好處。
自監(jiān)督框架下的不均衡學(xué)習(xí)
同樣地,我們首先通過一個簡單的理論模型分析來直觀理解自監(jiān)督對不平衡學(xué)習(xí)所帶來的影響(同樣也可以直接跳到解釋部分),之后展示有意思的實驗結(jié)果,以及總結(jié)思考。
理論分析: 我們同樣考慮一個 維Guassian mixture的toy example。這次我們考慮兩個類有相同的均值(都為0)但是不同的方差, 和 。其中,我們假設(shè)負類是主要的類(mix 概率 )。我們考慮線性的分類器 , ,并且用標(biāo)準(zhǔn)的error probability, ,作為分類器的衡量標(biāo)準(zhǔn)。在正常的訓(xùn)練中,公式里的feature代表的是raw data,。在這種情況下,我們可以首先證明上述的線性分類器一定會有至少 的error probability(詳見文章)。接下來我們考慮當(dāng)有self-supervision的情況。假設(shè)一個好的self-supervised task幫助我們學(xué)習(xí)到了新的representation, , 。我們考慮用 作為線性分類器的輸入。在上述的分類器范圍內(nèi), 我們可以得到一個分類器, ,,滿足下面的定理:
同樣的,我們嘗試直觀的解釋這個定理的意義。我們發(fā)現(xiàn)在這樣簡單的情況下,如果通過一個好的self-supervised task學(xué)習(xí)到了有用的表達形式,我們能得到:
有很高的概率,我們能得到一個更好的分類器。這個分類器的error probability隨數(shù)據(jù)維度 的增加而指數(shù)型減小。對于如今常見的高維數(shù)據(jù)(如圖像)這種性質(zhì)是我們希望得到的。
訓(xùn)練數(shù)據(jù)的不平衡性會影響我們能夠得到這樣一個好的分類器的概率。上文中, 和 代表訓(xùn)練數(shù)據(jù)里不同類的數(shù)量。從 和 這兩項中我們可以發(fā)現(xiàn),當(dāng)數(shù)據(jù)越多且越平衡,我們就有更高的概率得到一個好的分類器。
自監(jiān)督的不平衡學(xué)習(xí)框架: 為利用自監(jiān)督來克服固有的“l(fā)abel bias”,我們提出在長尾學(xué)習(xí)的第一階段先放棄標(biāo)簽信息,并進行自監(jiān)督預(yù)訓(xùn)練(self-supervised pre-training,SSP)。此過程旨在從不平衡數(shù)據(jù)集中學(xué)到更好的、與標(biāo)簽無關(guān)的初始化特征信息。在此階段后,我們可以使用任何標(biāo)準(zhǔn)的訓(xùn)練方法,去訓(xùn)練得到最終的模型。由于預(yù)訓(xùn)練與正常訓(xùn)練階段所采用的學(xué)習(xí)方法無關(guān),因此這種策略可與任何現(xiàn)有的不平衡學(xué)習(xí)算法兼容。一旦自監(jiān)督產(chǎn)生良好的初始化,網(wǎng)絡(luò)就可以從預(yù)訓(xùn)練任務(wù)中受益,并最終學(xué)習(xí)到更通用的表示形式。
實驗: 那么又一次到了激動人心的實驗部分 ;) 這次由于不需要額外數(shù)據(jù),我們除了在長尾的CIFAR-10/100上驗證算法,也在大型數(shù)據(jù)集ImageNet的長尾版本,以及一個真實的大型長尾數(shù)據(jù)集iNaturalist[7]上進行測試,并和相應(yīng)state-of-the-art對比。對于自監(jiān)督算法,我們采用了經(jīng)典的Rotation prediction[19]和最新的對比學(xué)習(xí)方法MoCo[20]。在Appendix里我們也提供了更多ablation study,比較了4種不同自監(jiān)督方法的效果,以及不同的Imbalance Type。
具體實驗結(jié)果如以下兩表格所示。一言以蔽之,使用SSP能夠?qū)Σ煌?(1) 數(shù)據(jù)集,(2) 不平衡比率,以及 (3) 不同的基礎(chǔ)訓(xùn)練算法,都帶來了一致的、肉眼可見的提升,并且在不同數(shù)據(jù)集上都超過了之前最優(yōu)的長尾分類算法。
最后同樣展示一下自監(jiān)督下的定性實驗結(jié)果。與之前一樣,我們分別畫出了訓(xùn)練和測試集的特征t-SNE投影。從圖中不難發(fā)現(xiàn),正常CE訓(xùn)練的決策邊界會很大程度被頭類樣本改變,從而導(dǎo)致在(平衡的)測試集中尾類樣本的大量“泄漏”,無法很好泛化。相比之下,使用SSP可以保持清晰的分離效果,并減少尾類樣本的泄漏,尤其是在相鄰的頭類和尾類之間。這樣的結(jié)果同樣也能直觀理解:自監(jiān)督學(xué)習(xí)通過額外的task來約束學(xué)習(xí)過程,對數(shù)據(jù)空間的結(jié)構(gòu)學(xué)習(xí)的更完整、提取的信息更全面,相比不平衡的標(biāo)簽信息帶來的語義信息的不平衡,其能有效減輕網(wǎng)絡(luò)對高層語義特征的依賴,以及對尾部數(shù)據(jù)的過擬合,學(xué)到的特征表示會更魯棒易泛化,從而在下游任務(wù)中表現(xiàn)更好。
結(jié)語
最后總結(jié)一下本文,我們首次通過半監(jiān)督和自監(jiān)督這兩個不同的viewpoint去嘗試?yán)斫夂屠貌黄胶獾臄?shù)據(jù)(標(biāo)簽),并且驗證了這兩種框架均能提升類別不均衡的長尾學(xué)習(xí)問題。我個人還是挺喜歡這篇文章的,有很直觀的理論分析與解釋,以及用非常簡潔并且通用的框架去提升長尾分布下的學(xué)習(xí)任務(wù)。拿一位給我們很高分?jǐn)?shù)的reviewer的原話,“The results could be of interest to even broader area of different applications”,即不只是局限于文中做的幾個academic datasets,而對于現(xiàn)實中許多常見的imbalance或long-tail的任務(wù),都是能即插即用,或是對如何有效收集無標(biāo)簽數(shù)據(jù)提供一些insight的。
當(dāng)然,宣傳歸宣傳,我們的工作還是存在其局限性。雖然我們考慮到了無標(biāo)簽數(shù)據(jù)的不平衡性,但是對于半監(jiān)督(或是自監(jiān)督)的算法本身,并沒有整合不平衡學(xué)習(xí)的策略,而是直接使用了vanilla的算法。其次,如我們標(biāo)題所帶詞語“improving”所示,我們能提升現(xiàn)有的最優(yōu)算法,但長尾問題本身仍未完全解決,甚至還有很大的提升空間。
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
參考文獻
[1]Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9268–9277, 2019.
[2]Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. Focal loss for dense object detection. In ICCV, pages 2980–2988, 2017.
[3]Samira Pouyanfar, et al. Dynamic sampling in convolutional neural networks for imbalanced data classification.
[4]Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss. NeurIPS, 2019.
[5]BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition. CVPR, 2020.
[6]Decoupling representation and classifier for long-tailed recognition. ICLR, 2020.
[7]iNatrualist 2018 competition dataset. https://github.com/visipedia/inat_comp/tree/master/2018
[8]He, H. and Garcia, E. A. Learning from imbalanced data. TKDE, 2008.
[9]Chawla, N. V., et al. SMOTE: synthetic minority oversampling technique. JAIR, 2002.
[10]mixup: Beyond Empirical Risk Minimization. ICLR 2018.
[11]H. Chou et al. Remix: Rebalanced Mixup. 2020.
[12]Deep Imbalanced Learning for Face Recognition and Attribute Prediction. TPAMI, 2019.
[13]Large-scale long-tailed recognition in an open world. CVPR, 2019.
[14]Feature transfer learning for face recognition with under-represented data. CVPR, 2019.
[15]Range Loss for Deep Face Recognition with Long-Tail. CVPR, 2017.
[16]Learning Deep Representation for Imbalanced Classification. CVPR, 2016.
[17]Meta-Weight-Net: Learning an Explicit Mapping For Sample Weighting. NeurIPS, 2019.
[18]Rethinking Class-Balanced Methods for Long-Tailed Recognition from a Domain Adaptation Perspective. CVPR, 2020.
[19]Spyros Gidaris, Praveer Singh, and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. arXiv preprint arXiv:1803.07728, 2018.
[20]Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. Momentum contrast for unsupervised visual representation learning. arXiv preprint arXiv:1911.05722, 2019.
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的NeurIPS’20 | 长尾问题太严重?半监督和自监督就可以有效缓解!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Knowledge Review:超越知
- 下一篇: 不同于NLP,数据驱动、机器学习无法攻克