[论文学习]DIVIDEMIX:带噪声标签的半监督学习LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING
??本文研究含噪聲標(biāo)簽數(shù)據(jù)的訓(xùn)練,是目前該領(lǐng)域的SOTA。主要方法是:首先使用高斯混合模型,根據(jù)訓(xùn)練集每樣本的損失函數(shù)值對(duì)樣本進(jìn)行分類,分為干凈樣本和噪聲樣本,把噪聲樣本作為無標(biāo)簽樣本;然后使用半監(jiān)督學(xué)習(xí)常用的協(xié)同訓(xùn)練法,即同時(shí)訓(xùn)練兩個(gè)分歧網(wǎng)絡(luò),互相使用另一個(gè)網(wǎng)絡(luò)的數(shù)據(jù)集劃分結(jié)果工作,目的是避免被錯(cuò)分的樣本在單一網(wǎng)絡(luò)中形成“偏差確認(rèn)”。該論文收錄于ICLR2020,作者Junnan Li,工作單位salesforce。
論文地址:https://arxiv.org/abs/2002.07394
開源代碼:https://github.com/LiJunnan1992/DivideMix
一、主要原理
??主要原理如上圖,同時(shí)訓(xùn)練兩個(gè)同結(jié)構(gòu)但不同參數(shù)的網(wǎng)絡(luò)A和B。
??第一步,在每epoch,使用混合高斯模型GMM對(duì)每個(gè)樣本的損失值進(jìn)行分類。這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)對(duì)于干凈標(biāo)簽和噪聲標(biāo)簽會(huì)表現(xiàn)出不同的損失值,噪聲標(biāo)簽的損失值更大,因此對(duì)損失值劃定一個(gè)閾值即可區(qū)分干凈標(biāo)簽和噪聲標(biāo)簽,但是這個(gè)閾值并不能事前確定,需要使用某種聚類算法實(shí)現(xiàn)自動(dòng)的分類,作者認(rèn)為干凈標(biāo)簽和噪聲標(biāo)簽的損失值都應(yīng)是服從各自不同的高斯分布,所以使用含2個(gè)組分的高斯混合模型即可分開。
??這里復(fù)習(xí)一下GMM。GMM是一種聚類算法,用來對(duì)含有多個(gè)高斯分布的數(shù)據(jù)進(jìn)行分類,一般使用期望最大(EM)算法來擬合其中每個(gè)高斯分布的參數(shù),然后得到分類閾值進(jìn)行分類。比如,男生的身高和女生的身高都分別服從一個(gè)高斯分布,通過計(jì)算后可以得到一個(gè)閾值1.6米,可以認(rèn)為1.6米以下的都是女生,1.6米以上的都是男生。可見對(duì)于均值比較接近的高斯分布,GMM分類效果并不好。
為了更好的進(jìn)行GMM分類,文中使用了一些tricks,如figure2所示,進(jìn)行一定的預(yù)熱,就是先訓(xùn)練10個(gè)epoch左右,加入了一個(gè)罰函數(shù)(使用負(fù)熵函數(shù)),可以發(fā)現(xiàn)干凈標(biāo)簽和噪聲標(biāo)簽的損失差別更明顯一些;再經(jīng)過DivideMix的多輪循環(huán),這個(gè)差別會(huì)更加明顯。
??第二步,在每mini-batch,使用改進(jìn)的MixMatch法訓(xùn)練,即兩個(gè)網(wǎng)絡(luò)的輸出結(jié)果混合后再分別輸入給兩個(gè)網(wǎng)絡(luò)繼續(xù)訓(xùn)練。
二、優(yōu)缺點(diǎn)分析
1.優(yōu)點(diǎn)
??根據(jù)作者的試驗(yàn)數(shù)據(jù),本方法效果很好,比之前的方法有很大提升,噪聲50%時(shí)比無噪聲時(shí)精度沒有太多下降,噪聲80%時(shí)仍有相當(dāng)高的精度。
2.缺點(diǎn)
??根據(jù)我的試驗(yàn),本方法對(duì)于噪聲含量10%以下的低噪聲情況效果反而下降很厲害。這是因?yàn)閷?duì)于低噪聲含量情況,兩個(gè)類別的損失分布混在了一起,GMM無法有效識(shí)別出噪聲樣本,所以會(huì)把很多干凈樣本劃分為噪聲樣本。也許調(diào)整一下GMM的參數(shù)會(huì)好一些,我沒有進(jìn)一步試驗(yàn)。
總結(jié)
??我學(xué)習(xí)噪聲標(biāo)簽問題的主要目的是基于之前做很多數(shù)據(jù)競(jìng)賽題時(shí)發(fā)現(xiàn)了不少人工標(biāo)注錯(cuò)誤問題,希望能夠找到解決這些問題的好方法,然而看了好幾篇論文之后并沒有找到直接好用的方法,頂多是論文中的思想可供借鑒一下。本文算是標(biāo)簽噪聲領(lǐng)域目前效果最好的,但是本文僅在噪聲較高情況下才有用,對(duì)于噪聲含量不超過20%的情況并不適用。
總結(jié)
以上是生活随笔為你收集整理的[论文学习]DIVIDEMIX:带噪声标签的半监督学习LEARNING WITH NOISY LABELS AS SEMI-SUPERVISED LEARNING的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LeNet试验(五)观察“彩票假说”现象
- 下一篇: 【论文学习】mixup系列(mixup、