干货!基于表征的噪声转移矩阵估计方法
點擊藍字
關注我們
AI TIME歡迎每一位AI愛好者的加入!
當訓練數據集有標簽噪聲時,我們通常用噪聲轉移矩陣來刻畫一個訓練數據點被錯誤標注的概率。準確地估計該矩陣對于帶噪學習具有重要意義。傳統的估計方法大多依賴于模型的預測值,從而找到一些模型能夠以高置信度預測的樣本,進而估計噪聲轉移矩陣。然而,尋找足夠多的符合條件的樣本是一件困難的事情。為了擺脫對模型預測的依賴,我們從表征(representation) 的角度出發,提出了一種基于表征的噪聲轉移矩陣估計方法。該方法的基本思想是:具有相似表征的數據點應該屬于同一類別,即相同真實標簽。標簽噪聲的存在使得我們觀測到的相似表征的噪聲標簽可能不一致,而標簽的一致性蘊含了噪聲轉移矩陣的信息。我們證明:僅比較至多三個相似表征的標簽一致性就可以得到噪聲轉移矩陣的唯一真實解。該方法為噪聲轉移矩陣的估計提供了一個全新的視角,并有潛力與自監督等表征學習方法相結合。
本期AI TIME PhD直播間我們邀請到加州大學圣克魯茲分校博士生——朱兆偉,為我們帶來報告分享《基于表征的噪聲轉移矩陣估計方法》。
朱兆偉:
加州大學圣克魯茲分校博士三年級學生。研究興趣集中在弱監督學習、機器學習公平性、聯邦學習等領域相關的理論及應用,比如,訓練標簽帶有人為標注噪聲時如何設計損失函數去抵消噪聲影響,如何處理聯邦學習中低質量、有系統誤差的本地訓練集。目前在ICML,ICLR,NeurIPS,ACM Sigmetrics,CVPR等會議,IEEE TWC,IEEE TPDS等期刊上發表多篇一作論文。
01
?背? 景?
(1)?什么是噪聲轉移矩陣?
在深度學習的模型訓練中,我們使用的數據集理想情況下它的標簽是完全正確的,但是實際情況下,特別是人工標注過程中無法保證百分百準確性,因此很多情況下,實際的數據集標注是帶噪的。
根據下圖具體介紹一下噪聲轉移矩陣,噪聲轉移矩陣可以用來刻畫噪聲的性質,下圖中矩陣中的元素描述了由干凈標簽i轉移到噪聲標簽j的概率。下圖展示了5張來源于CIFAR-10數據集的貓的樣例圖片以及人為標注的標簽,第一張圖被錯誤標注為了狗,第五張被錯誤標注為了船,這就是標簽噪聲。假設貓的標簽是1,狗的標簽是2,船的標簽是3,就表示真實標簽為貓并且被標記為貓的概率,5張圖中3張被標記為貓,因此T11=0.6。
(2)?如何估計噪聲轉移矩陣
噪聲轉移矩陣可以幫助我們學習到對噪聲有抵抗能力的分類器,然而目前的工作都局限于下面這個通用的流程。
首先利用一個神經網絡擬合數據分布,然后我們的模型就可以進行類別預測,根據模型預測的類別概率,利用某些方法就可以得到噪聲轉移矩陣。
鑒于上面比較局限的噪聲轉移矩陣估計流程,我們想要不訓練神經網絡,直接估計噪聲轉移矩陣T。
02
?方? 法?
本文提出了High-Order Consensuses (HOC)方法來實現估計噪聲轉移矩陣。
假如我們有Y1,Y2,Y3三個噪聲標簽,根據全概率公式,將它們與噪聲轉移矩陣以及干凈標簽概率Y之間的關系表示如下:其中Y1,Y2,Y3三個噪聲標簽需要對應相同的干凈標簽,即在同一個標簽空間下,Y1,Y2,Y3屬于同一個類別。
我們知道在CIFAR-10數據集中,每張圖片值對應一個標簽,那如何獲得這些高階的數據量呢?有一個思路是具有相似特征的圖片其標注標簽相同。根據數據集中標注的噪聲標簽,我們就可以獲得Y1,Y2,Y3等高階數據樣本。
以2-NN label clusterability為例,隨機選取一個樣本點以及它的兩個最鄰近的樣本點作為一個類,我們要求這三個樣本點的標注標簽是一樣的。
我們使用KNN label clusterability方法(文中Definition 1)來獲取每個表征的相似表征,除了2-NN之外,我們還可以獲取3個、4個等等最相近的樣本點,但是獲取的難度會增加,我們通過實驗發現2-NN已經足夠了(如下表)。我們使用clean CIFAR-10、clean CIFAR-100來訓練一個模型,比如resnet,采用最后一層卷積層作為特征提取層,使用2-NN進行相似表征匹配。
此外,需要注意的是,在進行最近鄰選擇相似表征時,局部的簇群標簽雖然都是貓,但這些局部簇群可能離得比較遠,因為貓的種類不同,其圖片表征也不同。
我們利用2-NN label clusterability將最鄰近的三個表征歸屬為同一個標簽類,這個條件可以幫助我們選取合適的噪聲標簽Y1,Y2,Y3,這些標簽可以幫助我們列出最初提到的那些方程。我們的做法就是判斷每個元組中噪聲標簽是否一致,比如對于每個pattern中某個標簽出現的次數。下圖中左邊的綠圈是一個二階的consensus pattern,橙色圓圈是噪聲標簽1,藍色方塊是噪聲標簽2,同樣地,我們還有可能觀測到兩個方塊,兩個圓圈這樣的二階pattern。通過統計這些pattern在數據集上出現的頻率就可以得到一些估計值。
現在我們以一般形式給出了K類分類問題中估計噪聲轉移矩陣T和干凈標簽預測概率p的一致性方程組如下,我們將這些公式代碼實現為一個Solver,在本文項目的github中可以直接調用。如果與本文的表征類似,那就可以將噪聲轉移矩陣估計出來。
下面我們通過一個一階的例子來說明如何計算干凈標簽的概率p。噪聲轉移矩陣T在右上角已經標出,貓的標簽是1,狗的標簽是2。e1表示真實標簽是貓,但被標記為狗的概率。e2表示真實標簽是狗但被標記為貓的概率。所以觀測到一只貓的概率就是真實標簽是貓的概率p乘上真實是貓標記為貓的概率(1-e1)與真實標簽不是貓的概率(1-p)乘上真實是狗標記為貓的概率e2之和。
03
?實? 驗?
(1)?噪聲轉移矩陣估計實驗
我們與T-Revision方法在CIFAR-10上進行了對比,本文的HOC方法的估計誤差較小,表現優秀。更重要的是,T-Revision需要訓練一個神經網絡,但是本文方法可以直接使用,因此本文方法更容易與其他方法結合使用。
(2)?分類準確性實驗
除了Clothing1M數據集之外,我們自己收集了human-level的關于CIFAR-10的噪聲標簽(詳見http://noisylabels.com/),因此實驗更能貼近真實情況。
在這兩個數據集上,本文方法都可以達到最優的性能。
提
醒
論文鏈接:https://arxiv.org/pdf/2102.05291v1.pdf
項目代碼:https://github.com/UCSC-REAL
CIFAR-10/100噪聲標簽(最新版):http://noisylabels.com/
點擊“閱讀原文”,即可觀看本場回放
整理:愛 國
審核:朱兆偉
AI TIME歡迎AI領域學者投稿,期待大家剖析學科歷史發展和前沿技術。針對熱門話題,我們將邀請專家一起論道。同時,我們也長期招募優質的撰稿人,頂級的平臺需要頂級的你!
請將簡歷等信息發至min.gao@aminer.cn!
微信聯系:AITIME_HY
AI TIME是清華大學計算機系一群關注人工智能發展,并有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法、場景、應用的本質問題進行探索,加強思想碰撞,打造一個知識分享的聚集地。
更多資訊請掃碼關注
我知道你在看喲
點擊“閱讀原文”查看精彩回放
總結
以上是生活随笔為你收集整理的干货!基于表征的噪声转移矩阵估计方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 一些粗糙集的学习感悟
- 下一篇: 软件验收测试有什么标准和注意事项?