Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification简单翻译理解
Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification簡單翻譯理解
- Abstract
- Introduction
- Related Work
- The Proposed Method
Abstract
行人重識別(Re-ID)是一項具有挑戰(zhàn)性的任務,由于身份樣本和成像條件的高差異。盡管最近隨著在深度學習方面的進步已經(jīng)在固定場景中取得了顯著的準確性,但是對于不可見的目標域,很少有作品能很好地推廣。一種常用的解決方法是通過聚類給未標記的目標圖像配上偽標簽,然后對模型進行再訓練。然而,聚類方法往往會引入有噪聲的標簽,丟棄作為離群值的低置信值樣本,這可能會阻礙再訓練過程,從而限制泛化能力。在本研究中,作者認為通過在聚類后明確地加入樣本過濾程序,可以更有效地使用挖掘的樣本。為此設(shè)計了一個非對稱協(xié)同教學框架,該框架通過協(xié)同兩個模型為對方選擇可能具有干凈標簽的數(shù)據(jù)來抵抗標簽噪聲。同時,一個模型接收盡可能純的樣本,而另一個模型接收盡可能多樣化的樣本。這個過程鼓勵選擇的訓練樣本既干凈又雜,并且這兩個模型可以迭代地相互促進。大量的實驗表明,所提出的框架可以一致地受益于大多數(shù)基于聚類的方法,并提高了最新的自適應精度。
Introduction
行人重識別的目標是通過給定的探測圖像在監(jiān)控視頻中定位目標人物。隨著深度學習模型的快速發(fā)展,公共數(shù)據(jù)集中的person re-ID的準確性大大提高。然而,在源域上訓練的模型經(jīng)常會受到域轉(zhuǎn)移的影響,從而導致在不同的目標域上性能下降。
為了緩解這一問題,近期的作品主要域自適應(UDA)是將知識從有標記的源域轉(zhuǎn)移到無標記的目標域。這些工作主要有兩個方面,分配對齊和目標偽標簽發(fā)現(xiàn)等。前者旨在減小共同空間中域之間的分布差距,如圖像級和屬性水平。后者試圖利用目標樣本之間的潛在關(guān)系,預測偽標簽用于模型再訓練,如基于聚類分配偽標簽。其中,基于聚類的方法報道了非常具有競爭性的準確性。這些方法通常采用一種迭代過程,根據(jù)聚類預測未標記目標樣本的偽身份,并利用這些預測樣本對模型進行微調(diào)。盡管基于聚類的方法取得了良好的效果,但主要存在兩個缺點。一方面,即使使用現(xiàn)代的聚類方法,也不能保證聚類的準確性,從而使聚類分配的偽標簽存在噪聲。用帶有噪聲的標簽的模型訓練錯誤的身份,無疑會損害識別性能。另一方面,大多數(shù)聚類方法傾向于將低置信值樣本作為離群值,不給它們分配聚類標簽,如DBSCAN。這些異常值通常是遇到高圖像變化的硬樣本。如果在訓練時不考慮這些樣本,模型可能會在識別高變異檢驗樣本時出現(xiàn)問題。但是,直接將它們分配到最近的聚類中會帶來更多的噪聲標簽,阻礙模型的再訓練。
協(xié)同教學(CT)是一種常用的帶噪標簽的訓練模型算法,它通過將一個網(wǎng)絡損失較小的樣本喂給另一個網(wǎng)絡來學習兩個網(wǎng)絡。然而,大多數(shù)的協(xié)同教學框架利用了兩個網(wǎng)絡的對稱輸入,這不能有效地應用于基于聚類的跨域行人重識別。這是因為置信度低的訓練樣本在訓練過程中損失較大。由于使用對稱輸入,模型總是選擇簡單的樣本,而忽略了小批量訓練中的低置信樣本。因此,上述第二個缺點仍然存在,將導致reID模型達到局部最小值。
圖1:提出的非對稱協(xié)同教學框架(ACT)。“M”和“C”分別表示主模型和協(xié)作模型。首先對源標記數(shù)據(jù)進行訓練,然后對聚類預測的偽標簽目標數(shù)據(jù)進行微調(diào),得到“M”和“C”的初始權(quán)值。“M”接收來自inliers和outliers盡可能不同的樣本,而“C”在ACT期間從inliers接受盡可能純凈的樣本。這一過程促使兩種模式相互促進彼此的辨別能力。
首先選擇最先進的基于聚類的方法作為基準,并提出了一種非對稱協(xié)同教學框架,以消除上述兩個缺點帶來的負面影響。具體來說,我們首先根據(jù)聚類結(jié)果將目標樣本分為內(nèi)群點和離群點(如圖1所示)。在本文中,我們將聚類方法識別的低置信樣本視為離群點,其余為內(nèi)群點。然后,用兩個模型訓練我們的框架。第一種是主要模型,目的是從內(nèi)群層點中推斷出損失較小的樣本;第二種是協(xié)作者模型,目的是從離群值中估計損失較小的樣本。選取由某一模型推斷/估計的樣本進行另一模型的訓練。這個訓練過程與傳統(tǒng)的協(xié)同教學相似,除了兩個模型的輸入是不對稱的,即兩個模型的訓練數(shù)據(jù)來自兩個不同的數(shù)據(jù)流。這樣,選擇損失較小的樣本,就可以保證用盡可能干凈的數(shù)據(jù)訓練模型。此外,這兩個模型是相互迭代推進的。一方面,主模型試圖從內(nèi)群點中挖掘盡可能純粹的樣本,以維護協(xié)作者模型的基本表示。另一方面,合作者模型試圖從離群值中選擇盡可能多樣化的樣本,以進一步提高主模型的識別能力。我們的貢獻概括為三個方面:
介紹了在跨域人識別中采用協(xié)同教學技術(shù)來抵抗聚類產(chǎn)生的帶噪標簽。實驗表明,使用過濾后的數(shù)據(jù)進行學習可以持續(xù)提高自適應精度。
我們將未標記的目標數(shù)據(jù)劃分為inliers和outliers,并設(shè)計了一個非對稱協(xié)同教學(ACT)框架,使reid模型在適應的早期階段看到困難的樣本。實驗表明,非對稱方法在處理硬樣本時比對稱方法更有效。
在三個大規(guī)模數(shù)據(jù)集上的實驗表明,我們的方法可以應用于各種基于聚類的方法,并在person re-ID中產(chǎn)生最先進的自適應精度。
Related Work
最近關(guān)于跨域re-ID的研究主要可以歸結(jié)為分布對齊和基于聚類的改編。分布對齊試圖縮小公共空間的分布差距,這可以進一步概括為圖象層和屬性層。對于圖像級適應方法,PT-GAN使用cycleo -gan或Star-GAN將已標記源圖像的前景轉(zhuǎn)換為目標相機風格進行適應。類似地,SPGAN利用了Cycle-GAN和名為“自相似性”和“域不同”的附加約束來提高精確度。但是,由于生成的圖像與真實圖像相比還有很大的差距,圖像級自適應算法不能保證生成的圖像的身份。對于屬性級自適應方法,MMFA試圖通過最小化平均最大差異(mean maximum difference, MMD)來對齊不同數(shù)據(jù)集之間中層語義屬性的分布。TJ-AIDL利用多分支網(wǎng)絡,建立了對目標域最優(yōu)的識別和屬性敏感的特征表示空間。這些工作需要對源數(shù)據(jù)進行屬性標注,在實際操作中很難獲得。
基于聚類的適應是適應reid模型的另一種直接的方法。Fan等人使用k-means預測未標記目標數(shù)據(jù)的偽標簽,用于模型微調(diào)。然而,在聚類中很難確定正確的k值。Song et al.提出了一種基于dbscan的自適應方法,該方法可以根據(jù)特征的密度來發(fā)現(xiàn)簇的數(shù)量。基于聚類的方法雖然可以獲得較高的領(lǐng)域適應reid精度,但大多數(shù)方法忽略了聚類結(jié)果中標注錯誤的樣本,直接使用它們進行訓練,這對模型的性能產(chǎn)生了負面影響。
最近關(guān)于跨域re-ID的研究主要可以歸結(jié)為分布對齊和基于聚類的改編。分布對齊試圖縮小公共空間的分布差距,這可以進一步概括為圖象層和屬性層。對于圖像級適應方法,PT-GAN使用cycleo-gan或Star-GAN將已標記源圖像的前景轉(zhuǎn)換為目標相機風格進行適應。類似地,SPGAN利用了Cycle-GAN和名為“自相似性”和“域不同”的附加約束來提高精確度。但是,由于生成的圖像與真實圖像相比還有很大的差距,圖像級自適應算法不能保證生成的圖像的身份。對于屬性級自適應方法,MMFA試圖通過最小化平均最大差異(mean maximum difference, MMD)來對齊不同數(shù)據(jù)集之間中層語義屬性的分布。TJ-AIDL利用多分支網(wǎng)絡,建立了對目標域最優(yōu)的識別和屬性敏感的特征表示空間。這些工作需要對源數(shù)據(jù)進行屬性標注,在實際操作中很難獲得。
基于聚類的適應是適應reid模型的另一種直接的方法。Fan等人使用k-means預測未標記目標數(shù)據(jù)的偽標簽,用于模型微調(diào)。然而,在聚類中很難確定正確的k值。Song et al.提出了一種基于dbscan的自適應方法,該方法可以根據(jù)特征的密度來發(fā)現(xiàn)簇的數(shù)量。基于聚類的方法雖然可以獲得較高的領(lǐng)域適應reid精度,但大多數(shù)方法忽略了聚類結(jié)果中標注錯誤的樣本,直接使用它們進行訓練,這對模型的性能產(chǎn)生了負面影響。
The Proposed Method
設(shè)T為無標記目標訓練集,S為有標記源訓練集。無監(jiān)督域自適應試圖同時利用T和S來學習一個能很好地推廣到目標測試集的reid模型。
提出的ACT就是為了解決這個問題,它包括三個階段:(1)源模型訓練。(2)Clustering-based適應。(3)適應的非對稱協(xié)同教學。前兩個階段的目標是通過對帶標記的源數(shù)據(jù)進行初始化,利用聚類生成的偽標簽對目標數(shù)據(jù)進行微調(diào),得到具有基本判別能力的模型。第三階段通過第二階段自適應模型初始化的兩個模型相互協(xié)作來應對噪聲標簽。在第三階段,我們首先根據(jù)聚類結(jié)果將目標訓練集分割為inliers和outliers,然后用 /對小損失樣本從/訓練模型/ 。算法1說明了該方法的總體過程。接下來,我們將詳細描述所提出的方法。
Source Model Training
在我們的方法的第一階段,我們訓練源模型用標記的源數(shù)據(jù)集S,通過crossentropy loss和triplet loss。基于源數(shù)據(jù)的訓練模型具有基本的適應區(qū)分能力。
Clustering-based Adaptation
由于源數(shù)據(jù)集和目標數(shù)據(jù)集之間的域轉(zhuǎn)移,所得到的源數(shù)據(jù)集模型通常不能很好地推廣到新的數(shù)據(jù)集上。為了解決這一問題,我們遵循一個強健可靠的適應框架。采用Msrc(source model)提取目標圖像的pool -5特征,并根據(jù)DBSCAN的聚類結(jié)果將T劃分為inliers Ti和outliers To。進一步的培訓可以根據(jù)注釋的inliers Ti進行。通過引入聚類距離度量和損失函數(shù),給出了自適應算法。
Distance metric for clustering.聚類的距離度量,選擇k–reciprocal編碼和Jaccard距離作為聚類的距離度量。其中,我們首先通過以下方法計算成對相似度矩陣M:
其中是樣本i和j之間通過使用pool -5特征的相似性,R?(i, k)是樣本i的改進的k-reciprocal集,它是通過添加一些具體的可靠約束得到的。得到相似度矩陣M后,Jaccard距離 (i, j)可計算由:
其中Ntis是目標訓練數(shù)據(jù)集的總圖像數(shù)。為了提高相似度,每個目標特征應該接近一些源特征,即。最小化:其中Ns(xi)是目標圖像i在源域內(nèi)的最近鄰居,考慮dJ和dw,最終的聚類距離度量為:
其中,λ∈[0,1]為平衡因子,本研究中我們將其設(shè)為0.1。
Loss function.給定計算出的距離矩陣M,對未標記的目標數(shù)據(jù)集T執(zhí)行DBSCAN,并將其劃分為inliers Ti和outliers To。Ti中的每個示例被分配到一個集群。因此,我們可以使用tir的偽標簽對Msrc進行微調(diào),并根據(jù)優(yōu)化后的msrcr迭代更新聚類結(jié)果。在Msrc的微調(diào)中,我們只使用了triplet loss。通過使用pool -5和fc-2048特征計算每個批次數(shù)據(jù)的三重損失:
其中Nb為訓練批大小,p和n是錨點圖像a中最不相似的正樣本和最相似的負樣本。xp, xn和xa表示對應的正樣本、負樣本和錨點樣本的特征。經(jīng)過自適應,得到了一個更好的re-ID模型Mada。但是,如第1節(jié)所述,由于源和目標域分布不一致,模型提取的特征對于下游的聚類任務并不足夠可靠。因此,聚類結(jié)果可能會包含很多有噪聲的標簽。
Asymmetric Co-Teaching for Adaptation.最初的聯(lián)合教學部署了兩個網(wǎng)絡來尋找可能干凈的標簽,即,噪聲數(shù)據(jù)集中樣本損失小的。通過將一個網(wǎng)絡挖掘的樣本發(fā)送到另一個網(wǎng)絡進行優(yōu)化,可以大大降低標簽錯誤的影響。然而,協(xié)同教學并不能有效地應用于跨領(lǐng)域的reid教學。一方面,選取的小損失樣本易于模型學習,對提高re-ID精度的積極作用有限。另一方面,在協(xié)同教學過程中難以考慮到損失值高的硬樣本,這可能限制了適應訓練樣本的多樣性。總之,傳統(tǒng)的協(xié)同教學容易使reid模型收斂到局部最小值,不利于網(wǎng)絡魯棒性的培養(yǎng)。
為了解決上述問題,我們在第三階段提出了一種新的無監(jiān)督跨域reid的類似協(xié)同教學的框架。在該框架中,我們利用已有的Mada初始化了主模型mmainator和合作者模型mcoator。Mmainand Mcoare隨后接受了不對稱的訓練。mcotry從離群值中推斷出純數(shù)據(jù)用于Mmain的培訓,這鼓勵Mmain使用更可靠但多樣化的樣本進行培訓。mmain專注于從inliers中挖掘盡可能干凈的樣本進行Mco的訓練,確保Mcocan在保持基本表示的同時易于樣本聚類。
總結(jié)
以上是生活随笔為你收集整理的Asymmetric Co-Teaching for Unsupervised Cross-Domain Person Re-Identification简单翻译理解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 干洗店收银系统应具备的功能
- 下一篇: webupload大文件上传的坑