CVPR 2020 Oral | 旷视研究院提出双边分支网络BBN:攻坚长尾分布的现实世界任务...
IEEE 國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 將于 6 月 14-19 日在美國(guó)西雅圖舉行。近日,大會(huì)官方論文結(jié)果公布,曠視研究院 17 篇論文被收錄,研究領(lǐng)域涵蓋物體檢測(cè)與行人再識(shí)別(尤其是遮擋場(chǎng)景)、人臉識(shí)別、文字檢測(cè)與識(shí)別、實(shí)時(shí)視頻感知與推理、小樣本學(xué)習(xí)、遷移學(xué)習(xí)、3D 感知、GAN 與圖像生成、計(jì)算機(jī)圖形學(xué)、語(yǔ)義分割、細(xì)粒度圖像等眾多領(lǐng)域,取得多項(xiàng)領(lǐng)先的技術(shù)研究成果,這與即將開源的曠視 AI 平臺(tái) Brain++ 密不可分。?
本文是曠視 CVPR 2020 論文系列解讀第 5 篇,是 CVPR 2020 Oral 展示論文之一,它揭示了再平衡方法解決長(zhǎng)尾問(wèn)題的本質(zhì)及不足:雖然增強(qiáng)了分類器性能,卻在一定程度上損害了模型的表征能力。?針對(duì)其不足,本文提出了一種針對(duì)長(zhǎng)尾問(wèn)題的新型網(wǎng)絡(luò)框架——雙邊分支網(wǎng)絡(luò)(BBN),以兼顧表征學(xué)習(xí)和分類器學(xué)習(xí)。通過(guò)該方法,曠視研究院在細(xì)粒度識(shí)別領(lǐng)域權(quán)威賽事 FGVC 2019 中,獲得 iNaturalist Challenge 賽道的世界冠軍。該網(wǎng)絡(luò)框架的代碼已開源。
論文名稱:BBN: Bilateral-Branch Network with Cumulative Learning for Long-Tailed Visual Recognition
論文鏈接:www.weixiushen.com/publication/cvpr20_BBN.pdf
開源代碼:https://github.com/Megvii-Nanjing/BBN
目錄
導(dǎo)語(yǔ)
簡(jiǎn)介
論點(diǎn)證明
方法
實(shí)驗(yàn)
結(jié)論
參考文獻(xiàn)
往期解讀
導(dǎo)語(yǔ)
隨著深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)研究的推進(jìn),圖像分類的性能表現(xiàn)已經(jīng)取得了驚人的進(jìn)步,這一成功與高質(zhì)量的大規(guī)模可用數(shù)據(jù)集密不可分,比如 ImageNet ILSVRC 2012、MS COCO 和 Places 數(shù)據(jù)集。
這些視覺(jué)識(shí)別數(shù)據(jù)集的類別標(biāo)簽分布是大致均勻的,相對(duì)而言,真實(shí)世界的數(shù)據(jù)集卻總是存在偏重情況,呈現(xiàn)出長(zhǎng)尾分布模式,即少量類別(頭部類別)具有大量數(shù)據(jù),而大部分類別(尾部類別)僅有少量樣本,如圖 1 所示。
另外,計(jì)算機(jī)視覺(jué)社區(qū)在近些年中構(gòu)建出了越來(lái)越多反映真實(shí)難題的長(zhǎng)尾數(shù)據(jù)集,如 iNaturalist、LVIS、RPC。
當(dāng)處理這樣的視覺(jué)數(shù)據(jù)時(shí),深度學(xué)習(xí)方法不足以取得優(yōu)良的識(shí)別精度,原因有二:一是深度模型本身就需要大量數(shù)據(jù),二是長(zhǎng)尾數(shù)據(jù)分布存在極端的類別不平衡問(wèn)題。
▲ 圖1. 真實(shí)世界的大規(guī)模數(shù)據(jù)集往往會(huì)展現(xiàn)出長(zhǎng)尾分布現(xiàn)象
長(zhǎng)尾分布這種極端不平衡會(huì)導(dǎo)致分類訓(xùn)練難以得到很好的效果,尤其是對(duì)于長(zhǎng)尾類別而言。類別再平衡策略可讓模型在長(zhǎng)尾問(wèn)題上的準(zhǔn)確度表現(xiàn)更好。
本文揭示出,這些策略的機(jī)制是顯著提升分類器學(xué)習(xí),但同時(shí)又會(huì)在一定程度上出人意料地?fù)p害已學(xué)的深度特征的表征能力。
如圖 1 所示,經(jīng)過(guò)再平衡之后,決策邊界(黑色實(shí)弧線)往往能更準(zhǔn)確地分類尾部數(shù)據(jù)(紅色方塊)。但是,每個(gè)類別的類內(nèi)分布會(huì)變得更加松散。在過(guò)去的研究中,處理長(zhǎng)尾問(wèn)題的顯著且有效的方法是類別再平衡,它可以緩解訓(xùn)練數(shù)據(jù)的極端不平衡問(wèn)題。
一般來(lái)說(shuō),類別再平衡方法有兩類:1)再采樣方法;2)代價(jià)敏感再加權(quán)方法。這些方法可對(duì) mini-batch 中的樣本進(jìn)行再采樣或?qū)@些樣本的損失進(jìn)行重新加權(quán),以期望能夠和測(cè)試分布維持一致,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)訓(xùn)練的調(diào)整。
因此,類別再平衡可有效地直接影響深度網(wǎng)絡(luò)的分類器權(quán)重更新,即促進(jìn)分類器的學(xué)習(xí)。正是因?yàn)檫@個(gè)原因,再平衡方法可以在長(zhǎng)尾數(shù)據(jù)上取得令人滿意的識(shí)別準(zhǔn)確度。
但是,盡管再平衡方法最終能得到良好的預(yù)測(cè)結(jié)果,這些方法仍會(huì)產(chǎn)生不良影響,即會(huì)在一定程度上出人意料地?fù)p害深度特征的表征能力。
簡(jiǎn)介
在本文中,曠視研究院首先通過(guò)驗(yàn)證實(shí)驗(yàn),對(duì)前述論點(diǎn)進(jìn)行了證明。具體來(lái)說(shuō),為了解析再平衡策略的工作方式,把深度網(wǎng)絡(luò)的訓(xùn)練過(guò)程分為兩個(gè)階段:1)表征學(xué)習(xí);2)分類器學(xué)習(xí)。
表征學(xué)習(xí)階段,曠視研究院采用的傳統(tǒng)的訓(xùn)練方法(交叉熵?fù)p失)、再加權(quán)和再采樣這三種學(xué)習(xí)方式來(lái)習(xí)得各自對(duì)應(yīng)的表征。
然后,在分類器學(xué)習(xí)階段,采用的做法是先固定在前一階段收斂的表征學(xué)習(xí)的參數(shù)(即骨干層),然后再?gòu)念^開始訓(xùn)練這些網(wǎng)絡(luò)的分類器(即全連接層),這個(gè)過(guò)程同樣使用了上述三種學(xué)習(xí)方法。
▲ 圖2. 在 CIFAR-100-IR50 和 CIFAR-10-IR50 這兩個(gè)大規(guī)模長(zhǎng)尾數(shù)據(jù)集上采用不同的表征學(xué)習(xí)和分類器學(xué)習(xí)方法所得到的 top-1 錯(cuò)誤率
圖 2 給出了在 CIFAR-100-IR50 和 CIFAR-10-IR50 這兩個(gè)基準(zhǔn)長(zhǎng)尾數(shù)據(jù)集上所得到的預(yù)測(cè)錯(cuò)誤率。很明顯,當(dāng)表征學(xué)習(xí)的方式固定時(shí),再平衡方法可以合理地實(shí)現(xiàn)更低的錯(cuò)誤率,這表明它們確實(shí)可以促進(jìn)分類器學(xué)習(xí)。
另一方面,通過(guò)固定分類器的學(xué)習(xí)方式,簡(jiǎn)單的交叉熵?fù)p失相比再平衡策略反而可以取得更低的錯(cuò)誤率,這說(shuō)明再平衡策略在一定程度上損害了表征學(xué)習(xí)。
從該角度出發(fā),曠視研究院提出了一種統(tǒng)一的雙邊分支網(wǎng)絡(luò)(BBN),可以同時(shí)兼顧表征學(xué)習(xí)和分類器學(xué)習(xí),大幅提升了長(zhǎng)尾問(wèn)題的識(shí)別性能。
如圖 3 所示,BBN 模型由兩個(gè)分支構(gòu)成,即常規(guī)學(xué)習(xí)分支(Conventional Learning Branch)和再平衡分支(Re-Balancing Branch)。總體而言,BBN 的每個(gè)分支各自執(zhí)行其表征學(xué)習(xí)和分類器學(xué)習(xí)任務(wù)。
顧名思義,常規(guī)學(xué)習(xí)分支為原始數(shù)據(jù)分布配備了典型的均勻采樣器(Uniform Sampler),可用于為識(shí)別任務(wù)學(xué)習(xí)通用的表征;再平衡分支則耦合了一個(gè)逆向的采樣器(Reversed Sampler),其目標(biāo)是建模尾部數(shù)據(jù)。
接著,再通過(guò)累積學(xué)習(xí)(Cumulative Learning)將這些雙邊分支的預(yù)測(cè)輸出聚合起來(lái)。累積學(xué)習(xí)使用了一個(gè)自適應(yīng)權(quán)衡參數(shù) α,它通過(guò)「適應(yīng)器(Adaptor)」根據(jù)當(dāng)前訓(xùn)練 epoch 的數(shù)量自動(dòng)生成,可以調(diào)節(jié)整個(gè) BBN首先從原始分布學(xué)習(xí)通用的特征,然后再逐漸關(guān)注尾部數(shù)據(jù)。
此外,α 并沒(méi)有階躍式地從1變?yōu)?,而是逐漸降低,使得兩個(gè)分支在整個(gè)訓(xùn)練過(guò)程可以同時(shí)維持學(xué)習(xí)狀態(tài),讓模型在迭代后期關(guān)注尾部數(shù)據(jù)的同時(shí)不損害已習(xí)得的通用表征。
論點(diǎn)證明
為探究再平衡策略對(duì)表征學(xué)習(xí)和分類器學(xué)習(xí)的影響,曠視研究院設(shè)計(jì)了一個(gè)兩階段的驗(yàn)證實(shí)驗(yàn),把深度學(xué)習(xí)模型解耦為了表征提取器和分類器。
具體來(lái)說(shuō),第一階段使用普通的訓(xùn)練方法(即交叉熵)或再平衡方法(即再加權(quán)/再采樣)作為學(xué)習(xí)方法訓(xùn)練一個(gè)分類網(wǎng)絡(luò);然后,獲取對(duì)應(yīng)于這些學(xué)習(xí)方法的不同類型的表征提取器。
在第二階段,固定在前一階段學(xué)習(xí)到的表征提取器的參數(shù),再使用前述的三種學(xué)習(xí)方法從頭開始重新訓(xùn)練分類器。
如圖 2 所示,曠視研究院在 CIFAR-100-IR50 數(shù)據(jù)集(這是不平衡比為 50 的長(zhǎng)尾 CIFAR-100)上通過(guò)對(duì)照實(shí)驗(yàn)對(duì)上述論點(diǎn)進(jìn)行了驗(yàn)證。可以看到,在每個(gè)數(shù)據(jù)集上,基于不同的排列組合可得到 9 組結(jié)果。基于此,可得到兩個(gè)方面的觀察結(jié)果:
分類器:可以發(fā)現(xiàn),當(dāng)應(yīng)用同樣的表征學(xué)習(xí)方法時(shí)(比較豎直方向上三個(gè)單元格的錯(cuò)誤率),RW/RS 的分類錯(cuò)誤率總是低于 CE,這是因?yàn)樗鼈兊脑倨胶獠僮鲿?huì)對(duì)分類器權(quán)重的更新過(guò)程進(jìn)行調(diào)整,以與測(cè)試分布相匹配;
表征:當(dāng)應(yīng)用同樣的分類器學(xué)習(xí)方法時(shí)(比較水平方向上三個(gè)單元格的錯(cuò)誤率),可以驚訝地發(fā)現(xiàn) CE 的錯(cuò)誤率總是低于 RW/RS。這說(shuō)明使用 CE 進(jìn)行訓(xùn)練可以獲得更好的表征,RW/RS 在一定程度上損害了習(xí)得的深度特征的表征能力。
此外,如圖 2 左圖所示,通過(guò)在表征學(xué)習(xí)上應(yīng)用 CE 和在分類學(xué)習(xí)上應(yīng)用 RS,在 CIFAR-100-IR50 的驗(yàn)證集上得到的錯(cuò)誤率最低。
方法
如圖 3 所示,BBN 模型包含 3 個(gè)主要組件:1)常規(guī)學(xué)習(xí)分支;2)再平衡分支;3)累積學(xué)習(xí)策略。
▲ 圖3. BBN 框架示意圖
具體來(lái)說(shuō),常規(guī)學(xué)習(xí)分支和再平衡分支分別用于表征學(xué)習(xí)和分類器學(xué)習(xí) 。這兩個(gè)分支使用了同樣的殘差網(wǎng)絡(luò)結(jié)構(gòu),除最后一個(gè)殘差模塊,兩個(gè)分支的網(wǎng)絡(luò)參數(shù)是共享的。
曠視研究院為這兩個(gè)分支分別配備了均勻采樣器和逆向采樣器,得到兩個(gè)樣本 () 和 () 作為輸入數(shù)據(jù),其中前者用于常規(guī)學(xué)習(xí)分支,后者用于再平衡分支。
將這兩個(gè)樣本送入各自對(duì)應(yīng)的分支后,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)和全局平均池化(GAP)得到特征向量 和 。
在這之后是曠視研究院專門設(shè)計(jì)的累積學(xué)習(xí)策略,可在訓(xùn)練階段在兩個(gè)分支之間逐漸切換學(xué)習(xí)的「注意力」。
具體的做法是使用一個(gè)自適應(yīng)權(quán)衡參數(shù) α 來(lái)控制 和 的權(quán)重,經(jīng)過(guò)加權(quán)的特征向量 α 和 α 將分別被發(fā)送給分類器 和 ,然后再通過(guò)逐元素累加的方式將其輸出整合到一起。這個(gè)輸出 logit 的公式為:
其中 是預(yù)測(cè)得到的輸出,即 。對(duì)于每個(gè)類別 i ∈ {1, 2, . . . , C},softmax 函數(shù)可通過(guò)下式計(jì)算該類別的概率:
然后,用 E(·, ·) 表示交叉熵函數(shù),并將輸出概率分布記為 。則 BBN 模型的加權(quán)交叉熵分類損失為:
而且,能以端到端方式訓(xùn)練整個(gè) BBN 網(wǎng)絡(luò)模型。關(guān)于雙邊分支結(jié)構(gòu)的設(shè)計(jì)與累積學(xué)習(xí)策略的細(xì)節(jié)信息請(qǐng)參閱原論文。
實(shí)驗(yàn)
曠視研究院在不平衡比分別為 10、50、100 的三個(gè)長(zhǎng)尾 CIFAR 數(shù)據(jù)集上進(jìn)行了廣泛的實(shí)驗(yàn),結(jié)果如下所示:
表 1 在不同設(shè)置的 CIFAR 數(shù)據(jù)集上比較了 BBN 模型與其它多種方法。
▲ 表1. 在長(zhǎng)尾 CIAFR-10 和 CIFAR-100 數(shù)據(jù)集上的 ResNet 的 top-1 錯(cuò)誤率
可以看到,新提出的 BBN 模型在所有數(shù)據(jù)集上均取得了最佳結(jié)果,對(duì)比的方法包括之前最佳的方法 CB-Focal 和 LDAM-DRW。
表 2 則給出了在 iNaturalist 2018 和 iNaturalist 2017 這兩個(gè)大規(guī)模長(zhǎng)尾數(shù)據(jù)集上的結(jié)果。
▲ 表2. ResNet-50 在 iNaturalist 2018 和 iNaturalist 2017 上的 top-1 錯(cuò)誤率
和前面的結(jié)果一樣,新提出的 BBN 仍然更優(yōu)。此外,由于 iNaturalist 數(shù)據(jù)集規(guī)模很大,曠視研究院還使用 2× 調(diào)度器進(jìn)行了實(shí)驗(yàn)。同時(shí),為了公平地比較,研究者也使用 2× 調(diào)度器訓(xùn)練了之前最佳的 LDAM-DRW。
可以明顯看到,使用 2× 調(diào)度器的 BBN 的表現(xiàn)顯著優(yōu)于未使用 2× 調(diào)度器的 BBN 的表現(xiàn)。此外,BBN(2×) 的表現(xiàn)也明顯優(yōu)于 LDAM-DRW (2×)。
結(jié)論
本文首先探索了類別再平衡策略對(duì)深度網(wǎng)絡(luò)的表征學(xué)習(xí)和分類器學(xué)習(xí)產(chǎn)生的影響,并揭示出這些策略雖然可以顯著促進(jìn)分類器學(xué)習(xí),但也會(huì)對(duì)表征學(xué)習(xí)產(chǎn)生一定的負(fù)面影響。
基于此,本文提出了一種帶有累積學(xué)習(xí)策略的雙分支網(wǎng)絡(luò) BBN,可以同時(shí)考慮到表征學(xué)習(xí)與分類器學(xué)習(xí),大幅提升長(zhǎng)尾識(shí)別任務(wù)的性能。
經(jīng)過(guò)廣泛的實(shí)驗(yàn)驗(yàn)證,曠視研究院證明 BBN 能在長(zhǎng)尾基準(zhǔn)數(shù)據(jù)集上取得最佳的結(jié)果,其中包括大規(guī)模的 iNaturalist 數(shù)據(jù)集。未來(lái),曠視研究院還將繼續(xù)探索 BBN 模型在長(zhǎng)尾檢測(cè)問(wèn)題上的應(yīng)用,并希望通過(guò) BBN 開源項(xiàng)目促進(jìn)社區(qū)在長(zhǎng)尾問(wèn)題方面的探索和研究。
歡迎加入曠視南京研究院交流群
或添加微信farman7230入群
參考文獻(xiàn)
[1] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, and Serge Belongie. Class-balanced loss based on effective number of samples. In CVPR, pages 9268–9277, 2019.
[2] Haibo He and Edwardo A Garcia. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering, 21(9):1263–1284, 2009.
[3] Chen Huang,Yining Li, Chen ChangeLoy, and Xiaoou Tang. Learning deep representation for imbalanced classification. In CVPR, pages 5375–5384, 2016.
[4] Xiu-Shen Wei, Peng Wang, Lingqiao Liu, Chunhua Shen, and Jianxin Wu. Piecewise classifier mappings: Learning fine-grained learners for novel categories with few examples. IEEE Transactions on Image Processing, 28(12):6116–6125, 2019.
[5] Nathalie Japkowicz and Shaju Stephen. The class imbalance problem: A systematic study. Intelligent Data Analysis, 6(5):429–449, 2002.
[6] Xiu-Shen Wei, Quan Cui, Lei Yang, Peng Wang, and Lingqiao Liu. RPC: A large-scale retail product checkout dataset. arXiv preprint arXiv:1901.07249, pages 1–24, 2019.
[7] Mengye Ren, Wenyuan Zeng, Bin Yang, and Raquel Urtasun. Learning to reweight examples for robust deep learning. In ICML, pages 1–13, 2018.
[8] Li Shen, Zhouchen Lin, and Qingming Huang. Relay back-propagation for effective learning of deep convolutional neural networks. In ECCV, pages 467–482, 2016.
[9] Yu-Xiong Wang, Deva Ramanan, and Martial Hebert. Learning to model the tail. In NeurIPS, pages 7029–7039, 2017.
[10] Xiu-Shen Wei, Jian-Hao Luo, Jianxin Wu, and Zhi-Hua Zhou. Selective convolutional descriptor aggregation for fine-grained image retrieval. IEEE Transactions on Image Processing, 26(6):2868–2881, 2017.
往期解讀
CVPR 2020 | 曠視研究院提出PVN3D:基于3D關(guān)鍵點(diǎn)投票網(wǎng)絡(luò)的單目6DoF位姿估計(jì)算法
CVPR 2020 | 曠視研究院提出SAT:優(yōu)化解決半監(jiān)督視頻物體分割問(wèn)題
CVPR?2020|曠視研究院提出新方法,優(yōu)化解決遮擋行人重識(shí)別問(wèn)題
CVPR?2020?Oral|曠視研究院提出Circle Loss,革新深度特征學(xué)習(xí)范式
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2020 Oral | 旷视研究院提出双边分支网络BBN:攻坚长尾分布的现实世界任务...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 苹果 macOS 15.0.1 发布,修
- 下一篇: SpaceX新一轮融资20亿美元