CVPR 2018论文解读 | 基于域适应弱监督学习的目标检测
在碎片化閱讀充斥眼球的時(shí)代,越來越少的人會(huì)去關(guān)注每篇論文背后的探索和思考。
在這個(gè)欄目里,你會(huì)快速 get 每篇精選論文的亮點(diǎn)和痛點(diǎn),時(shí)刻緊跟 AI 前沿成果。
點(diǎn)擊本文底部的「閱讀原文」即刻加入社區(qū),查看更多最新論文推薦。
這是 PaperDaily 的第 92 篇文章本期推薦的論文筆記來自 PaperWeekly 社區(qū)用戶 @Cratial。本文是東京大學(xué)發(fā)表于 CVPR 2018 的工作,論文提出了基于域適應(yīng)的弱監(jiān)督學(xué)習(xí)策略,在源域擁有充足的實(shí)例級(jí)標(biāo)注的數(shù)據(jù),但目標(biāo)域僅有少量圖像級(jí)標(biāo)注的數(shù)據(jù)的情況下,盡可能準(zhǔn)確地實(shí)現(xiàn)對(duì)目標(biāo)域數(shù)據(jù)的物體檢測(cè)。
如果你對(duì)本文工作感興趣,點(diǎn)擊底部閱讀原文即可查看原論文。
關(guān)于作者:吳仕超,東北大學(xué)碩士生,研究方向?yàn)槟X機(jī)接口、駕駛疲勞檢測(cè)和機(jī)器學(xué)習(xí)。
■?論文 | Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation
■ 鏈接 | https://www.paperweekly.site/papers/2106
■ 源碼 | https://github.com/naoto0804/cross-domain-detection
引出主題?
雖然深度學(xué)習(xí)技術(shù)在物體檢測(cè)方面取得了巨大的成功,但目前的物體檢測(cè)技術(shù)主要面向的對(duì)象是真實(shí)場(chǎng)景下的圖像,而對(duì)于像水彩畫這種非真實(shí)場(chǎng)景下的物體檢測(cè)任務(wù)來說,一般很難獲取大量帶有標(biāo)注的數(shù)據(jù)集,因此物體檢測(cè)問題就變得比較棘手。
為解決這一問題,本文提出了基于域適應(yīng)的弱監(jiān)督學(xué)習(xí)策略,其可以描述為:(1)選取一個(gè)帶有實(shí)例級(jí)標(biāo)注的源域數(shù)據(jù);(2)僅有圖像級(jí)標(biāo)注的目標(biāo)域數(shù)據(jù);(3)目標(biāo)域數(shù)據(jù)的類別是源域數(shù)據(jù)類別的全集或子集。
論文的任務(wù)就是在源域擁有充足的實(shí)例級(jí)標(biāo)注的數(shù)據(jù),但目標(biāo)域僅有少量圖像級(jí)標(biāo)注的數(shù)據(jù)的情況下,盡可能準(zhǔn)確地實(shí)現(xiàn)對(duì)目標(biāo)域數(shù)據(jù)的物體檢測(cè)。這個(gè)任務(wù)的難點(diǎn)主要在于目標(biāo)域沒有實(shí)例級(jí)的標(biāo)注,因此無法直接利用目標(biāo)數(shù)據(jù)集對(duì)基于源數(shù)據(jù)集訓(xùn)練的模型進(jìn)行微調(diào)。
針對(duì)這一問題,作者提出了兩種解決方法:
1. 域遷移(domain transform,DT):即利用圖像轉(zhuǎn)換技術(shù),如CycleGAN將源域數(shù)據(jù)轉(zhuǎn)換為和目標(biāo)數(shù)據(jù)相似的帶有實(shí)例級(jí)的圖像;
2. 偽標(biāo)記(pseudo-labeling,PL):利用偽標(biāo)記來對(duì)目標(biāo)域數(shù)據(jù)產(chǎn)生偽實(shí)例級(jí)標(biāo)注。兩種方法如圖 1 所示:
▲?圖1
為驗(yàn)證該策略的有效性,作者分別采集并手工標(biāo)注了三個(gè)分別具有實(shí)例級(jí)標(biāo)注的目標(biāo)數(shù)據(jù)集:Clipart1k,Watercolor2k,Comic2k。
數(shù)據(jù)集及代碼見:
https://naoto0804.github.io/cross_domain_detection/
數(shù)據(jù)集描述
筆者認(rèn)為這篇文章最大的貢獻(xiàn)之處不僅僅在于其提出的基于弱監(jiān)督學(xué)習(xí)的目標(biāo)檢測(cè)方法,更重要的是作者所建立的數(shù)據(jù)集,為將來這方面工作的進(jìn)行提供了數(shù)據(jù)支持。
▲?圖2
在本文中,作者選取的源域數(shù)據(jù)集為 PASCAL VOC 數(shù)據(jù)集,同時(shí)作者收集并標(biāo)注了 3 個(gè)目標(biāo)域數(shù)據(jù)集,其示例如圖 2 所示。數(shù)據(jù)集的具體信息如表 1 所示:
▲?表1
方法
本文的方法如圖 3 所示,首先我們對(duì)源域圖像進(jìn)行域遷移訓(xùn)練得到域遷移圖像,然后對(duì)于基于源域數(shù)據(jù)集訓(xùn)練得到的模型,再通過域遷移圖像對(duì)模型進(jìn)行微調(diào),最后再使用通過偽標(biāo)記方法獲取的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步的微調(diào)。
▲?圖3
域遷移(DT)?
正如前面所提到的,本文主要解決的問題是目標(biāo)域和源域分布不同的目標(biāo)檢測(cè)問題,而這部分旨在通過變換將源域數(shù)據(jù)分布變換為目標(biāo)域分布,本文作者使用的是 CycleGAN [1] 來實(shí)現(xiàn)這種變換。?
偽標(biāo)記(PL)?
對(duì)于只用圖像級(jí)標(biāo)注(即每個(gè)圖像上包含哪幾種類別)的目標(biāo)域數(shù)據(jù)集,我們需要獲取其偽實(shí)例級(jí)標(biāo)注。首先,對(duì)于目標(biāo)域數(shù)據(jù)中的每一幅圖像 x ,使用基于源域訓(xùn)練的模型得到輸出 d=(p,b,c) ,其中 b 是得到的 bounding box, c 是得到的類別, p 是屬于該類的概率。根據(jù)這個(gè)結(jié)果,對(duì)于圖像中所包含的每個(gè)類別,通過選取 top-1 概率的結(jié)果來作為目標(biāo)圖像的 bounding box,從而來實(shí)現(xiàn)對(duì)目標(biāo)圖像的偽標(biāo)注。
實(shí)驗(yàn)
為證明方法的有效性,作者分別利用 PL、DT、DT+PL 的微調(diào)方法進(jìn)行了實(shí)驗(yàn),在 Clipart1k 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。其中,基線(Baseline)是利用 SSD300 直接在目標(biāo)域圖像上進(jìn)行實(shí)驗(yàn)的結(jié)果,而理想情況(Ideal case)是利用帶實(shí)例級(jí)標(biāo)注的目標(biāo)域數(shù)據(jù)對(duì)模型進(jìn)行微調(diào)的結(jié)果。此外,作者還利用基于弱監(jiān)督檢測(cè)的方法 ContextLocNet [2]、WSDDN [3] 及無監(jiān)督域適應(yīng)的方法 ADDA [4] 來做對(duì)比實(shí)驗(yàn)。
▲?表2
從表 2 可以看出,作者提出的微調(diào)策略能夠在檢測(cè)性能上有較大的提升。此外,從表 2 中可以看出經(jīng)過 DT 變換的微調(diào)方法可以很大程度地提升檢測(cè)性能,而在不使用圖像級(jí)標(biāo)注的 PL 數(shù)據(jù)域進(jìn)行微調(diào)的方法不僅不能提高性能,而且會(huì)導(dǎo)致性能有所下降,所以圖像級(jí)的標(biāo)簽對(duì)物體檢測(cè)是很重要的。?
此外,作者在 YOLOv2 及 Faster R-CNN 上進(jìn)行了同樣的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果同樣證明了該微調(diào)策略的有效性。實(shí)驗(yàn)結(jié)果如表 3 所示:
▲?表3
為驗(yàn)證本文方法的有效性,作者采用論文 [5] 提供的方法對(duì)檢測(cè)效果進(jìn)行分析,分析結(jié)果如圖 4 所示。從圖中可以看出基于 DT 變換的微調(diào)模型能夠很好的提高物體檢測(cè)的性能,相對(duì)于 DT 來說,基于 DT+PL 的微調(diào)策略能夠進(jìn)一步地提高檢測(cè)的性能,尤其是在容易將物體誤分成不相似類別物體的分類任務(wù)上(Sim 將物體識(shí)別成與該物體類似但不相同的類別,Oth 將物體識(shí)別成其他不相似的類別)。這也進(jìn)一步說明了為何圖像級(jí)標(biāo)注可以提高物體檢測(cè)的性能。
▲?圖4
此外,作者還對(duì)另外兩個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果分別如表 4、5 所示:
▲?表4
▲?表5
總結(jié)
在本文中,作者為將當(dāng)前的物體檢測(cè)技術(shù)應(yīng)用到一些非現(xiàn)實(shí)場(chǎng)景,即缺少大量實(shí)例級(jí)標(biāo)注的場(chǎng)景,如水彩畫的目標(biāo)檢測(cè)等任務(wù),而提出了一套全新的訓(xùn)練策略,并建立了一些數(shù)據(jù)集來為將來這方面的工作做鋪墊。筆者認(rèn)為這項(xiàng)工作是非常有意義的,就人本身而言,我們不僅可以很好地分辨實(shí)際場(chǎng)景中的物體,同樣可以很好地檢測(cè)到一些例如動(dòng)畫、水彩畫中的物體,即使有時(shí)我們很少接觸這些,而基于深度學(xué)習(xí)的物體檢測(cè)技術(shù)也應(yīng)該具備這種能力。
參考文獻(xiàn)
[1].?J.-Y. Zhu, T. Park, P. Isola, and A. A. Efros. Unpaired image- to-image translation using cycle-consistent adversarial net- works. In ICCV, 2017.
[2].?V. Kantorov, M. Oquab, M. Cho, and I. Laptev. Context- LocNet: Context-aware deep network models for weakly supervised localization. In ECCV, 2016.
[3].?H. Bilen and A. Vedaldi. Weakly supervised deep detection networks. In CVPR, 2016.
[4].?E. Tzeng, J. Hoffman, K. Saenko, and T. Darrell. Adversarial discriminative domain adaptation. In CVPR, 2017.
[5].?D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In ECCV, 2012.
本文由 AI 學(xué)術(shù)社區(qū) PaperWeekly 精選推薦,社區(qū)目前已覆蓋自然語言處理、計(jì)算機(jī)視覺、人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和信息檢索等研究方向,點(diǎn)擊「閱讀原文」即刻加入社區(qū)!
點(diǎn)擊標(biāo)題查看更多論文解讀:?
??ACL2018高分論文:混合高斯隱向量文法
??基于詞向量的簡(jiǎn)單模型 | ACL 2018論文解讀
??COLING 2018最佳論文:序列標(biāo)注經(jīng)典模型復(fù)現(xiàn)
??當(dāng)前最好的非深度遷移學(xué)習(xí)方法:流形空間下的分布對(duì)齊
??CVPR 2018 最佳論文解讀:探秘任務(wù)遷移學(xué)習(xí)
??哈佛NLP組論文解讀:基于隱變量的注意力模型
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 查看原論文
總結(jié)
以上是生活随笔為你收集整理的CVPR 2018论文解读 | 基于域适应弱监督学习的目标检测的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 当前最好的非深度迁移学习方法:流形空间下
- 下一篇: 机器学习模型,能分清川菜和湘菜吗?