首次适应算法_CVPR 2020丨?商汤TSD目标检测算法获得Open Images冠军
編者按:此前,在文章《商湯科技57篇論文入選ICCV 2019,13項(xiàng)競(jìng)賽奪冠》里,商湯君報(bào)道了商湯科技榮獲Open Images Object Detection Challenge 2019 冠軍。
由Google AI主辦的Open Images大賽是目前通用物體檢測(cè)和實(shí)例分割兩個(gè)領(lǐng)域中數(shù)據(jù)量最大、數(shù)據(jù)分布最復(fù)雜、最有挑戰(zhàn)性的競(jìng)賽。它比COCO數(shù)據(jù)大一個(gè)量級(jí),標(biāo)注更不規(guī)則,場(chǎng)景更復(fù)雜。
獲得此項(xiàng)競(jìng)賽冠軍的核心算法是基于任務(wù)間空間自適應(yīng)解耦(task-aware spatial disentanglement,TSD)檢測(cè)算法。如今,該算法的論文也被CVPR 2020收錄,并即將在GitHub上開放源代碼,有興趣的同學(xué)可關(guān)注https://github.com/Sense-X/TSD。
隨著深度學(xué)習(xí)的不斷發(fā)展,目標(biāo)檢測(cè)精度的提升愈加困難,一般而言能提升1~2%的mAP(平均準(zhǔn)確率)便算是很大的突破了。
但是,商湯研究團(tuán)隊(duì)發(fā)表的TSD算法提升了難以置信的3~5% mAP!而且是在行業(yè)難度最高的數(shù)據(jù)集Open Images和COCO。以該算法作為核心的解決方案(鏈接:
https://arxiv.org/pdf/2003.07557.pdf)榮獲Open Images Object Detection Challenge 2019 冠軍。
圖1:商湯研究院基礎(chǔ)技術(shù)與MMLab的聯(lián)合團(tuán)隊(duì)(參賽團(tuán)隊(duì)名:MMfruit)獲得Open Images Object Detection Challenge 冠軍首次提出分類和回歸任務(wù)分別學(xué)習(xí)
機(jī)器認(rèn)識(shí)一個(gè)物體需要從兩個(gè)維度:分類和回歸。分類是指識(shí)別物體的屬性,例如判斷一幅圖片上的動(dòng)物是一只貓還是一只狗;回歸是指識(shí)別物體的區(qū)域和位置。
傳統(tǒng)目標(biāo)檢測(cè)方法(比如Faster RCNN)通常是分類和回歸一起學(xué)習(xí),共享Proposal(物體潛在存在的區(qū)域框)和Sibling head(特征提取器)。
它是怎樣的過程呢?如圖2的下半部分,分類和回歸共享一個(gè)輸入Proposal P(即紅色框),以及同一個(gè)特征提取器f(·),輸出結(jié)果W/o TSD。
但是我們發(fā)現(xiàn),最終輸出的圖片框其分類置信度和檢測(cè)框的準(zhǔn)確度是不一致的,如下圖檢測(cè)框的置信度很高,但是沒有框住飛機(jī)機(jī)翼,即區(qū)域框是不準(zhǔn)確的。
圖2:傳統(tǒng)目標(biāo)檢測(cè)方法和商湯TSD方法比較那么為什么會(huì)造成這樣的問題?商湯研究團(tuán)隊(duì)通過一個(gè)實(shí)驗(yàn)來探尋,發(fā)現(xiàn)分類和回歸過程的特點(diǎn),如下圖:
在實(shí)驗(yàn)中發(fā)現(xiàn),分類任務(wù)(圖中Classification)更關(guān)注語義信息豐富的地方,而回歸任務(wù)(圖中Localization)比較關(guān)注物體的邊界處。所以傳統(tǒng)的Faster RCNN對(duì)于分類任務(wù)和回歸任務(wù)共享同一個(gè)Proposal和特征提取器就會(huì)出現(xiàn)一些內(nèi)在的矛盾影響檢測(cè)器的訓(xùn)練。
本文提出的基于任務(wù)間空間自適應(yīng)解耦(task-aware spatial disentanglement,TSD)的檢測(cè)算法,對(duì)于分類任務(wù)和回歸任務(wù),分別讓其學(xué)習(xí)各自適應(yīng)的Proposal和特征提取器。
如圖2上半部分,將輸入Proposal P的分類任務(wù)變換成P_c,回歸任務(wù)變換成P_r。再分別通過不同的特征提取器f_c(·)和f_r(·)做分類和回歸。
這種方法的輸入和特征提取器都是不共享的,從而最大程度地減少由于優(yōu)化目標(biāo)不一樣帶來的沖突,進(jìn)而顯著提升性能。
引入損失函數(shù)PC,大幅度提升檢測(cè)器性能
本文還引入了漸進(jìn)約束損失函數(shù)PC(Progressive Constraint),幫助TSD檢測(cè)器性能穩(wěn)定超越傳統(tǒng)的檢測(cè)器頭部,讓分類任務(wù)和回歸任務(wù)的準(zhǔn)確度比原始方法更高。
對(duì)于分類任務(wù),通過以下公式保證分類任務(wù)準(zhǔn)確度比傳統(tǒng)方法更高:
其中
表示對(duì)于第y類的預(yù)測(cè)置信度,
是預(yù)定的Margin。
對(duì)于回歸任務(wù),通過以下公式保證回歸任務(wù)準(zhǔn)確度比傳統(tǒng)方法更高:
是原始檢測(cè)器頭部得到的檢測(cè)框,
是TSD算法得到的檢測(cè)框。如果當(dāng)前的Proposal是一個(gè)負(fù)樣本,那么該Loss會(huì)被Ignore。
綜上,在整個(gè)訓(xùn)練過程中,整體檢測(cè)器的優(yōu)化為:
在推理階段,原始的檢測(cè)器頭部不再使用。Classical Loss是原始損失函數(shù),TSD Loss是本文提出的損失函數(shù)。
實(shí)驗(yàn)結(jié)果
1、與不同網(wǎng)絡(luò)解耦方式比較,TSD效果最好
首先將TSD與在不同的網(wǎng)絡(luò)層進(jìn)行任務(wù)間解耦的結(jié)構(gòu)進(jìn)行比較,如上圖所示。
表1:各類解耦方式與TSD解耦方式比較綜合參數(shù)量和性能提升,TSD相比于其他解耦方式,具備明顯的優(yōu)勢(shì)。
2、TSD與Sibling head聯(lián)合訓(xùn)練效果更好
在TSD整體的訓(xùn)練中,傳統(tǒng)的Sibling head仍然可以進(jìn)行聯(lián)合訓(xùn)練來優(yōu)化Backbone,同時(shí)漸進(jìn)約束損失(PC)可以進(jìn)一步提升TSD的性能。
表2:傳統(tǒng)Sibling head與TSD聯(lián)合訓(xùn)練可提升性能表3:加入PC損失函數(shù)對(duì)于分類和回歸準(zhǔn)確率影響從表2可以看出兩個(gè)Head聯(lián)合訓(xùn)練可以進(jìn)一步帶來性能的提升。從表3可以看出,加入損失函數(shù)PC之后,無論對(duì)于分類還是對(duì)于回歸,PC都可以進(jìn)一步帶來準(zhǔn)確率提升,兩者都用PC帶來的效果是最好的。
3、TSD在COCO、Open Images和網(wǎng)絡(luò)結(jié)構(gòu)上均能大幅提升準(zhǔn)確率
從表4可以看出,在不同網(wǎng)絡(luò)結(jié)構(gòu)上(包括ResNet-50、ResNet-101、ResNet-152等),本文提出的TSD方法在準(zhǔn)確度上均有明顯提升。且推理時(shí)間增長(zhǎng)不超過10%。
表4:在不同網(wǎng)絡(luò)結(jié)構(gòu)上,傳統(tǒng)方法與TSD方法準(zhǔn)確度對(duì)比表5可以看出,在谷歌提出的Open Images大規(guī)模數(shù)據(jù)集上,TSD方法均有性能上的顯著提升。
表5:在Open Images數(shù)據(jù)集上,傳統(tǒng)方法與TSD方法對(duì)比表6:在COCO分割任務(wù)上,傳統(tǒng)方法與TSD方法對(duì)比在表6的COCO分割任務(wù)上,TSD方法也能帶來明顯性能提升,而且提升幅度較大。
4、與當(dāng)前行業(yè)領(lǐng)先算法比較
基于ResNet-101的Backbone,TSD算法達(dá)到了新的state-of-the-art的性能,并且在SENet154-DCN的基礎(chǔ)結(jié)構(gòu)下,COCO的性能達(dá)到了51.2 map。
結(jié)論
本文針對(duì)通用物體檢測(cè)算法中分類任務(wù)和回歸任務(wù)之間因?yàn)閮?yōu)化目標(biāo)不一致帶來的潛在沖突,提出了基于任務(wù)間空間自適應(yīng)解耦的檢測(cè)算法TSD。
在檢測(cè)器頭部通過特定設(shè)計(jì)的偏移量生成策略以及聯(lián)合訓(xùn)練優(yōu)化漸進(jìn)損失來有效的提升檢測(cè)器性能,在額外的推理時(shí)間損耗不超過10%的情況下,能夠穩(wěn)定提升3%~5%的檢測(cè)性能,并且成為Open Images 2019 Object detection challenge奪冠的核心算法。
大量實(shí)驗(yàn)證明,TSD可以比較容易的搭配各種不同的網(wǎng)絡(luò)結(jié)構(gòu)以及Anchor-based的檢測(cè)框架來進(jìn)行使用。
更多精彩內(nèi)容可查看原文,鏈接:https://arxiv.org/pdf/2003.07540.pdf
招聘
商湯研究院-基礎(chǔ)技術(shù)團(tuán)隊(duì)招聘研究員見習(xí)研究員:
1.強(qiáng)化學(xué)習(xí)方向:探索在復(fù)雜環(huán)境(如游戲AI、系統(tǒng)優(yōu)化)中的強(qiáng)化學(xué)習(xí)方法,研究包括但不限于multi agent RL、imitation learning、model-free場(chǎng)景下sampling efficiency等基礎(chǔ)問題;參與實(shí)際項(xiàng)目中的RL方法設(shè)計(jì)與探索。
2.巨型網(wǎng)絡(luò)優(yōu)化方向:研究在billion level數(shù)據(jù)下的超大型網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)與搜索,包括但不限于人臉識(shí)別模型優(yōu)化、sampling based NAS,optimizer設(shè)計(jì)與搜索等。
有興趣的小伙伴請(qǐng)投遞簡(jiǎn)歷至liuyu@sensetime.com。
總結(jié)
以上是生活随笔為你收集整理的首次适应算法_CVPR 2020丨?商汤TSD目标检测算法获得Open Images冠军的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
 
                            
                        - 上一篇: 正修复奇怪 UX BUG,必应聊天即将扩
- 下一篇: python 验证码_4行Python代
