M2Det
『寫在前面』
Single-shot目標(biāo)檢測(cè)新模型,使用multi-level特征。
作者機(jī)構(gòu):Qijie Zhao等,北京大學(xué)&阿里達(dá)摩院
文章標(biāo)題:《M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid》
原文鏈接:https://arxiv.org/abs/1811.04533
相關(guān)repo:https://github.com/qijiezhao/M2Det
? ? ? ? ? ? ? ? ??https://github.com/tadax/m2det
目錄
摘要
介紹
所提方法
MLFPN詳解
網(wǎng)絡(luò)配置
實(shí)驗(yàn)部分
摘要
- 提出多級(jí)特征金字塔網(wǎng)絡(luò)MLFPN
- 基于提出的MLFPN,結(jié)合SSD,提出一種新的Single-shot目標(biāo)檢測(cè)模型M2Det
- 在MS-COCO benchmark上,M2Det的單尺度版本和多尺度版本AP分別達(dá)到41.0和44.2?
介紹
為了解決目標(biāo)實(shí)例的尺度變化問題,主流做法有兩種:
- 一是在測(cè)試階段使用圖像金字塔(如Cascade RCNN),即將原始圖像進(jìn)行一系列縮放,毫無疑問這會(huì)大幅增加內(nèi)存和計(jì)算開銷;?
- 二是在從輸入圖像提取出的特征金字塔上進(jìn)行檢測(cè),該方法可以同時(shí)用于訓(xùn)練和測(cè)試階段中,相對(duì)開銷較小,易于集成,適合end-to-end。
如下圖所示,文中列舉了四種風(fēng)格的特征金字塔:SSD型、FPN型、STDN型,以及本文所提出的?MLFPN型。并總結(jié)了前三種特征金字塔的缺點(diǎn),主要有兩點(diǎn):一是均基于分類網(wǎng)絡(luò)作為主干提取,對(duì)目標(biāo)檢測(cè)任務(wù)而言特征表示可能不夠;二是每個(gè)feature map僅由主干網(wǎng)絡(luò)的single level給出,不夠全面(一般來說,高層特征利于進(jìn)行分類,低層特征利于回歸目標(biāo)位置)。
- SSD型:使用了主干網(wǎng)絡(luò)的最后兩層,再加上4個(gè)使用stride=2卷積的下采樣層構(gòu)成;
- FPN型:也稱為U型網(wǎng)絡(luò),經(jīng)過上采樣操作,然后對(duì)應(yīng)融合相同的scale;
- STDN型:基于DenseNet的最后一個(gè)dense block,通過池化和scale-transfer操作來構(gòu)建;
- MLFPN型:本文新提出,整體思想是Multi-level&Multi-scale,下文詳述。
為了更好地解決目標(biāo)檢測(cè)中尺度變化帶來的問題,本文提出一種更有效的特征金字塔結(jié)構(gòu)MLFPN,?其大致流程如下圖所示:首先,對(duì)主干網(wǎng)絡(luò)提取到的特征進(jìn)行融合;然后通過TUM和FFM提取更有代表性的Multi-level&Mutli-scale特征;最后通過SFAM融合多級(jí)特征,得到多級(jí)特征金字塔用于最終階段的預(yù)測(cè)。
所提方法
M2Det使用主干網(wǎng)絡(luò)+MLFPN來提取圖像特征,然后采用類似SSD的方式預(yù)測(cè)密集的包圍框和類別得分,通過NMS得到最后的檢測(cè)結(jié)果。
MLFPN詳解
如上圖所示,MLFPN主要有3個(gè)模塊組成:
1)特征融合模塊FFM;
2)細(xì)化U型模塊TUM;
3)尺度特征聚合模塊SFAM.
首先,?FFMv1對(duì)主干網(wǎng)絡(luò)提取到的淺層和深層特征進(jìn)行融合,得到base feature;
其次,堆疊多個(gè)TUM和FFMv2,每個(gè)TUM可以產(chǎn)生多個(gè)不同scale的feature map,每個(gè)FFMv2融合base feature和上一個(gè)TUM的輸出,并給到下一個(gè)TUM作為輸入(更高level)。每個(gè)level的輸出如下公式所述;
最后,SFAM通過scale-wise拼接和channel-wise attention來聚合multi-level&multi-scale的特征。
特征融合模塊FFM
FFM用于融合M2Det中不同級(jí)別的特征,先通過1x1卷積壓縮通道數(shù),再進(jìn)行拼接。具體而言:
細(xì)化U型模塊TUM
TUM使用了比FPN和RetinaNet更薄的U型網(wǎng)絡(luò)。在上采樣和元素相加操作之后加上1x1卷積來加強(qiáng)學(xué)習(xí)能力和保持特征平滑度。TUM中每個(gè)解碼器的輸出共同構(gòu)成了該TUM的multi-scale輸出。每個(gè)TUM的輸出共同構(gòu)成了multi-level&multi-scale特征,前面的TUM提供low level feature,后面的TUM提供high level feature.TUM的細(xì)節(jié)如下圖所示:
尺度特征聚合模塊SFAM
SFAM旨在聚合TUMs產(chǎn)生的多級(jí)多尺度特征,以構(gòu)造一個(gè)多級(jí)特征金字塔。在first stage,SFAM沿著channel維度將擁有相同scale的feature map進(jìn)行拼接,這樣得到的每個(gè)scale的特征都包含了多個(gè)level的信息。然后在second stage,借鑒SENet的思想,加入channel-wise attention,以更好地捕捉有用的特征。SFAM的細(xì)節(jié)如下圖所示:
網(wǎng)絡(luò)配置
M2Det的主干網(wǎng)絡(luò)采用VGG-16和ResNet-101
MLFPN的默認(rèn)配置包含有8個(gè)TUM,每個(gè)TUM包含5個(gè)跨步卷積核5個(gè)上采樣操作,所以每個(gè)TUM的輸出包含了6個(gè)不同scale的特征。
在檢測(cè)階段,為6組金字塔特征每組后面添加兩個(gè)卷積層,以分別實(shí)現(xiàn)位置回歸和分類。
后處理階段,使用soft-NMS來過濾無用的包圍框。
實(shí)驗(yàn)部分
?貼一張效率VS精度的對(duì)比圖。
總結(jié)
- 上一篇: 华硕电脑安装键盘灯驱动步骤
- 下一篇: 高级编程技术(一)