M2Det理解
文章目錄
- 問題
- 主要挑戰
- 探索
- 作者目標
- 方法
- 簡介
- 具體
- MLFPN結構
- FFMs
- TUMs
- SFAM
- 效果
2019 10月份看的檢測的文章,對backbone的探索,現在不做2D檢測了
問題
主要挑戰
實例對象之間的尺度差異是目標檢測任務的主要挑戰之一
探索
通常有兩種策略來解決這個問題:
- 對原image取多尺度(現在基本沒人用了,占用內存大,計算復雜)
- 在原image上提取的特征金字塔
其他人根據上述策略做過的嘗試:
- SSD(Liu等人,2016)直接單獨使用兩層骨架網絡的特征(即VGG16)和通過步幅為2的卷積獲得的四個額外層來構建特征金字塔
- STDN(Zhou et al.2018)僅使用DenseNet的最后一個Dense塊(Huang et al.2017),通過池化和尺度變換操作構建特征金字塔
- FPN(Lin et al.2017a)通過以自上而下的方式融合深層和淺層的特征來構造特征金字塔
\ ?
但,上述方法具有以下兩個限制:
- 對于對象檢測任務來說不夠典型(表達能力不夠),只是從專門用來處理分類的backbone network中提取出來的
- 從backbone中提取的也只是一次一個單層,因此只是包含了單層信息
不同level的特征的性質:
| 針對的任務 | 位置回歸 | 分類 |
| 適合的外觀 | 簡單 | 復雜 |
| 適合檢測的對象的大小 | 小 | 大 |
限制的表現:
但是在實際的檢測中,可能存在大小很小但外觀很復雜的檢測對象,比如說很遠的紅路燈和很遠的人,大小一樣,外觀復雜度卻不一樣。因此,對那些只有單層level的特征圖來講,檢測性能不會特別好。
作者目標
構建一個更有效的特征金字塔,用于檢測不同尺度的物體,同時避免上述現有方法的局限性。
方法
簡介
(MLFPN)從輸入圖像中提取特征,然后生成密集的邊界框和類別分數。在MLFPN中,FFMv1融合骨干網的特征圖以生成基本特征。每個TUM生成一組多尺度特征,然后交替連接的TUM和FFMv2s提取多級多尺度特征。 最后,SFAM將特征聚合為多級特征金字塔。 在實踐中,我們主要使用6個尺度和8個等級。
提出多層級特征金字塔(MLFPN)來構造特征金字塔,用于檢測不同尺度的對象。
- 首先,融合由骨干網絡提取的multi-level features作為base特征。
- 然后,將上述base feature送入一組交替連接的簡化U形模塊(TUM)和特征融合模塊(FFM),并利用每個U形模塊的解碼器層作為檢測對象的特征。
- 最后,將具有等效尺度(大小)( equivalent scales (sizes))的解碼器層集合(組合)起來,形成一個用于目標檢測的特征金字塔,其中每個特征圖由多個層次的層(特征)組成,這個特征金字塔比骨干中的層深得多,也更具代表性,每個特征圖都包含來自多個級別的解碼器層。
每個U形模塊中的解碼器層共享similar的深度?what
結構圖 6個尺度8個level\ ?
具體
MLFPN結構
MLFPN由三個模塊組成,即特征融合模塊(FFM),簡化的U形模塊(TUM)和按基于尺度的特征聚合模塊(SFAM)。
- FFMv1通過融合骨干網絡的特征圖,將語義信息豐富為基本特征。
- 每個TUM生成一組多尺度特征,然后交替連接的TUMs和FFMv2s提取多級多尺度特征。
- SFAM通過按比例縮放的特征連接操作和自適應注意力機制 將特征聚合到多級特征金字塔中
FFMs
功能:
融合不同層次的特征,對于構建最終的多級金字塔很重要
操作:
使用1x1卷積層來壓縮輸入特征的通道,并使用連接操作來聚合特征圖
FFM有兩種形式處理不同的問題:
- FFM1:以骨干網絡的兩個不同層級的特征圖為輸入,生成一個base特征(尺寸等于輸入的低層特征圖)。在連接之前,會將深層特征上采樣到和低層特征一樣的維度。
- FFMv2:以base特征和前一個TUM的最大輸出特征圖作為輸入,生成一個融合的特征,這個特征還會作為下一個FFMv2的輸入
\ ?
亮點:
SSD中只是提起了多層級特征分別進行檢測,而FFM1將不同層級特征結合到一塊,更有利于突破限制;
FFMv2又將有多層級多尺度的解析過的特征和base特征結合,更為兼顧不同層級和尺度
TUMs
結構:
- 編碼器:一系列的卷積核為3×33\times 33×3,步長為2×22\times 22×2的卷積層(第一層)
- 解碼器一系列的卷積核為3×33\times 33×3,步長為1×11\times 11×1的卷積層;還有一些上采樣層(第二層)
功能:
得到結合了多層級特征的多尺度特征圖,the front TUM主要提供淺層特征,the middle TUM提供中等特征,the back TUM提供深層特征
操作:
亮點:
TUM的解碼器的最后一層是由較高層級上采樣而來,且融合了不同層級特征圖的特征,所以,這個最后一層的特征,應該已經可以解決一定的“小而復雜”的問題了。但是,這個特征畢竟是上采樣出來的,沒有那么有深度的抽象的信息,所以第一個TUM,還是有點淺,所以還要再加TUM,再進行卷積,再提取更深地信息,所以medium和deep特征對于多層級檢測是很關鍵的。
SFAM
效果
為了評估所提出的MLFPN的有效性,我們設計并訓練了一個功能強大的端到端one-stage目標檢測器,將其集成到SSD架構中,我們稱為M2Det,獲得了比現有技術更好的檢測性能。具體而言,在MS-COCO基準測試中,M2Det采用單尺度推理策略時,以11.8 FPS的速度實現了41.0的AP,當使用多尺度推理策略時,AP為44.2。這是一種新的最先進一階段探測器。
總結
- 上一篇: MUI 弹出消息框
- 下一篇: CAD制图初学入门:使用CAD切换窗口