keras faster物体检测_URPC 2019水下目标检测竞赛冠军方案:多图像融合增强
下面要介紹的論文發于2019年12月,題為「ROIMIX: PROPOSAL-FUSION AMONG MULTIPLE IMAGESFOR UNDERWATER OBJECT DETECTION」,axriv地址為:https://arxiv.org/abs/1911.03029。
近年來,通用的目標檢測算法已經證明了其卓越的性能。然而,關于水下目標檢測的話題卻很少被研究。和一般的數據集相比,水下圖像通常具有色偏和低對比度的特點,并且沉淀物也會導致水下圖像模糊。另外,由于水下動物的生活習性,它們通常在圖像上挨得很近。為了解決這些問題,本論文的工作是研究增強策略以模擬重疊,遮擋和模糊的目標,并構建一個可以有更好的泛化能力的模型。論文提出了一種稱為ROIMIX的增強方法,該方法可以表征圖像之間的相互作用。之前的圖像增強方法都是在單張圖像上運行,而ROIMIX是應用于多個圖像以創建增強后的訓練樣本數據。實驗結果表明,此方法在PASCAL VOC數據集和URPC數據集上均提高了雙階段目標檢測器的性能。
一、研究背景
很多目標檢測器在通用數據集如PACCAL VOC,MSCOCO上實現了比較好的性能。然而,水下環境更加復雜并且由于光照影響導致水下圖像往往存在對比度低,紋理失真和光照不均勻的特點,這導致檢測更加困難。
Figure1(a)展示了密集分布的生物,它們彼此覆蓋,并且因為一些沉淀物變得模糊。水下機器人檢測比賽(URPC)提供了有挑戰性的水下目標檢測數據集,該數據集包含大量重疊,遮擋和模糊的水下生物。現有的數據增強方法對重疊,遮擋和模糊目標還沒有進行很好的研究。如果檢測模型僅僅適應訓練數據,它將缺乏泛化能力,無法應對復雜的水下環境。
因此,論文提出通過在多個圖像之間混合候選區域來模擬目標的重疊,遮擋和模糊。從理論上分析,遵循經驗風險最小化原則(ERM),深度模型致力于最小化訓練數據上的平均誤差,但是它們有過擬合的風險。具體來說,ERM指導深層模型記憶訓練數據,而不是從中概況。同時,這些模型容易受到對抗樣本的攻擊。數據增強被用來緩解過擬合問題,根據最小風險(VRM)原則,通過增強策略在類似于訓練數據的樣本上對模型進行了優化。在圖像分類領域,平移和翻轉是增強訓練數據量的常用策略。
諸如Mixup,CutMix之類的方法致力于創造更好的訓練數據。本文提出了一種稱為RoIMix的數據增強算法,可以提高模型對重疊,遮擋和模糊目標的檢測能力。這個方法被用于雙階段檢測器如Faster-RCNN上,和之前在單個物體上進行數據增強的方法相比,ROIMIX更注重圖像之間的交互。直接在目標檢測中應用像Mixup這樣的圖像級融合會導致來自不同圖像的區域建議框未對齊,如Figure1(b)所示。
為了準確模擬重疊,遮擋和模糊的情況,論文執行了候選框級別融合。用這種方式,此方法在Pascal VOC和URPC上取得了出色的目標檢測性能,并在URPC 2019水下目標檢測競賽上奪冠。
二、相關工作
數據增強
數據增強是訓練深度學習模型的關鍵策略。在圖像分類領域,常用的數據增強策略包括旋轉,平移或翻轉。Zhang等提出將兩個隨機訓練圖像混合以產生鄰近訓練數據,作為一種正則化方法。區域刪除方法如Cutout會從輸入中隨機刪除一個區域,這有助于模型關注目標最有區別的部分,但是這也可能會導致信息丟失。
此外,更加先進的CutMix在訓練數據集之間剪切和粘貼圖片區域,從而極大的提高了模型對抗輸入破壞的魯棒性。對于目標檢測,通常使用多種增強策略如光照擾動,圖像鏡像和多尺度訓練。
除此之外,基于CutMix的預訓練模型可以在Pascal VOC上實現性能提升,但它并不是專門為目標檢測器設計的。本文充分考慮了基于區域定位的目標檢測器的特性,并提出了一種新的數據增強方法。
Faster-RCNN及其變體
Faster-RCNN是雙階段目標檢測器發展史上的里程碑。它由三個模塊組成:一個負責提取特征的骨干網絡如AlexNet,VGG,ResNet和RPN等,一個在特征圖上生成候選框集合的全卷積網絡,一個對候選框區域進行分類回歸的網絡。
注意,在區域分類和位置回歸步驟中是沒有共享計算的。而R-FCN提取了空間感知的區域特征,并在分類回歸階段移除了全連接層來共享計算而不會降低性能。Faster-RCNN的另外一個問題是它使用最后一層特征圖進行檢測,對小目標的檢測能力比較差。
因此Lin等提出了特征金字塔網絡FPN,它結合了低層特征可以更好的最小目標做預測。本文的方法具有通用性,可以應用于各種雙階段目標檢測器。
三、方法
如Figure2所示,本文提出的方法在RPN和ROI分類器之間應用。使用RPN產生ROI,并以隨機的比例混合它們。該比例是根據Beta分布產生的,然后,使用混合樣本來訓練模型。下面開始詳細的描述ROIMIX算法并討論其背后的原理。
算法
讓
和 代表一個候選框和它的標簽。ROIMIX旨在混合兩個從多個圖像中產生的隨機 和 來產生新的候選框 ,ROIs的大小通常不同,所以我們需要將 縮放到和 大小完全一致。產生的訓練數據被用來直接訓練檢測模型?;旌喜僮鞯墓蕉x如下:其中
是兩個候選框的混合系數。不像Mixup算法那樣直接從一個參數為 的Beta分布中直接采樣
,這里給第一個ROI區域
選擇較大系數,即:其中,max代表返回兩個參數中的較大者。原因是我們要使用
當作混合ROI的標簽。本方法混合了沒有沒有標簽的ROIs,這類似于傳統的數據增強方法。它僅僅影響訓練,并在測試過程中保持模型不變。使用這種方法,就可以獲得模擬重疊的,遮擋的和模糊的目標的新ROIs。Figure3可視化出了這個方法的過程。最終,使用此方法得到的新ROIs代替了原始的區域建議框。最終通過最小化這些生成樣本的原始損失函數來進行訓練。代碼級別的信息在Algorithm1中展示。
Figure3中x1,x2表示了兩個分別包含扇貝和海膽的ROI,而
表示從訓練數據集中截出的有遮擋的樣本(海膽位于扇貝上),通過ROIMIX,x1和x2被混合為和 類似的 ,用于模擬遮擋和模糊的情況。討論
論文通過ROIMIX來模擬目標的重疊,遮擋,以幫助模型隱式的學習更好的密集目標檢測能力。從統計學習理論的角度來看,ROIMIX是兩個候選框之間的一個線性插值結果,決策邊界可能會變得更平滑而不會急劇過度。具體來說,ROIMIX遵循VRM原理而不是ERM原理,從而使得深度學習模型泛化能力更強。遵循ERM原理訓練得模型可以最大程度的減少經驗風險,以幫助模型更好的擬合訓練數據。定義經驗風險
為:其中
代表將 映射到 的非線性函數, 代表樣本數, 代表損失函數用來衡量 和的距離。ROIMIX遵循VRM規則,并生成訓練數據的鄰近分布。然后就可以用生成的數據
來代替原始的訓練數據 ,并將期望風險 近似為:因此訓練過程已經變成最大幅度的減少期望風險
。在每一個輪次中,ROIMIX都會生成不同的鄰近訓練數據。以這種方式,模型的魯棒性變得更高。4、實驗
在URPC 2018上的實驗結果
論文在URPC 2018上對這個方法進行了全面的評估。該數據集包含2901張訓練圖像和800張測試圖像,涵蓋4個目標類別,包括海參,海膽,扇貝和海星。
論文選擇在ImageNet上預訓練的ResNet-101作為骨干網絡,并從每張圖像中提取128個ROI特征。并對Faster-RCNN使用默認的超參數,評估方法使用平均精度(mAP)。在URPC 2018的實驗中,將Beta分布的超參數a設置為0.1。
實驗結果如Table1所示,從表中可以看到Max操作分別帶來了2.06%和1.8%的Map值提升,這說明了等式(3)的重要性。其次,在比較GT框和ROIs混合的效果時發現,混合ROIs比混合GT對性能的改善貢獻更大。此外,論文還評估了圖像之間進行交互的重要性。“SingleRoIMix”指的是在單個圖像上選擇和混合ROIs,而論文提出的方法是混合一個批次中多張圖像的ROIs。Table1中的第2行和第5行顯示,和單個圖像混合相比,在多個圖像之間混合ROIs可以提升0.41%Map值。
Figure4可視化了Baseline(Faster-RCNN)和本論文提出的方法的檢測結果。在Figure4(b)中標記了3個紅色框,其中兩個是模糊和重疊的海參,另一個是不完整的扇貝。BaseLine模型無法檢測到三個紅色框中的目標,而論文中的方法可以成功檢測。這說明此方法對模糊,重疊的目標有更好的檢測能力。
在PASCAL VOC上的實驗
論文還在PASCAL VOC數據集(07+12)上評估了此方法的表現。該模型在VOC 2007 Trainval和VOC 2012 Trainval的聯合訓練集上進行了訓練,并在VOC 2007的測試集上進行測試。這個實驗使用和4.1節完全一樣的設置,并根據經驗將Beta分布的超參數a設為0.01。
論文指出,這應該是第一份有關混合樣本數據增強目標檢測的報告。并將此方法的實驗結果和Faster-RCNN作比較來評估ROIMIX的性能。結果如Table2所示。
可以看到,這種方法比BaseLine提高了0.8%個Map值,同時也可以看到ROIMIX在VOC上的提升比URPC上的提升少。一個可能的原因是URPC中存在更多重疊,被遮擋和模糊的對象,這可以通過本文提出的方法解決,因此提升更大。
穩定性和魯棒性
論文分析了ROIMIX對訓練穩定的目標檢測器的影響。并將ROIMIX訓期間的平均精度(mAP)和BaseLine進行了比較,論文在Figure5中可視化了Pascal VOC數據集和URPC數據集的結果。
首先,論文觀察到在兩個訓練集中訓練結束時,ROIMIX的mAP值均比基準線高得多,在mAP達到最高點之后,隨著訓練輪次的增加,BaseLine開始面臨過擬合。
另一方面,ROIMIX方法在Pascal VOC中平穩下降,并且在較大幅度上保持其Map曲線優于BaseLine。在URPC數據集中,ROIMIX在達到mAP的最高點后隨著時間的增加趨于穩定。此外ROIMIX和BaseLine方法在訓練期間最大的mAP差別達到2.04%。結果表明ROIMIX生成的各種鄰近訓練數據可以減小過擬合的風險,提高訓練過程的穩定性。
此外,論文通過應用5種類型的人工噪聲樣本(高斯噪聲,泊松噪聲,鹽噪聲,胡椒噪聲和椒鹽噪聲)來評估模型的魯棒性。
Figure6(a)可視化了帶有胡椒噪聲的樣本。論文使用在ImageNet預訓練的ResNet-101做骨干網絡,其設置與4.1節中的設置相同。然后評估每種類型噪聲樣本使用BaseLine,GTMix和RoIMix得到的結果,并在Figure6(b)中可視化。在這5種類型的噪聲中,ROIMIX和BaseLine之間的最大性能差異為9.05%個mAP值。直方圖表示這種方法對噪聲的魯棒能力更強。
除了人工噪聲,論文還探索了對測試圖像應用高斯模糊后來對模糊目標進行檢測的情況。結果如Table3所示,可以看到使用ROIMIX后性能提高了0.7%個mAP。這些實驗進一步說明,ROIMIX具有更好的魯棒性。
五、結論
這篇論文提出了ROIMIX用于水下目標檢測的方法。這應該是在多幅圖像之間進行ROIs融合以生成不同訓練樣本的第一項工作。ROIMIX旨在模擬重疊,遮擋,和模糊的目標,從而幫助模型隱式地學習檢測水下目標的能力。實驗表明,本文提出的方法可以將URPC的性能提高1.18%mAP,將Pascal VOC的性能提高0.8%mAP。 此外,ROIMIX具有更高的穩定性和魯棒性。ROIMIX被作者應用在URPC 2019目標檢測大賽中并獲得冠軍。
總結
以上是生活随笔為你收集整理的keras faster物体检测_URPC 2019水下目标检测竞赛冠军方案:多图像融合增强的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pc双网卡实现路由转发_路由器配置骨干网
- 下一篇: docker 导入镜像_官方下一代Doc