为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归...
摘要
大型目標(biāo)檢測數(shù)據(jù)集(如MS-COCO) 試著盡可能地將邊界框框的非常清晰,但是在標(biāo)記邊框時會存在歧義。在本文中,提出了一種新的邊界框回歸損失學(xué)習(xí)邊界框的移動及位置方差,此方法在不增加計算量的基礎(chǔ)上提高了不同架構(gòu)定位的準(zhǔn)確性,學(xué)習(xí)到的位置變化用于在進(jìn)行NMS處理時合并兩個相鄰的邊界框,進(jìn)一步提升了定位的準(zhǔn)確性在MS-COCO數(shù)據(jù)集上,將VGG-16 Faster R-CNN的平均精度(AP)從23.6%提升到了29.1%。更重要的是,對于ResNet-50-FPN Mask R-CNN,此方法將AP和AP90分別提高了1.8%和6.2%,大大超過了之前比較先進(jìn)的邊界框改進(jìn)方法。1.引言
像ImageNet、MS-COCO和CrowdHuman這樣的大型目標(biāo)檢測數(shù)據(jù)集都盡量清晰地標(biāo)注ground truth邊界框。然而邊界框在有些情況下會不可避免的存在不確定性,不確定性會使標(biāo)注和邊界框回歸函數(shù)的學(xué)習(xí)變得困難。MS-COCO中一些不精確的標(biāo)注框展示在圖1(a)(c)中。當(dāng)物體被部分遮擋了,邊界框的邊界將更加難以區(qū)分,比如圖1(d)。
圖1.在目標(biāo)檢測數(shù)據(jù)集中,ground-truth邊界框在一些情況下存在固有的不確定性。(a)(c)標(biāo)注的不確定性。(b) 遮擋帶來的不確定性。(d) 目標(biāo)自身邊界是不確定的。由于樹的遮擋,火車的左邊界是不清晰的
目標(biāo)檢測是一項(xiàng)多任務(wù)的學(xué)習(xí)問題,由目標(biāo)定位和目標(biāo)分類組成。當(dāng)前最好的目標(biāo)檢測器(如:Faster R-CNN, Cascade R-CNN, Mask R-CNN)都依賴于邊界框回歸來定位目標(biāo)。然而,傳統(tǒng)的邊界框回歸損失并沒有將邊界框的不確定性考慮進(jìn)去,而且邊界框回歸當(dāng)分類分?jǐn)?shù)很高的情況下被假定是準(zhǔn)確的,但事實(shí)并不總是這樣,如圖2。
圖2.VGG-16 Faster R-CNN在MS-COCO數(shù)據(jù)集上錯誤的案例。(a) 兩個框都是不準(zhǔn)的。(b) 分類分?jǐn)?shù)高的邊界框反而是錯誤的
為了解決這個問題,提出了新的邊界框回歸損失,叫做KL Loss,旨在同時學(xué)習(xí)邊界框回歸和定位不確定性。具體來說,為了獲得預(yù)測框的不確定性,首先為邊界框預(yù)測和ground-truth框建模為高斯分布和狄拉克函數(shù)。接著定義了預(yù)測分布和真實(shí)分布的KL散度。采用KL Loss學(xué)習(xí)有三個好處:(1) 數(shù)據(jù)集中的不確定性可以被很好的捕獲到,邊界框回歸器會從不確定邊界框中計算出更小的損失;(2) 學(xué)習(xí)到的方差在后處理階段非常有用。同時還提出了方差投票,在NMS階段使用預(yù)測方差來加權(quán)候選框相鄰的位置,最后投票得到候選框的最終定位。(3) 學(xué)到的概率分布是可解釋的,因?yàn)樗从沉诉吔缈蝾A(yù)測的不確定度,可以對自動駕駛和機(jī)器人上的應(yīng)用有潛在的幫助。
為了證明KL Loss和方差投票的泛化能力,在PASCAL VOC2007、MS-COCO上驗(yàn)證了多種CNN目標(biāo)檢測器,包括VGG-CNN-M-1024、VGG-16、ResNet-50-FPN和Mask R-CNN。實(shí)驗(yàn)表明了此方法在目標(biāo)定位上有更好的準(zhǔn)確性。對于MS-COCO數(shù)據(jù)集上的VGG-16 Faster R-CNN模型將AP從23.6%提高到了29.1%,GPU(GTX 1080Ti)上前向預(yù)測時間僅增加了2ms。而且,對于ResNet-50-FPN Mask R-CNN,AP和AP90 分別提高了1.8%和6.2%,超越了目前最先進(jìn)的邊界框精調(diào)算法。
2.?方法
2.1 邊界框參數(shù)化
??? 基于圖3所示的雙階段目標(biāo)檢測器Faster R-CNN或Mask R-CNN,可以分別回歸邊界框的各個邊界。實(shí)驗(yàn)?zāi)繕?biāo)是估計定位置信度。嚴(yán)格上說,是利用網(wǎng)絡(luò)預(yù)測一個概率分布而不僅僅是邊界框位置。盡管分布可能非常復(fù)雜,像多元高斯或混合高斯那樣,但是本文中假設(shè)坐標(biāo)是獨(dú)立分布的,并且用一元高斯來簡化問題。圖3說明了目標(biāo)檢測器的網(wǎng)絡(luò)結(jié)構(gòu)。
圖3.用于估計位置置信度的網(wǎng)絡(luò)結(jié)構(gòu)。不同于傳統(tǒng)的標(biāo)準(zhǔn)fast R-CNN的雙階段網(wǎng)絡(luò)模型頭部,此網(wǎng)絡(luò)的KL Loss回歸損失將估計到的邊界框位置的標(biāo)準(zhǔn)差考慮在內(nèi)
2.2 使用KLLoss進(jìn)行邊界框回歸
對于N個樣本的KL散度最小化,使用KL散度作為邊界框回歸的損失函數(shù),分類損失保持不變。如圖4所示,當(dāng)位置未被估計準(zhǔn)確時,期望網(wǎng)絡(luò)能夠預(yù)測一個更大的方差,使回歸損失減小,用隨機(jī)高斯初始化來預(yù)測全連接層的權(quán)重。標(biāo)準(zhǔn)差和平均值分別設(shè)置為0.0001和0,使KL Loss和標(biāo)準(zhǔn)的smooth L1損失在訓(xùn)練初期相似。
圖4.估計值的高斯分布,對應(yīng)藍(lán)色和灰色的曲線。橙色的曲線是ground-truth對應(yīng)的狄拉克函數(shù)。當(dāng)位置沒被估計準(zhǔn)確,期望預(yù)測結(jié)果有更大的方差,這樣回歸損失會比較低(藍(lán)色)
2.3 方差投票
在獲得預(yù)測位置的方差后,接下來要根據(jù)學(xué)習(xí)到的相鄰邊界框的方差來選舉出候選邊界框來。在NMS和soft-NMS循環(huán)中投票選出被選中框的位置。在選中有最大得分的檢測結(jié)果后,新的位置通過它本身和對應(yīng)相鄰邊界框計算得到。受到soft-NMS啟發(fā),分配更高的權(quán)重給那些接近的且有更少不確定性的框。兩種類型的相鄰邊界框會得到更低的權(quán)重:(1) 有大方差的框,(2) 和候選框的IoU小的框。類別得分在投票中不被考慮,因?yàn)楦偷梅值目蚩赡苡懈叩亩ㄎ粶?zhǔn)確度。圖5中提供了一種方差投票的可視化解釋。借助方差投票,兩種在圖2中提到的現(xiàn)象會被避免。
圖5.在MS-COCO上VGG-16Faster R-CNN模型的投票結(jié)果。兩種錯誤的情形都被方差投票解決:(a) 當(dāng)每個候選框在某些坐標(biāo)上是不準(zhǔn)確的情況下(右邊的女性),方差投票可以整合位置置信度,給出更好的框。(b) 高分類得分的邊界框(火車 0.99)實(shí)際上相比低分類得分的邊界框(火車 0.35)有更低的定位準(zhǔn)確度,在方差投票后,0.99的得分框移動到了正確的位置上
3.?實(shí)驗(yàn)
為了證明本文實(shí)驗(yàn)在目標(biāo)檢測中的準(zhǔn)確性,使用了兩種數(shù)據(jù)集:MS-COCO和PASCAL VOC 2007。實(shí)驗(yàn)中使用4塊GPU。訓(xùn)練策略和batchsize根據(jù)線性尺度變換規(guī)則調(diào)整。對于VGG-CNN-M-1024,基于Caffe實(shí)現(xiàn)。對于ResNet-50 FPN和Mask R-CNN,基于Detectron實(shí)現(xiàn)。對于VGG-16 Faster R-CNN,參考py-faster-rcnn,在train2014上訓(xùn)練,在val2014上測試。對于其他目標(biāo)檢測框架,訓(xùn)練和測試都在train2017和val2017上。除非特別指定,所有超參數(shù)設(shè)置為默認(rèn)。
3.1 消融研究
在VGG-16 Faster R-CNN驗(yàn)證了檢測模型中每個模塊的貢獻(xiàn):KL Loss、soft-NMS和varvoting。詳細(xì)結(jié)果表1中呈現(xiàn)。
表1.MS-COCO上模型中每個模塊的貢獻(xiàn),baseline是VGG-16 Faster R-CNN
KL Loss
令人驚訝的是,用KL Loss簡單的訓(xùn)練就能獲得2.8%的AP提升,這樣的結(jié)果也同樣表現(xiàn)在ResNet-50 Faster R-CNN和Mask R-CNN上(1.5%和0.9%)。首先,通過在訓(xùn)練中學(xué)習(xí)高不確定性的樣本來預(yù)測高的方差,網(wǎng)絡(luò)可以學(xué)到更多有用的樣本。其次,定位用的梯度可以自適應(yīng)通過訓(xùn)練來控制,這樣鼓勵網(wǎng)絡(luò)學(xué)到更準(zhǔn)確的目標(biāo)位置。第三,KL Loss學(xué)習(xí)位置置信度,可以潛在幫助網(wǎng)絡(luò)學(xué)習(xí)到更有判別力的特征。通過KL Loss學(xué)到的方差是可解釋的。網(wǎng)絡(luò)對于有挑戰(zhàn)性的目標(biāo)邊界會輸出更高的方差,這樣在一些諸如自動駕駛和機(jī)器人的視覺應(yīng)用上會很實(shí)用。圖5的第一行就展示了一些KL Loss學(xué)到的標(biāo)準(zhǔn)差定量的例子。
表2.GPU1080TI,CUDA 8, CUDNN 6,MS-COCO,VGG-16 Faster R-CNN上的前向時間對比
方差投票
最后,方差投票進(jìn)一步提高了AP 29.1%,提升主要來自于更準(zhǔn)確的定位。注意到AP50只提升了0.1%,但是AP75,APM,APL分別提升了1.8%,1,8%,1,6%,見表1。這說明了分類置信度和位置置信度不總是相關(guān)的。因此,將定位置信度和分類置信度分開學(xué)習(xí)對提升目標(biāo)定位準(zhǔn)確性至關(guān)重要,且方差投票和soft-NMS可以共同作用。用標(biāo)準(zhǔn)的NMS的方差投票,AP提升1.4%,用soft-NMS的方差投票,AP可以提升1.3%,則可以認(rèn)為soft-NMS擅長利用候選框得分來提升性能,而方差投票擅長精調(diào)這些候選框以獲得更精確的目標(biāo)位置。圖5第二行就展示了方差投票的定量的例子。圖6中,測試了方差投票中可調(diào)參數(shù)的靈敏度。
圖6.ResNet-50Faster R-CNN中,AP提升隨著方差投票的參數(shù)的變化關(guān)系
3.2?PASCAL VOC 2007上的實(shí)驗(yàn)
盡管本文中的方法針對大尺度目標(biāo)檢測任務(wù)設(shè)計,但它同樣也能在小的數(shù)據(jù)集上有較好的泛化能力。用Faster R-CNN在PASCAL VOC 2007上進(jìn)行了實(shí)驗(yàn),包含了超過20個類別的5k張voc_2007_trainval圖像和5k張voc_2007_test圖像。骨架網(wǎng)絡(luò)是:VGG-CNN-M-1024和VGG-16。如表3所示,和soft-NMS做了對比。對于QUBO,測試了貪心和經(jīng)典tabu求解器。觀察到它比標(biāo)準(zhǔn)的NMS效果還差,盡管論文中在行人檢測任務(wù)中給出了很好的結(jié)果。假設(shè)QUBO在行人檢測任務(wù)中效果好是因?yàn)橛姓趽踹吔缈虻脑颉τ赩GG-CNN-M-1024,用方差投票訓(xùn)練提高了mAP 1.6%,進(jìn)一步提高了0.8%。對于VGG-16而言,將本文所提出的方法和soft-NMS結(jié)合提高了mAP 2.9%。注意到方差投票仍然能提升性能即使已經(jīng)對初始檢測框進(jìn)行了soft-NMS操作。
表3.用Faster R-CNN在PASCALVOC 2007上對比不同的方法
4.結(jié)論
總結(jié)來說,在大型數(shù)據(jù)集中的不確定性會影響先進(jìn)的目標(biāo)檢測器的性能。分類置信度不總是和位置置信度有強(qiáng)的關(guān)聯(lián)。本文提出了一種新的邊界框回歸損失,借助不確定性來學(xué)習(xí)更準(zhǔn)確的目標(biāo)位置。通過使用KL Loss訓(xùn)練,網(wǎng)絡(luò)學(xué)到了每個坐標(biāo)點(diǎn)的位置方差,并用其來進(jìn)行方差投票精調(diào)邊界框的位置,并在各種網(wǎng)絡(luò)和數(shù)據(jù)集上證明了效果。
總結(jié)
以上是生活随笔為你收集整理的为什么vs会输出一个框作为结果_检测与分类专辑 | 对精准目标检测的含不确定性的边界框回归...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python压测接口_python的一个
- 下一篇: qt定时器是阻塞的吗_吊打面试官 | 面