CVPR 2019 | 旷视研究院提出新型损失函数:改善边界框模糊问题
全球計(jì)算機(jī)視覺(jué)三大頂會(huì)之一 CVPR 2019 (IEEE Conference on Computer Visionand Pattern Recognition)將于 6 月 16-20 在美國(guó)洛杉磯如期而至。屆時(shí),曠視首席科學(xué)家、研究院院長(zhǎng)孫劍博士將帶領(lǐng)團(tuán)隊(duì)遠(yuǎn)赴盛會(huì),助力計(jì)算機(jī)視覺(jué)技術(shù)的交流與落地。在此之前,曠視每周會(huì)推出一篇 CVPR'19 接收論文解讀文章。本文是第 6篇,提出了一種新的帶有不確定性的邊界框回歸損失,可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位。
論文名稱:Bounding Box Regression with Uncertainty for Accurate Object Detection
論文鏈接:https://arxiv.org/abs/1809.08545
導(dǎo)語(yǔ)
簡(jiǎn)介
方法
邊界框參數(shù)化
使用 KL 損失的邊界框回歸
方差投票
實(shí)驗(yàn)
消融實(shí)驗(yàn)
準(zhǔn)確的目標(biāo)檢測(cè)
在 PASCAL VOC 2007 上的實(shí)驗(yàn)
結(jié)論
參考文獻(xiàn)
往期解讀
?
導(dǎo)語(yǔ)
?
大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集會(huì)盡可能清晰地定義基本 ground truth 邊界框。但是,可以觀察到在標(biāo)記邊界框時(shí)仍會(huì)存在模糊不清的現(xiàn)象。
曠視研究院在本文中提出了一種全新的邊界框回歸損失,可用于同時(shí)學(xué)習(xí)邊界框變換和定位方差。據(jù)介紹,這種新?lián)p失能極大地提升多種架構(gòu)的定位準(zhǔn)確度,而且?guī)缀醪粫?huì)有額外的計(jì)算成本。所學(xué)習(xí)到的定位方差也能幫助在非極大值抑制(NMS)期間融合相鄰的邊界框,進(jìn)一步提升定位的效果。
實(shí)驗(yàn)結(jié)果表明這種新方法比之前最佳的邊界框優(yōu)化方法更優(yōu)。研究員已公開(kāi)相關(guān)代碼和模型:github.com/yihui-he/KL-Loss
簡(jiǎn)介
ImageNet、MS-COCO 和 CrowdHuman 等大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集都會(huì)盡可能清晰地定義基本 ground truth 邊界框。
但是,可以觀察到一些案例中的基本 ground truth 邊界框原本就是模糊的,這會(huì)讓邊界框回歸函數(shù)的學(xué)習(xí)更加困難。圖 1 (a)(c) 是 MS-COCO 中兩個(gè)邊界框標(biāo)記不準(zhǔn)確的示例。當(dāng)存在遮擋時(shí),邊界框的范圍會(huì)更不清晰,比如來(lái)自 YouTube-BoundingBoxes 的圖 1(d)。
▲?圖1:邊界框標(biāo)注模糊的示例。(a,c) 是標(biāo)注不準(zhǔn)確,(b) 是存在遮擋,(d) 則是因?yàn)檎趽鯇?dǎo)致目標(biāo)邊界框本身并不清晰
目標(biāo)檢測(cè)是一種多任務(wù)學(xué)習(xí)問(wèn)題,包含目標(biāo)定位和目標(biāo)分類。當(dāng)前最佳的目標(biāo)檢測(cè)器(比如 Faster RCNN、Cascade R-CNN 和 Mask R-CNN)都依靠邊界框回歸來(lái)定位目標(biāo)。
但是,傳統(tǒng)的邊界框回歸損失(即平滑 L1 損失)沒(méi)有考慮到基本 ground truth 邊界框的模糊性。此外,人們通常假設(shè)當(dāng)分類分?jǐn)?shù)較高時(shí),邊界框回歸是準(zhǔn)確的,但事實(shí)并非總是如此,如圖 2 所示。
▲?圖2:VGG-16 Faster RCNN 在 MS-COCO 上的失敗案例。(a) 兩個(gè)邊界框都不準(zhǔn)確;(b)有較高分類分?jǐn)?shù)的邊界框的左邊界是不準(zhǔn)確的。
針對(duì)這些問(wèn)題,本文提出了一種全新的邊界框回歸損失——KL 損失,用于同時(shí)學(xué)習(xí)邊界框回歸和定位的不確定性。
具體來(lái)說(shuō),為了獲取邊界框預(yù)測(cè)的不確定性,研究員首先將邊界框預(yù)測(cè)和基本 ground truth 邊界框分別建模為高斯分布(Gaussian distribution)和狄拉克 δ 函數(shù)(Dirac delta function)。而新提出的邊界框回歸損失則被定義為預(yù)測(cè)分布和基本 ground truth 分布之間的 KL 距離。
使用 KL 損失進(jìn)行學(xué)習(xí)有三大優(yōu)勢(shì):?
1. 可以成功獲取數(shù)據(jù)集中的模糊性。讓邊界框回歸器在模糊邊界框上得到的損失更小。
2. 所學(xué)習(xí)到的方差可用于后處理階段。研究者提出了方差投票(variance voting)方法,可在非極大值抑制(NMS)期間使用由預(yù)測(cè)的方差加權(quán)的臨近位置來(lái)投票得到邊界框的位置。
3. 所學(xué)習(xí)到的概率分布是可解釋的。因?yàn)槠浞从沉诉吔缈蝾A(yù)測(cè)的不確定性,所以可能有助于自動(dòng)駕駛和機(jī)器人等下游應(yīng)用。
?
方法
?
下面將具體介紹這種新的損失函數(shù)和方差投票方法。
邊界框參數(shù)化?
在介紹新方法之前,先看看邊界框參數(shù)化。本文提出基于 Faster R-CNN 或 Mask R-CNN 等兩級(jí)式目標(biāo)檢測(cè)器(如圖 3)分別回歸邊界框的邊界。研究者將邊界框表示成了一個(gè)四維向量,其中每一維都是框邊界的位置。本文采用的參數(shù)化方案是 (x1, y1, x2, y2) 坐標(biāo)(對(duì)角線),而非 R-CNN 使用的那種 (x, y, w, h) 坐標(biāo)。
▲?圖3:本文提出的用于估計(jì)定位置信度的網(wǎng)絡(luò)架構(gòu)。不同于兩級(jí)式檢測(cè)網(wǎng)絡(luò)的標(biāo)準(zhǔn) Fast R-CNN head,這個(gè)架構(gòu)是估計(jì)邊界框位置以及標(biāo)準(zhǔn)差,這會(huì)在新提出的 KL 損失得到考慮。
該網(wǎng)絡(luò)的目標(biāo)是在估計(jì)位置的同時(shí)估計(jì)定位置信度。形式上講,該網(wǎng)絡(luò)預(yù)測(cè)的是一個(gè)概率分布,而不只是邊界框位置。盡管該分布可能更復(fù)雜,可能是多變量高斯分布或高斯混合分布,但該論文為了簡(jiǎn)單起見(jiàn)假設(shè)坐標(biāo)是相互獨(dú)立的且使用了單變量高斯分布。
另外,基本 ground truth 邊界框也被形式化了一個(gè)高斯分布——狄拉克 δ 函數(shù)。
使用KL損失的邊界框回歸?
在這里,目標(biāo)定位的目標(biāo)是在樣本上最小化預(yù)測(cè)分布和基本 ground truth 分布之間的 KL 距離。這個(gè) KL 距離即為邊界框回歸的損失函數(shù) L_reg。而分類損失則保持不變。
其中,x_g 為基本 ground truth 邊界框位置,x_e 為估計(jì)的邊界框位置,D_KL 是 KL 距離,σ 是標(biāo)準(zhǔn)差,P_D 是基本 ground truth 狄拉克 δ 函數(shù),P_Θ 是預(yù)測(cè)的高斯分布,Θ 是一組可學(xué)習(xí)的參數(shù)。
如圖 4 所示,當(dāng) x_e 不準(zhǔn)確時(shí),網(wǎng)絡(luò)會(huì)預(yù)測(cè)得到更大的方差 σ2,使 L_reg 更低。
▲?圖4:藍(lán)色和灰色的高斯分布是估計(jì)結(jié)果。橙色表示狄拉克 δ 函數(shù),是基本 ground truth 邊界框的分布。
方差投票?
在獲得預(yù)測(cè)位置的方差后,可根據(jù)所學(xué)習(xí)到的鄰近邊界框的方差直觀地投票選擇候選邊界框位置。
如算法 1 所示,其代碼基于 NMS,但有三行不一樣。
?
本文是在標(biāo)準(zhǔn) NMS 或 soft-NMS 的過(guò)程中投票所選框的位置。在選擇了有最大分?jǐn)?shù)的檢測(cè)結(jié)果后,再根據(jù)它及其鄰近邊界框計(jì)算它本身的新位置。本文受 soft-NMS 的啟發(fā)為更近的以及有更低不確定性的邊界框分配了更高的權(quán)重。
在投票期間權(quán)重更低的鄰近邊界框包含兩類:(1)高方差的邊界框;(2)與所選邊界框的 IoU 較小的邊界框。投票不涉及分類分?jǐn)?shù),因?yàn)楦头謹(jǐn)?shù)的框可能有更高的定位置信度。圖 5 給出了方差投票的圖示。使用方差投票可以避免圖 2 中提到的那兩類檢測(cè)問(wèn)題。
▲?圖5:VGG-16 Faster R-CNN 在 MS-COCO 上的方差投票結(jié)果。每個(gè)邊界框中的綠色文本框?qū)?yīng)于預(yù)測(cè)的標(biāo)準(zhǔn)差 σ。
?
實(shí)驗(yàn)
曠視研究員基于 MS-COCO 和 PASCAL VOC 2007 數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)配置細(xì)節(jié)如下:
使用了 4 個(gè) GPU?
訓(xùn)練流程和批大小根據(jù)線性縮放規(guī)則進(jìn)行調(diào)整?
VGG-CNN-M-1024 和 VGG-16 的實(shí)現(xiàn)基于 Caffe;ResNet-50 FPN 和 Mask R-CNN 的實(shí)現(xiàn)基于 Detectron
VGG-16 Faster R-CNN 遵照 py-faster-rcnn(github.com/rbgirshick/py-faster-rcnn),在 train2014 上訓(xùn)練,在 val2014 上測(cè)試;其它目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試分別在 train2017 和 val2017 上完成
σ_t 設(shè)為 0.02?
除非另有說(shuō)明,否則所有超參數(shù)都是默認(rèn)設(shè)置(github.com/facebookresearch/Detectron)
消融實(shí)驗(yàn)?
研究者基于 VGG-16 Faster R-CNN 評(píng)估了每個(gè)模塊對(duì)整體結(jié)果的貢獻(xiàn),包括 KL 損失、soft-NMS 和方差投票。表 1 給出了詳細(xì)結(jié)果。可以看到,每新增一項(xiàng)改進(jìn),都能實(shí)現(xiàn)結(jié)果的進(jìn)一步提升。
?
▲?表1:使用 VGG-16 Faster R-CNN 在 MS-COCO 數(shù)據(jù)集上檢驗(yàn)每個(gè)模塊的貢獻(xiàn)
?
準(zhǔn)確的目標(biāo)檢測(cè)?
表 4 總結(jié)了在 ResNet-50-FPN Mask R-CNN 上不同方法對(duì)準(zhǔn)確目標(biāo)檢測(cè)的效果。使用 KL 損失,網(wǎng)絡(luò)可以在訓(xùn)練階段學(xué)習(xí)調(diào)節(jié)模糊邊界框的梯度。
▲?表4:在 MS-COCO 上,不同方法對(duì)準(zhǔn)確目標(biāo)檢測(cè)的效果?
曠視研究員還在特征金字塔網(wǎng)絡(luò)(ResNet-50 FPN)上進(jìn)行了評(píng)估,如表 6 所示。
▲?表6:FPN ResNet-50 在 MS-COCO 上的表現(xiàn)對(duì)比
在PASCAL VOC 2007上的實(shí)驗(yàn)?
盡管本文是針對(duì)大規(guī)模目標(biāo)檢測(cè)提出了這一方法,但也可將該方法用于更小型的數(shù)據(jù)集。研究者使用 Faster R-CNN 在 PASCAL VOC 2007 上進(jìn)行了實(shí)驗(yàn),該數(shù)據(jù)集包含約 5000 張 voc_2007_trainval 圖像和 5000 張 voc_2007_test 測(cè)試圖像,涉及 20 個(gè)目標(biāo)類別。所測(cè)試的骨干網(wǎng)絡(luò)為 VGG-CNN-M-1024 和 VGG-16。
結(jié)果見(jiàn)表 5,研究員也額外比較了 soft-NMS 和二次無(wú)約束二元優(yōu)化(QUBO)。QUBO 的結(jié)果包含 greedy 求解器和經(jīng)典的 tabu 求解器(二者的懲罰項(xiàng)都經(jīng)過(guò)了人工調(diào)整,以得到更好的性能)。可以看到,QUBO 比標(biāo)準(zhǔn) NMS 要差得多,盡管有研究認(rèn)為其在行人檢測(cè)上效果更好。研究者猜測(cè) QUBO 更擅長(zhǎng)檢測(cè)行人的原因是此時(shí)邊界框遮擋的情況更多。
▲?表5:不同方法在 PASCAL VOC 2007 上的結(jié)果
?
結(jié)論
?
大規(guī)模目標(biāo)檢測(cè)數(shù)據(jù)集中的不確定性可能有礙當(dāng)前最佳目標(biāo)檢測(cè)器的表現(xiàn)。分類置信度并不總是與定位置信度強(qiáng)烈相關(guān)。這篇論文提出了一種全新的帶有不確定性的邊界框回歸損失,可用于學(xué)習(xí)更準(zhǔn)確的目標(biāo)定位。使用 KL 損失進(jìn)行訓(xùn)練,網(wǎng)絡(luò)可學(xué)習(xí)預(yù)測(cè)每個(gè)坐標(biāo)的定位方差。所得到的方差可實(shí)現(xiàn)方差投票,從而優(yōu)化所選擇的邊界框。實(shí)驗(yàn)結(jié)果也表明了這些新方法的有效性。
?
傳送門(mén)
?
歡迎各位同學(xué)加入曠視研究院基礎(chǔ)模型(Model)組,簡(jiǎn)歷可以投遞給 Model 組負(fù)責(zé)人張祥雨。
郵箱:zhangxiangyu@megvii.com
?
參考文獻(xiàn)?
[42] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 1, 2, 3, 7?
[17]Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Gir- ′ shick. Mask r-cnn. In Computer Vision (ICCV), 2017 IEEE International Conference on, pages 2980–2988. IEEE, 2017. 1, 2, 3, 5?
[27]Borui Jiang, Ruixuan Luo, Jiayuan Mao, Tete Xiao, and Yuning Jiang. Acquisition of localization confidence for accurate object detection. In Proceedings of the European Conference on Computer Vision (ECCV), pages 784–799, 2018. 2, 7, 8?
[28]Alex Kendall and Yarin Gal. What uncertainties do we need in bayesian deep learning for computer vision? In Advances in neural information processing systems, pages 5574–5584, 2017. 2?
[29]Alex Kendall, Yarin Gal, and Roberto Cipolla. Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. arXiv preprint arXiv:1705.07115, 3, 2017. 2
往期解讀:
CVPR 2019 | 曠視提出GIF2Video:首個(gè)深度學(xué)習(xí)GIF質(zhì)量提升方法
CVPR 2019 | 曠視Oral論文提出GeoNet:基于測(cè)地距離的點(diǎn)云分析深度網(wǎng)絡(luò)
CVPR 2019 | 曠視提出超分辨率新方法Meta-SR:單一模型實(shí)現(xiàn)任意縮放因子
CVPR 2019 | 曠視實(shí)時(shí)語(yǔ)義分割技術(shù)DFANet:高清虛化無(wú)需雙攝
CVPR 2019 | 曠視研究院提出ML-GCN:基于圖卷積網(wǎng)絡(luò)的多標(biāo)簽圖像識(shí)別模型
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
CVPR 2019 | 無(wú)監(jiān)督領(lǐng)域特定單圖像去模糊
圖神經(jīng)網(wǎng)絡(luò)綜述:模型與應(yīng)用
近期值得讀的10篇GAN進(jìn)展論文
小樣本學(xué)習(xí)(Few-shot Learning)綜述
萬(wàn)字綜述之生成對(duì)抗網(wǎng)絡(luò)(GAN)
可逆ResNet:極致的暴力美學(xué)
小米拍照黑科技:基于NAS的圖像超分辨率算法
AAAI 2019 | 基于區(qū)域分解集成的目標(biāo)檢測(cè)
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
??來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 獲取最新論文推薦
總結(jié)
以上是生活随笔為你收集整理的CVPR 2019 | 旷视研究院提出新型损失函数:改善边界框模糊问题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 近期我们在读的那些优质论文,你不了解下?
- 下一篇: IEMLRN:基于图像增强的句子语义表示