當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ICCV 2019 COCO Mapillary挑战赛冠军团队技术分享

發(fā)布時間：2024/10/8 编程问答 32 豆豆

生活随笔收集整理的這篇文章主要介紹了 ICCV 2019 COCO Mapillary挑战赛冠军团队技术分享小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

近日，在 ICCV 2019 Workshop 舉辦的 COCO + Mapillary Joint Recognition Challenge（COCO + Mapillary 聯(lián)合挑戰(zhàn)賽）公布了最終結(jié)果，深蘭科技團隊 DeepBlueAI 獲得了該挑戰(zhàn)賽 7 大賽題中的 Mapillary Detection 賽道的冠軍。

作者丨羅志鵬

單位丨深蘭北京AI研發(fā)中心

論文動機

ICCV 的全稱是 IEEE International Conference on Computer Vision，即國際計算機視覺大會，由 IEEE 主辦，與計算機視覺模式識別會議（CVPR）和歐洲計算機視覺會議（ECCV）并稱計算機視覺方向的三大頂級會議，被澳大利亞 ICT 學(xué)術(shù)會議排名和中國計算機學(xué)會等機構(gòu)評為最高級別學(xué)術(shù)會議，在業(yè)內(nèi)具有極高的評價。?

COCO + Mapillary Joint Recognition Challenge Workshop?

這個 Workshop 的目的是研究場景理解背景下的目標(biāo)檢測識別，每年都會舉辦挑戰(zhàn)賽，堪稱 ImageNet 之后計算機視覺領(lǐng)域最受矚目和最具含金量的競賽。今年該挑戰(zhàn)賽共有 7 大賽題，分別是 COCO Detection、COCO Panoptic、COCO Keypoints、COCO DensePose、Mapillary Detection、Mapillary Panoptic 和? LVIS Challenge。?

COCO 是一種應(yīng)用廣泛的視覺識別數(shù)據(jù)集，旨在促進通用物體目標(biāo)檢測和實例分割的研究，重點是對復(fù)雜場景的全面理解。Mapillary-Vistas 是一個新的街道級圖像數(shù)據(jù)集，它強調(diào)對高層次語義圖像的理解，并應(yīng)用于自動駕駛車輛和機器人導(dǎo)航。該數(shù)據(jù)集具有來自世界各地的位置，在天氣和照明條件、捕獲傳感器特性等方面具有多樣性。?

Mapillary-Vistas在數(shù)據(jù)集中方面是 COCO 的補充，可以很容易地用于研究不同于 COCO 的視覺領(lǐng)域中的各種識別任務(wù)。COCO 側(cè)重于自然場景的識別，而 Mapillary 側(cè)重于街景場景的識別。從去年開始，COCO 和 Mapillary 的檢測賽道（Detection）都改為實例分割（Instance Segmentation）任務(wù)，目標(biāo)是同時檢測和分割每個對象實例。

賽題介紹

Mapillary Vistas Object Detection Task?

該任務(wù)強調(diào)識別靜態(tài)街道圖像對象（如路燈、標(biāo)志、標(biāo)桿）和動態(tài)街道參與者（如汽車、行人、自行車）的單個實例，即同時檢測和分割每個實例。這項任務(wù)旨在推動實例分割的最新進展，針對汽車或運輸機器人等自主行為主體的關(guān)鍵感知任務(wù)。這個賽道的數(shù)據(jù)集是高分辨率的街景自動駕駛場景的圖片，其中訓(xùn)練集 18000 張，驗證集 2000 張和測試集 5000 張，賽題主要關(guān)注的 37 個對象類別包括汽車、行人、自行車、路燈、標(biāo)志、標(biāo)桿等等。

評測指標(biāo)

和 COCO 數(shù)據(jù)集的評估方案一樣，評測將使用 mask AP，包括，，，，?和?，且這些指標(biāo)是基于 37 個對象類別上計算出來的。為了進行綜合評估，并報告每個對象類別的性能。

方案概述：HTC + CBNet + DCN + FPN

我們團隊基于現(xiàn)有數(shù)據(jù)集結(jié)合以往檢測經(jīng)驗，實現(xiàn)了一個強大的實例分割模型。

HTC（Hybrid Task Cascade）是上一屆挑戰(zhàn)賽 COCO Detection 賽道的冠軍模型，也是目前 COCO 實例分割的最佳模型。我們團隊以這個極強的模型為基礎(chǔ)進一步改進，取得了更好的效果。HTC 又是基于 Cascade Mask R-CNN 改進的，它主要改進了兩個方面。?

1. Interleaved Execution：在每個 stage 里，先執(zhí)行 box 分支，將回歸過的框再交由 mask 分支來預(yù)測 mask，也消除了訓(xùn)練和測試流程的 gap，這樣也就改進了 Cascade Mask R-CNN 在每一個 stage 里的 box 和 mask 兩個分支在訓(xùn)練時中并行執(zhí)行沒有交互的問題。

2. Mask Information Flow：在相鄰的 stage 的 mask 分支之間增加一條連接，提供 mask 分支的信息流，這樣后面 stage 的 mask head 既能得到 backbone 的特征，也能得到上一個 stage 的特征。?

而我們團隊在 HTC 網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上嘗試從以下幾個方面進行改進：?

1. Backbone--CBNet?

CBNet 提出了一種通過相鄰 backbone 之間的復(fù)合連接來組裝多個相同 backbone 的新策略。使用 CBNet 提取特征，相比于普通的強 backbone，在前景目標(biāo)處具有更強的激活值，在背景處具有更弱的激活值。我們團隊在 mmdetection 開源框架上自己實現(xiàn)了 CBNet，并接近復(fù)現(xiàn)原論文的精度。最終團隊使用的是兩個 ResNeXt-101（64*4d）組合而成的 CBNet，這也成了提分的重要武器。

HRNet 通過并行連接高分辨率和低分辨率卷積來保持高分辨率表示，并通過在并行卷積中重復(fù)執(zhí)行多尺度融合來增強高分辨率表示。HRNet 作為另一個極強的 backbone 已廣泛運用在目標(biāo)檢測、語義分割、關(guān)鍵點檢測等任務(wù)中。而將 HRNet 和 CBNet 結(jié)合在一起，可以得到一個更強大的 backbone。

2. Head -- MaskIoU?head?

大多數(shù)實例分割框架都采用實例分類的置信度作為 Mask 質(zhì)量分數(shù)，然而 Mask 質(zhì)量通常與分類分數(shù)相關(guān)性不強。由于背景雜波、遮擋等問題，分類分數(shù)可能較高，但 Mask 質(zhì)量較低。Mask Scoring R-CNN 論文提出了一種實例分割 rescoring 再評分的方法，在 mask head 上新拼接 MaskIoU head，對預(yù)測 Mask 與其 Mask gt 之間的 iou 進行回歸，將預(yù)測的 Mask 與分類分數(shù)相乘，得到新的校準(zhǔn) Mask 分數(shù)作為最終 Mask 置信度。

3. Data Augmentation -- InstaBoost?

InstaBoost 論文提出了一種高效的數(shù)據(jù)增強方法。利用背景像素的冗余性，提出了一種基于位置概率圖的方法來探索基于局部外觀相似度的可行目標(biāo)位置。其中的 Random InstaBoost 和 Map-guided InstaBoost 均可在不改變網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上，顯著提升實例分割的精度。

4. 其他Tricks?

DCN

DCN 論文提出了 deformable convolution 和 deformable RoI pooling 兩種網(wǎng)絡(luò)，都是基于通過學(xué)習(xí)一個額外的偏移（offset），使卷積核對輸入 feature map 的采樣的產(chǎn)生偏移，集中于感興趣的目標(biāo)區(qū)域,產(chǎn)生更好的感受野。?

Sync BN?

目前網(wǎng)絡(luò)的訓(xùn)練大都是多卡訓(xùn)練，大型網(wǎng)絡(luò)結(jié)構(gòu)以及復(fù)雜任務(wù)會使得每張 GPU 負責(zé)的 batch-size 小于等于 1，若不進行 Sync BN，那么 moving mean、moving variance 參數(shù)會產(chǎn)生較大影響，可能造成 BN 層失效。而 Sync BN 訓(xùn)練時利用全局樣本的均值和方差，后向時樣本得到相應(yīng)的全局梯度，訓(xùn)練效果就不再受 GPU ?個數(shù)的影響。

實驗細節(jié)

1. 采用 HTC + DCN + FPN 作為 baseline，逐步進行改進；

2. 將 CBNet-ResNeXt-101 作為新的 backbone；

3. 將原有 mask head 改為 MaskIoU head；

4. 使用 COCO-Pretrained weight；

5. 調(diào)參和多尺度訓(xùn)練和一些測試 tricks；

6. 沒有使用額外數(shù)據(jù)和多模型融合策略。

實驗結(jié)果

這是我們團隊第一次完整訓(xùn)完 HTC +CBNet + DCN + FPN 的模型后，在單尺度（3200*2400）下提交的測試集的結(jié)果，精度已經(jīng)超越了去年的冠軍（Bo_Li），后面主辦方未公開榜單具體成績。本著公平參賽和探索高質(zhì)量實例分割單模型的原則，我們團隊沒有使用額外數(shù)據(jù)和多模型融合策略，甚至最終由于時間和資源有限還沒有采用多尺度測試融合，后幾次交的結(jié)果都是單模型單尺度，但也保持優(yōu)勢到了最后并順利拿下今年的冠軍。

點擊以下標(biāo)題查看更多往期內(nèi)容：?

🔍

現(xiàn)在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學(xué)術(shù)平臺。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號后臺點擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點擊 |?閱讀原文?| 獲取最新論文推薦

總結(jié)

以上是生活随笔為你收集整理的ICCV 2019 COCO Mapillary挑战赛冠军团队技术分享的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：有什么好吃的中国美食？
下一篇：看尽SLAM、ReID和文字识别等技术进