ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享
?PaperWeekly 原創(chuàng) ·?作者|羅志鵬
單位|深蘭北京AI研發(fā)中心
研究方向|物體檢測
ACM MM(ACM International Conference on Multimedia, 國際多媒體會議)是 ACM 多媒體領域的頂級會議,涵蓋多個新興領域,致力于推動多媒體的研究和應用,包括但不限于圖像,文本,音頻,語音,音樂,傳感器和社交數(shù)據(jù)。
自 1993 年首次召開以來,ACM MM 每年召開一次,ACM MM 2020 會議于 10 月 12 日至 16 日在美國西雅圖舉辦。來自深蘭科技北京 AI 研發(fā)中心的 DeepBlueAI ?團隊斬獲了視頻目標檢測賽道的冠軍,我們可以通過這篇文章來了解一下 DeepBlueAI 團隊的解決方案。
?
?
賽題介紹
盡管計算機視覺的最新進展有效地提高了多媒體系統(tǒng)的性能,但仍然不能明確回答一個核心問題:機器是否理解視頻中發(fā)生的事情,分析結果是否可以被人類用戶解釋?為了推動上述問題的研究,新加坡國立大學推出 VidOR 數(shù)據(jù)集。
該數(shù)據(jù)集包含 10,000 個從 YFCC100M [2] 數(shù)據(jù)集中篩選的視頻(98.6小時),數(shù)據(jù)集包含 80 個類別的目標(例如,成人,狗,玩具)和 50 個類別的關系(例如,旁邊,觀看,保持)標注。同時舉辦 Video Relation Understanding [1] 競賽,本次競賽同時是 ACM Multimedia 2020 Grand Challenge 中的競賽任務。
視頻目標檢測(Video Relation Understanding: Video Object Detection)作為基于 VidOR 數(shù)據(jù)集的競賽任務。要求參與者開發(fā)魯棒的目標檢測器,該檢測器需要不僅可以在每個視頻幀中使用檢測框定位目標,還需要將指示同一目標實體的檢測框鏈接到軌跡中。
這將幫助機器在視頻級別理解目標實體的身份和動態(tài),還可以使需要細粒度視頻理解的許多應用程序受益。
評測指標
在評測指標中包含目標檢測與軌跡生成兩部分。在檢測部分,主辦方采用、、 指標。在軌跡生成部分主辦方采用 mAP 的評價指標,定義如下:
其中 分別代表預測軌跡與真實標注軌跡信息。當預測軌跡與真實軌跡時間重疊部分大于 0.5 時被判定為真陽性預測,然后再分別采用三種不同的目標檢測 AP 指標評測預測軌跡中幀級別的檢測質量,并將三種指標的均值作為最終的得分。
賽題難點
1. 檢測器需要重新識別視頻中消失重現(xiàn)的目標。
2. 攝像機可以自由移動,存在劇烈抖動的問題。
3. 視頻分辨率較低,存在照明、模糊、物體外形變化的問題。
4. 需要識別的目標類別多及目標類別不均衡的問題。
5. 很多標注信息非人工標注,導致標注信息不準確。
?
解決方案
經(jīng)過任務分析,我們最終采用了目標檢測+多目標跟蹤的解決思路。包含檢測器設計,深度度量學習算法設計與多目標跟蹤算法實現(xiàn)三部分。
Detector:
在檢測部分,我們采用 Cascade Rcnn [3] 作為我們的 baseline,并設計添加 FPN [5] 結構與采用 Guided anchoring [6] 用于生成高質量的 Anchor,為了進一步提升性能,我們在 backbone 中引入可變性卷積 [4]。
?
為了訓練檢測器,我們對比在所有視頻和只在有人工標注信息的視頻中抽取幀制作訓練集與驗證集。實驗結果如下:
數(shù)據(jù)集 | mAP(%) | ||
所有視頻 | 25.9 | ||
人工標注視頻 | 27.3 |
?
Metric learning:
為了解決遮擋,消失重現(xiàn)時再識別的問題。我們基于 Ranked list [7] 損失設計了新的 Metric learning 損失函數(shù)以保證較好的類間區(qū)分能力及特征穩(wěn)定性。主要改進點為:
1. ?圖像對約束中為負樣本對設置優(yōu)化目標為歸一化向量之間的最大距離。
2. ?在負樣本損失中為負樣本根據(jù)距離值添加指數(shù)權重,以利用更多困難負樣本信息。
最后將 SoftMax 損失與設計的 Metric learning 損失結合作為最終的損失函數(shù)。
為了訓練深度度量學習模型,我們從每個目標軌跡中采樣 16 個樣本圖像,并按照 7:2:1的比例劃分 Train, Gallery, Query 數(shù)據(jù)集。然后分別采用 ResNet50 與 IBNNet-A-50 [8] 進行實驗。為了證明所提出損失的有效性,同時在行人重識別數(shù)據(jù)集上與 SoftMax 及 Triplet loss 進行對比。實驗表明,提出的損失函數(shù)可以取得較好的表現(xiàn)。
?
Multi-Class Multi-Object Tracking:
為了得到每個目標的軌跡,以實現(xiàn)視頻目標檢測任務。基于設計的檢測器及Metric learning損失訓練的再識別模型,我們設計了二階段的多目標跟蹤算法。
第一階段:結合卡爾曼運動模型及再識別時目標的外觀相似性,獲取每個目標所形成的一些軌跡段,并采用線性插值填補缺失的檢測。
第二階段:根據(jù)每個軌跡段的類別,不同軌跡段之間時間重疊,外觀相似性等信息進行軌跡段合并以得到每個目標的完整軌跡。
總結
在本次比賽中,我們對低分辨率,復雜場景下的視頻目標檢測問題進行了探索,設計了一個簡單的目標檢測,外觀特征提取,多類別、多目標跟蹤的系統(tǒng)。在視頻目標檢測任務中取得了相對較好的表現(xiàn)。
?
參考文獻
[1] Video Relation Understanding - ACMM2020 Grand Challenge
[2] Thomee B , Shamma D A , Friedland G , et al. YFCC100M: The New Data in Multimedia Research[J]. 2015.
[3] Zhaowei Cai and Nuno Vasconcelos. 2017. Cascade R-CNN: Delving into High Quality Object Detection. (2017).
[4] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. 2017. Deformable Convolutional Networks. (2017).
[5] Tsung Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, and Serge Belongie. 2016. Feature Pyramid Networks for Object Detection. (2016).
[6] Jiaqi Wang, Kai Chen, Shuo Yang, Chen Change Loy, and Dahua Lin. 2019. Region Proposal by Guided Anchoring. (2019).
[7] Wang, Xinshao, et al. "Ranked list loss for deep metric learning." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.
[8] Pan, Xingang, et al. "Two at once: Enhancing learning and generalization capacities via ibn-net." Proceedings of the European Conference on Computer Vision (ECCV). 2018.
[9] F. Schroff, D. Kalenichenko, and J. Philbin. Facenet: A unified embedding for face recognition and clustering. In CVPR, 2015.
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質內容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的ACM MM 2020视频目标检测挑战赛冠军DeepBlueAI团队技术分享的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 城市商业银行有哪些
- 下一篇: 会议交流 - CCKS2020 | 20