ICCV 2021 | 腾讯、华中科大提出QueryInst,开启基于Query的实例分割新思路
?作者?|?機器之心編輯部
來源?|?機器之心
實例分割(Instance Segmentation)任務有著廣闊的應用和發展前景。來自騰訊 PCG 應用研究中心 (ARC) 和華中科技大學的研究者們通過充分挖掘并利用 Query 在端到端實例分割任務中與實例存在一一對應的特性,提出基于 Query 的實例分割新方法,在速度和精度上均超過現有算法。
在今年的計算機視覺頂級會議 ICCV 2021 上,騰訊 PCG 應用研究中心(ARC)與華中科技大學電信學院人工智能研究所聯合提出業內領先的端到端實例分割算法 QueryInst。實例分割是視覺感知的基礎問題,QueryInst 算法充分利用了 Query 與實例之間的一一對應關系,搭建了簡潔且高效的實例分割模型。該算法在實例分割基線數據集 COCO、Cityscapes 以及視頻實例分割基線數據集 YouTube-VIS 上進行了驗證,在精度和速度方面都全面超越之前的 SOTA 方法,充分展示了 Query 機制在物體分割方向的超強實力。
論文地址:
https://arxiv.org/abs/2105.01928
項目地址:
https://github.com/hustvl/QueryInst
任務簡介
實例分割(Instance Segmentation)任務是計算機視覺的經典任務之一。與目標檢測、語義分割不同,實例分割任務聚焦于細粒度的圖像理解,旨在對圖片中感興趣類別的實例進行像素級別的前景掩碼預測。通過實例分割算法,可以獲得圖像的離散語義標簽,從而進一步輔助下游的圖像感知和圖像生成。
在計算機視覺的發展長河中涌現了許多經典的實例分割算法。Mask R-CNN 基于 Faster R-CNN 網絡,通過 RoIAlign 操作以及新引入的 Mask Head 完成掩碼的預測。Cascade Mask R-CNN 通過結合 Cascade R-CNN 以及 Mask R-CNN,以一種級聯的形式來產生更加準確、精細的掩碼預測。HTC (Hybrid Task Cascade)在對 Cascade Mask R-CNN 的結構進行仔細分析后,通過調整網絡的級聯方式,并引入 Mask Information Flow 以及語義輔助分支來進一步增強實例分割的效果,在相當長的一段時間內,HTC 占據著實例分割領域的領先地位。
DETR 提出基于 Query(Query based)的端到端物體檢測算法,該方法擺脫了之前物體預測總是基于固定空間位置的錨框 / 錨點(anchor based/keypoint based),轉而依賴于可學習的向量進行預測。訓練過程中,預測的結果與實際的真實值之間進行一一匹配,匹配的結果確定了預測損失的計算。這種一一匹配的方式有效地避免了網絡產生重復冗余的預測,從而在推理階段中可以不依賴于非極大值抑制等后處理算法,實現了端到端的目標檢測。后續的 Deformable DETR、Sparse R-CNN 等工作進一步提高了基于 Query 的端到端物體檢測算法的收斂速度以及精度。與之前基于錨框 / 錨點(anchor based/keypoint based)的方法相比,基于 Query 的方法已經取得了可媲美的結果。
在基于 Query 的目標檢測算法快速發展的同時,如何拓展這種目標檢測算法,使之有效的拓展到實例分割領域即為該論文探討的問題。該論文通過大量的分析和實驗論證說明:構建有效的基于 Query 的端到端實例分割算法不能簡單地參考之前實例分割算法的思路,充分利用 Query 預測值與真實值之間一一對應的關系是提高算法模型精度和效率的關鍵。
端到端實例分割
參照 Mask R-CNN 與 Cascade Mask R-CNN 的設計思路,該論文首先提出了采用上述與之類似的簡單掩碼分割頭(Vanilla Mask Head)的網絡設計。在這種設計下,模型的掩碼預測完全依賴于邊界框(bounding box)和骨干網絡提取的特征,通過 RoIAlign 操作進行局部特征提取之后,一個由若干卷積層組成的掩碼預測頭負責預測該區域的前景掩碼。
在實驗過程中,研究者發現直接使用上述簡單的實例分割框架并不能得到很好的效果。原因之一在于上述框架并沒有很好地利用 Query 所包含的實例特征。于是研究者們在上述結構的基礎上通過引入多頭注意力機制(Multi Head Self Attention)以及動態卷積(Dynamic Convolution)來解決該問題。
上圖展示了該論文所提出的算法 QueryInst 的結構圖。可以看出,Query 在檢測和分割中依次與特征進行交互,使得 Query 在多任務(檢測、分割、分類)中可以提取到不同層級的特征。其次,在不斷的級聯中,Query 在不同層級中也構建了有效的信息流動。這種跨任務、跨層級的信息流動有效地提高了檢測、分類以及分割任務的表現。
端到端視頻實例分割
視頻實例分割將實例分割任務從圖像域拓展到視頻域。為了驗證所提算法在不同任務場景下的魯棒性,研究者們進一步在 QueryInst 的基礎上,通過增加動態的跟蹤任務頭以及跟蹤策略,提出了面向視頻實例分割場景的 QueryTrack。
如上圖所示,QueryTrack 遵循著被廣泛采用的「先檢測后跟蹤」的范式,通過在 QueryInst 框架上添加動態的跟蹤任務頭來預測實例在連續視頻幀中的身份信息,以此來完成時間域上的視頻實例關聯。
實驗結果
為了驗證所提出的 QueryInst 在實例分割任務上的有效性,該論文選取了 COCO 實例分割數據集、Cityscapes 實例分割數據集以及 YouTube-VIS 視頻實例分割數據集進行驗證。COCO 實例分割數據集是實例分割領域使用最廣泛的基線數據集之一,Cityscapes 數據集是面向自動駕駛場景下的實例分割數據集。YouTube-VIS 是視頻實例分割領域中廣泛采用的大規模基線數據集。
上表展示了 QueryInst 在 COCO 測試集上的實例分割表現。從上述結果中可以看出,QueryInst 在大量不同數據增強的實驗中均表現出了最佳的性能,超過了當前實例分割領域中廣泛使用的 Mask R-CNN、Cascade Mask R-CNN 以及 HTC 等算法。在 Swin Transformer 的加持下,QueryInst 可以達到驗證集 48.9,測試集 49.1 的 Mask AP。
上表為 QueryInst 在 Cityscapes 測試集上的實例分割結果,在相同的骨干網絡下,QueryInst 在 Cityscapes 數據集上也超越了 Mask R-CNN、UPSNet、CondInst 等一眾模型,取得了較好的實例分割效果。
為了進一步探究 Query 在實例分割過程中所扮演的角色,研究者對掩碼動態卷積前后的特征進行了可視化。如下圖所示,可以觀察到,在與 Query 進行動態卷積交互之后,實例的前景特征得到了相當程度的強化,與背景特征之間產生了很好的區分度,這充分地說明了 Query 在算法中的作用。
在 2021 年 YouTube-VIS 視頻實例分割比賽中,基于 QueryInst 的視頻實例分割模型 QueryTrack 在 YouTube-VIS 數據集上取得了驗證集 54.3 AP,測試集 52.3 AP 的成績,斬獲比賽亞軍。相較于冠軍方法采用了額外數據集輔助訓練、多模型聯合預測等一系列訓練、推理技巧取得測試集 54.1 AP的成績,該研究的方法僅采用了單模型、單尺度且無額外數據集的訓練、推理策略。該比賽吸引了包括 Facebook AI,百度,UIUC 和 CUHK 等著名公司及高校。
研究者認為,QueryInst 充分利用了 Query 與實例一對一的特性,其高精度、高速度的特性將會保證其在計算機視覺的多種下游任務中獲得廣泛的應用。
研究團隊
該方法是由騰訊 PCG 應用研究中心(ARC)和華中科技大學電信學院人工智能研究所的研究者提出的。應用研究中心被稱為騰訊 PCG 的「偵察兵」、「特種兵」,站在騰訊探索挑戰智能媒體相關前沿技術的第一線。華中科技大學電信學院人工智能研究所長期致力于目標檢測、分割等計算機視覺核心問題的研究,并服務于國家和企業的重大需求。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的ICCV 2021 | 腾讯、华中科大提出QueryInst,开启基于Query的实例分割新思路的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 深度强化学习落地指南:弥合DRL算法原理
- 下一篇: 蚂蚁借呗怎么提额