视频实例分割paper(一)《Video Instance Segmentation》
【主要貢獻】
1.視頻實例分割第一次被正式定義和探索
2.創建了第一個大規模視頻實例分割數據集 2.9k視頻 40個目標類別
3.提出一種新的視頻實例分割算法MaskTrack R-CNN,在Mask R-CNN引入一個新的分支,同時檢測,分割和跟蹤視頻中的實例。
4.實時,兩階段
【Introduction】
| 圖像實例分割 | 同時檢測和分割圖像中的對象實例。 |
| 視頻實例分割 | 同時檢測、分割和跟蹤視頻中的對象實例。 |
| Image Instance Segmentation | 將像素分組為不同的語義類,還將它們分組為不同的對象實例。 通常采用兩階段模式,首先使用區域建議網絡RPN生成對象建議,然后使用聚集的ROI特征預測對象的邊界框和masks。 | 圖像級處理 視頻實例分割需在每一幀中分割對象實例,還需確定跨幀對象的對應關系。 |
| VOT(Video Object Tracking) | DBT(Detection by Tracking):同時進行檢測和跟蹤。 DFT(Detection-Free Tracking):在第一幀給定初始邊界框,無需檢測器進行追蹤。 | 只進行檢測,不進行分割 |
| VOD(Video Object Detection) | 檢測視頻中的對象,目標身份信息用來提升檢測算法的魯棒性,但評估指標僅限于每幀檢測。 | 沒有分割和追蹤 |
| VSS(Video Semantic Segmentation) | 在每一幀進行語義分割,采用光流等時間信息來提高語義分割模型的準確性或效率。 | 不需要跨幀顯式匹配對象實例。 |
| VOS(Video Object Segmentation) | 半監督:使用一個mask跟蹤和分割一個給定對象,提取視覺相似性,運動線索和時間一致性,以識別視頻中的同一對象。 無監督:不需要給第一幀mask,不需要區分實例,只需要分割出單個目標即可 | 沒有考慮實例信息 |
【YouTube-VIS】? ? ? ?
????????利用現有的YouTube VOS大型視頻對象分割數據集,建立的數據集YouTube-VIS中有 40 個常見類別標簽作為類別集。然后從40個類中抽取大約2.9k個樣本,目標包括人 動物 車輛? ?有4883個獨立視頻實例 和 131k 高質量masks,可以用于視頻實例分割,視頻語義分割,視頻對象檢測。
【Video Instance Segmentation】
定義:
? ? ? ? 定義一個類別預定義標簽集 set C={1,,,K},K為類別數量,給定一個T幀的視頻,假設有屬于C的N個對象,對于每一個對象i,令表示其類別標簽 ,令表示其二進制分割masks,p∈[1, T],q∈[p, T],表示開始和結束時間,假設視頻實例算法產生H個實例假設,對于每一個假設 j,它需要有一個預測的類別標簽和一個confidence score?,以及一系列的masks?,confidence score 將用于評估指標。
評估方法:
? ? ? ? 平均準確度AP,AP定義為精準召回曲線下的面積,自信度得分用于繪制曲線。AP是多個IOU閾值上的平均值,遵循COCO評估,在50%到95%使用10個IOU閾值,步長為5%。
????????平均召回率AR,定義為給定每個視頻一定數量的分割實例的最大召回率。IOU的計算不同于圖像實例分割,因為每個實例都包含一系列masks,要計算一個ground truth實例 和一個假設實例 之間的IOU。
? ? ? ? ?可以考慮為在 T幀的視頻中,對每一幀的ground truth和假設實例的交集求和 和 并集求和。達到 如成功檢測到對象masks,但未能跨幀跟蹤對象,將獲得一個較低的IOU 的效果。
?【MaskTrack R-CNN】
????????基于Mask R-CNN構建,除了最初用于對象分類,邊界框回歸和masks生成三個分支外,添加第四個分支與外部內存一起,以跨幀跟蹤對象實例。
????????跟蹤分支主要利用外觀相似性,提出了一種簡單有效的方法,將其語義一致性和空間相關性等其他線索相結合,以大幅提高跟蹤精度。
? ? ? ? ?網絡整體分為兩個階段,第一階段為在每幀生成一組對象邊界框。第二階段為添加一個并行的分支Tracking head,其為兩個全連接層,為每個候選框指定一個實例標簽。
? ? ? ? 假設已經有N個實例在之前的幀被定義,新實例將分配新的標識。可比作多類分類問題,有N+1個類,N個已識別的實例,一個新的實例,由數字0表示。將標簽分配給候選框的概率,定義為
? ? ? ? 和分別表示跟蹤分支從 當前幀的候選框的ROI Align提取的特征 和 保存在外部存儲器的從前的幀中N個被定義的實例的特征,兩個全連接層的加入使得Roi提取的特征映射投影到新特征中。交叉熵損失用來約束跟蹤分支,是 ground truth 實例標簽。
????????當一個新的候選框被分配一個實例標簽時,動態地更新外部內存。如果候選框屬于現有實例,將使用新的特征更新存儲在內存中的實例特征,新的特征代表實例的最新狀態。如果為候選對象分配了標簽0,我們會將候選對象的特征插入內存,并將 已識別實例的數量 +1。
????????使用從訓練視頻中隨機抽樣的一對幀。其中一個幀被隨機選取為參考幀,而另一個幀被選取為查詢幀。在參考幀上,不生成任何候選框,只提取特征從它的ground truth實例區域和保存它們到外部內存中。在查詢幀上,第一階段生成候選框,然后只將 positive 候選框與內存中的實例標簽匹配。positive 候選框是指與任何ground truth對象框至少有70%IoU重疊的框。整個網絡都經過了端到端的培訓,四個分支的損失加在一起
?????????對于一個新的候選框 i,讓??分別表示邊界框預測,類別標簽和置信度,數據來自網絡的bounding box branch 和?the classification branch,對于一個被識別的實例帶有標簽n,讓和表示邊界框預測和與內存中保存的特征關聯的類別標簽。然后分配給標簽n到候選框i一個分數為
僅在測試階段使用,對網絡訓練沒有幫助。還有其他可能的方法來整合這些線索,例如,將所有線索作為輸入,訓練一個端到端的網絡,這將作為一個有趣的未來研究。?
? ? ? ? 在給定一個新的測試視頻時,外部內存設置為空,識別的實例數設置為0。方法以在線方式順序處理每一幀。在每一幀,網絡首先生成一組實例假設。非最大值抑制(NMS)(50%重疊閾值)用于減少假設。然后,剩余的假設與來自之前的幀的已確定的實例根據等式 3 進行匹配,方法可以匹配多個假設從一個單獨的幀到一個實例標簽,只保留一個在假設中得分最高的假設,同時丟棄其他假設。
????????處理所有幀后,方法生成一組實例假設集,每個假設包含一個唯一的實例標簽,以及一系列二進制masks、類別標簽和檢測置信度。使用平均檢測置信度作為整個序列的置信度得分,并使用類別標簽的多數投票作為實例的最終類別標簽。
【Main Results】
方法對比結果
樣本結果
? ? ? ? ?(a),(b),(c)和(d)表示正確的預測,而(e)和(f)表示錯誤情況。a 中預測在前兩幀中給出了錯誤的結果,其中熊被預測為“鹿”和“海豹”。視頻級別預測通過所有幀的多數投票來糾正這些錯誤。在視頻 c 中,沖浪板在多幀中被海浪遮擋,算法能夠在沖浪板消失和再次出現后跟蹤沖浪板。在視頻 d 中,展示了一個新對象在中間進入視頻的情況,算法能夠將第二幀中的鹿檢測為新對象,并將其添加到外部存儲器中。在視頻 e 中,在不同的姿勢中有著完全不同的外觀,并且算法無法識別相同的對象并認為它們是兩個不同的對象。在視頻 f 中,多條類似的魚在四處游動,并相互遮擋。算法在第二幀和第三幀中將兩條魚分成一組,并在稍后與對象身份混淆。
【Ablation Study】
不同因素使用結果
????????可視化這三個因素的影響,還對一個特定樣本逐個添加這三個因素來生成預測,前三種變體無法很好地跟蹤“綠色”摩托車的身份,而帶有四種不同提示的變體能夠在整個視頻中跟蹤它。?
????????邊界框IoU和類別一致性對方法的性能最為重要。?
總結
以上是生活随笔為你收集整理的视频实例分割paper(一)《Video Instance Segmentation》的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 手把手教你识别三极管和场效应管引脚
- 下一篇: 虚拟机linux系统硬盘扩容设置