當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

视频实例分割paper（一）《Video Instance Segmentation》

發布時間：2024/3/24 编程问答 24 豆豆

生活随笔收集整理的這篇文章主要介紹了视频实例分割paper（一）《Video Instance Segmentation》小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

【主要貢獻】

1.視頻實例分割第一次被正式定義和探索

2.創建了第一個大規模視頻實例分割數據集 2.9k視頻 40個目標類別

3.提出一種新的視頻實例分割算法MaskTrack R-CNN，在Mask R-CNN引入一個新的分支，同時檢測，分割和跟蹤視頻中的實例。

4.實時，兩階段

【Introduction】

圖像實例分割	同時檢測和分割圖像中的對象實例。
視頻實例分割	同時檢測、分割和跟蹤視頻中的對象實例。

與VIS相關的任務定義區別

Image Instance Segmentation	將像素分組為不同的語義類，還將它們分組為不同的對象實例。通常采用兩階段模式，首先使用區域建議網絡RPN生成對象建議，然后使用聚集的ROI特征預測對象的邊界框和masks。	圖像級處理視頻實例分割需在每一幀中分割對象實例，還需確定跨幀對象的對應關系。
VOT(Video Object Tracking)	DBT(Detection by Tracking):同時進行檢測和跟蹤。 DFT(Detection-Free Tracking):在第一幀給定初始邊界框，無需檢測器進行追蹤。	只進行檢測，不進行分割
VOD(Video Object Detection)	檢測視頻中的對象，目標身份信息用來提升檢測算法的魯棒性，但評估指標僅限于每幀檢測。	沒有分割和追蹤
VSS(Video Semantic Segmentation)	在每一幀進行語義分割，采用光流等時間信息來提高語義分割模型的準確性或效率。	不需要跨幀顯式匹配對象實例。
VOS(Video Object Segmentation)	半監督：使用一個mask跟蹤和分割一個給定對象，提取視覺相似性，運動線索和時間一致性，以識別視頻中的同一對象。無監督：不需要給第一幀mask，不需要區分實例，只需要分割出單個目標即可	沒有考慮實例信息

【YouTube-VIS】? ? ? ?

????????利用現有的YouTube VOS大型視頻對象分割數據集，建立的數據集YouTube-VIS中有 40 個常見類別標簽作為類別集。然后從40個類中抽取大約2.9k個樣本，目標包括人動物車輛? ?有4883個獨立視頻實例和 131k 高質量masks，可以用于視頻實例分割，視頻語義分割，視頻對象檢測。

【Video Instance Segmentation】

定義：

? ? ? ? 定義一個類別預定義標簽集 set C={1，，，K}，K為類別數量，給定一個T幀的視頻，假設有屬于C的N個對象，對于每一個對象i，令表示其類別標簽，令表示其二進制分割masks，p∈[1, T]，q∈[p, T]，表示開始和結束時間，假設視頻實例算法產生H個實例假設，對于每一個假設 j，它需要有一個預測的類別標簽和一個confidence score?，以及一系列的masks?，confidence score 將用于評估指標。

評估方法：

? ? ? ? 平均準確度AP，AP定義為精準召回曲線下的面積，自信度得分用于繪制曲線。AP是多個IOU閾值上的平均值，遵循COCO評估，在50%到95%使用10個IOU閾值，步長為5%。

????????平均召回率AR，定義為給定每個視頻一定數量的分割實例的最大召回率。IOU的計算不同于圖像實例分割，因為每個實例都包含一系列masks，要計算一個ground truth實例和一個假設實例之間的IOU。

? ? ? ? ?可以考慮為在 T幀的視頻中，對每一幀的ground truth和假設實例的交集求和和并集求和。達到如成功檢測到對象masks，但未能跨幀跟蹤對象，將獲得一個較低的IOU 的效果。

?【MaskTrack R-CNN】

????????基于Mask R-CNN構建，除了最初用于對象分類，邊界框回歸和masks生成三個分支外，添加第四個分支與外部內存一起，以跨幀跟蹤對象實例。

????????跟蹤分支主要利用外觀相似性，提出了一種簡單有效的方法，將其語義一致性和空間相關性等其他線索相結合，以大幅提高跟蹤精度。

? ? ? ? ?網絡整體分為兩個階段，第一階段為在每幀生成一組對象邊界框。第二階段為添加一個并行的分支Tracking head，其為兩個全連接層，為每個候選框指定一個實例標簽。

? ? ? ? 假設已經有N個實例在之前的幀被定義，新實例將分配新的標識。可比作多類分類問題，有N+1個類，N個已識別的實例，一個新的實例，由數字0表示。將標簽分配給候選框的概率，定義為

? ? ? ? 和分別表示跟蹤分支從當前幀的候選框的ROI Align提取的特征和保存在外部存儲器的從前的幀中N個被定義的實例的特征，兩個全連接層的加入使得Roi提取的特征映射投影到新特征中。交叉熵損失用來約束跟蹤分支，是 ground truth 實例標簽。

????????當一個新的候選框被分配一個實例標簽時，動態地更新外部內存。如果候選框屬于現有實例，將使用新的特征更新存儲在內存中的實例特征，新的特征代表實例的最新狀態。如果為候選對象分配了標簽0，我們會將候選對象的特征插入內存，并將已識別實例的數量 +1。

????????使用從訓練視頻中隨機抽樣的一對幀。其中一個幀被隨機選取為參考幀，而另一個幀被選取為查詢幀。在參考幀上，不生成任何候選框，只提取特征從它的ground truth實例區域和保存它們到外部內存中。在查詢幀上，第一階段生成候選框，然后只將 positive 候選框與內存中的實例標簽匹配。positive 候選框是指與任何ground truth對象框至少有70%IoU重疊的框。整個網絡都經過了端到端的培訓，四個分支的損失加在一起

?????????對于一個新的候選框 i，讓??分別表示邊界框預測，類別標簽和置信度，數據來自網絡的bounding box branch 和?the classification branch，對于一個被識別的實例帶有標簽n，讓和表示邊界框預測和與內存中保存的特征關聯的類別標簽。然后分配給標簽n到候選框i一個分數為

僅在測試階段使用，對網絡訓練沒有幫助。還有其他可能的方法來整合這些線索，例如，將所有線索作為輸入，訓練一個端到端的網絡，這將作為一個有趣的未來研究。?

? ? ? ? 在給定一個新的測試視頻時，外部內存設置為空，識別的實例數設置為0。方法以在線方式順序處理每一幀。在每一幀，網絡首先生成一組實例假設。非最大值抑制（NMS）（50%重疊閾值）用于減少假設。然后，剩余的假設與來自之前的幀的已確定的實例根據等式 3 進行匹配，方法可以匹配多個假設從一個單獨的幀到一個實例標簽，只保留一個在假設中得分最高的假設，同時丟棄其他假設。

????????處理所有幀后，方法生成一組實例假設集，每個假設包含一個唯一的實例標簽，以及一系列二進制masks、類別標簽和檢測置信度。使用平均檢測置信度作為整個序列的置信度得分，并使用類別標簽的多數投票作為實例的最終類別標簽。

【Main Results】

方法對比結果

樣本結果

? ? ? ? ?（a），（b），（c）和（d）表示正確的預測，而（e）和（f）表示錯誤情況。a 中預測在前兩幀中給出了錯誤的結果，其中熊被預測為“鹿”和“海豹”。視頻級別預測通過所有幀的多數投票來糾正這些錯誤。在視頻 c 中，沖浪板在多幀中被海浪遮擋，算法能夠在沖浪板消失和再次出現后跟蹤沖浪板。在視頻 d 中，展示了一個新對象在中間進入視頻的情況，算法能夠將第二幀中的鹿檢測為新對象，并將其添加到外部存儲器中。在視頻 e 中，在不同的姿勢中有著完全不同的外觀，并且算法無法識別相同的對象并認為它們是兩個不同的對象。在視頻 f 中，多條類似的魚在四處游動，并相互遮擋。算法在第二幀和第三幀中將兩條魚分成一組，并在稍后與對象身份混淆。

【Ablation Study】

不同因素使用結果

????????可視化這三個因素的影響，還對一個特定樣本逐個添加這三個因素來生成預測，前三種變體無法很好地跟蹤“綠色”摩托車的身份，而帶有四種不同提示的變體能夠在整個視頻中跟蹤它。?

????????邊界框IoU和類別一致性對方法的性能最為重要。?

總結

以上是生活随笔為你收集整理的视频实例分割paper（一）《Video Instance Segmentation》的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：手把手教你识别三极管和场效应管引脚
下一篇：虚拟机linux系统硬盘扩容设置

3atv精品不卡视频,97人人超碰国产精品最新,中文字幕av一区二区三区人妻少妇,久久久精品波多野结衣,日韩一区二区三区精品

编程问答

视频实例分割paper（一）《Video Instance Segmentation》

總結