Salient Image Matting
                                                            生活随笔
收集整理的這篇文章主要介紹了
                                Salient Image Matting
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.                        
                                Salient Image Matting
論文鏈接:https://arxiv.org/abs/2103.12337
發表出處:2021 CVPR
一.背景
在現實世界的摳圖中,前景對象可以出現在與訓練數據非常不同的設置中,而且圖像內容往往會有很大的變化,因此捕獲圖像中的高級語義特征始終需要在大量數據上訓練模型。目前,大多數的trimap-free方法很大程度上依賴于昂貴的alpha注釋來學習這樣的變化,但是注釋是昂貴且費時的,所以大多數當前的trimap-free方法要么只關注人類,要么在處理看不見的對象類方面也有困難。
所以為了處理圖像中大量的語義多樣性,通常仍然需要使用trimap,因為它為摳圖過程提供了對象語義方面的重要指導
二.內容
針對上面的問題,文章提出了一個框架,該框架可以利用廉價的低質量注釋來學習健壯的語義特征,并利用一部分高質量注釋來學習低級特征,能夠為大范圍的前景對象以及前景類出現在與來自RGB輸入的訓練數據不同的上下文的情況生成準確的alpha mattes
該框架被稱為SIM(Salient Image Matting),它使用一種新穎的Salient Trimap Network,能夠產生圖像中最顯著對象的trimap。Salient Trimap Network(STN)基于粗標注生成的trimap和簡單的trimap生成方案進行訓練。這種訓練允許trimap網絡精確地產生各種前景的trimap,并且對自然圖像中的大的語義變化是魯棒的。
然后,STN的輸出被饋送到一個摳圖網絡,用于細化低層語義。
通過decouple這些特征的學習,能夠為需要語義信息的摳圖網絡提供指導,而無需用戶為任意前景對象生成trimap。
此外,對于圖像摳圖任務,本文提出了一種新的結構,該結構比用于摳圖的普通編碼器-解碼器結構具有更好的多尺度特征表示,以更有效地學習低級特征。
三.方法
1.網絡概述
為了分別捕捉高層次和低層次的特征,本文在提出的特征模型框架中使用了兩個子網絡,一個Salient Trimap Network (STN)和一個摳圖網絡。這種分離允許SIM使用大量的粗注釋數據來訓練語義特征。STN產生分別代表背景、未知區域和前景的三通道輸出。摳圖網絡隨后從STN中獲取intrinsic trimap以及原始輸入,并預測一個單通道alpha matte image。然后,融合兩個子網絡的輸出,以產生最終的alpha matte。SIM的工作流程如圖所示。同時,本文還引入了一個多尺度塊:DensePN,它作用于來自編碼器的特征金字塔。
2.自適應trimap生成方案
為了訓練STN,本文需要ground truths trimap,由于成本高昂,本文收集粗糙注釋的segmentation masks,然后構造一個方案,以最好地從這些粗糙masks中生成trimaps。
由于收集的數量較大,所以圖像的大小和前景對象的大小有很大的差異并且前景和背景區域的顏色有時也非常相似,所以常見的trimap生成方案(如腐蝕膨脹和基于顏色信息的方案)會導致不準確的不確定區域。
為此,本文開發了一個簡單但健壯的trimap生成方案,該方案考慮了對象的大小和對象的特征,如頭發和毛發,以從這種粗糙的Mask生成trimap。為此,本文將粗糙Mask的邊界像素分為三類:毛發、毛發和實體,然后分別進行擴張。分類如下:
(1)對于人類的頭發等,在圖像上先應用最先進的人類解析網絡得到頭發和身體區域的mask。mask然后被轉換為只有2類:頭發和非頭發
(2)在有動物或毛絨玩具的圖像中,所有的邊界像素都被標記為皮毛像素
(3)如果一個像素沒有被檢測為毛發或皮毛,那么它被標記為一個實體像素
在粗糙圖像masks上定義一個度量D作為顯著對象大小的度量。hair, fur and solid pixels分別放大D的3.5%、2.5%和1.5%。
生成的效果如下圖所示:
3.Salient Trimap Network
用于alpha matting的圖像往往含有很大的語義多樣性,所以本文利用Salient Trimap Network (STN)來預測最顯著前景區域的trimap,而不是依賴于外部輸入。
STN的輸出是3通道分類輸出,是絕對背景、未知區域和絕對前景區域的概率估計,STN可以基于任何顯著性對象檢測架構。
本文選擇使用基于U2Net 的體系結構,因為它能夠有效地捕捉準確的語義。U2Net 的nested U-structure和residual U-blocks使得網絡能夠在不顯著降低feature map分辨率的情況下獲得多尺度特征,這有助于STN更好地對前景、背景和未知區域之間的語義進行分類。
4.摳圖網絡
(1)網絡設計
編碼器-解碼器架構只有一個自下而上的路徑,限制了來自豐富的低層特征和深層語義特征的信息流。所以本文創建了一個可重復的金字塔層,稱為DensePN,它具有并行的多分辨率流,并豐富了其他多分辨率特性。
如圖所示,每個流都是一個DenseBlock,后面是融合層,融合層使所有流的都達到相同的分辨率,并執行1×1卷積。
重復卷積和融合塊允許在每個分辨率級別豐富的多尺度特征。最后,所有的流在最終的prediction head被合并以預測alpha matte。本文使用ResNet34 作為編碼器。
(2)融合
摳圖網絡僅在由intrinsic trimap建議的不確定區域中產生具有精確值的alpha matte,所以利用以下公式將STN和摳圖模型的輸出進行融合:
其中,F、B和U表示STN和預測的前景、背景和未知區域概率圖,αm表示摳圖網絡輸出。
5.損失函數
(1)STN Loss
使用每個像素上的標準交叉熵損耗
(2)Matting Loss
應用alpha預測損失和合成損失的組合,還應用拉普拉斯損失來進一步提高網絡的性能:
(3)Joint Loss
其中FS是groundtruth foreground map,而1^是指示函數。這種軟L1約束允許聯合網絡針對兩個模型之間微妙的低層次和高層次特征融合進行優化,并且還防止STN忘記其語義豐富的特征。
四.實驗結果
1.與基于trimap方法的比較
2.與自動摳圖方法的比較
3.視覺效果對比
總結
以上是生活随笔為你收集整理的Salient Image Matting的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: Linpack安装
 - 下一篇: qtabwidget右键菜单_Qt5 添