【论文精读】:Global Matching with Overlapping Attention for Optical Flow Estimation
作者:Shiyu Zhao,Long Zhao,Zhixing Zhang,Enyu Zhou,Dimitris Metaxas
來源:CVPR2022?
摘要
1、想要解決什么問題?question
適用于大運動區域和無紋理區域的光流估計。
2、通過什么方法來解決這個問題?method
在直接回歸前引入全局匹配;提出基于patch的重疊注意力機制(POLA);開發匹配優化框架GMFlowNet。
3、作者給出的結果是什么?answer
GMFlowNet的性能遠遠優于RAFT,達到了sota的效果。
引言
1、研究背景
光流估計是計算機視覺中一項關鍵的任務。
2、當前研究進展
基于能量優化法;基于匹配優化法;直接回歸法。
3、存在的問題
基于神經網絡直接回歸的光流估計方法不能明確地捕獲長期運動的相關性,不能有效處理大的運動。
4、靈感來源
基于能量優化的方法中,在優化前引入匹配可以提升性能。
?
相關工作
1、將光流問題描述為連續的全局能量函數優化問題
Black和Anandan[5]設計一種穩固的估計框架來處理由遮擋或顯著亮度變化引起的離群值→[6,35,54]利用正則項或額外的優化項進行改進。(這些方法缺少長期依賴關系且只對小運動有效)→提出從粗到細的策略[6,9],在圖像金字塔的不同層次上處理大小位移。(不能處理在粗層上消失的快速移動的小物體)→引入局部特征匹配[1,3,12,20,49],這些研究認為全局匹配耗時。
2、將光流作為回歸網絡
[42]為每對像素構建4D代價體;Separable Flow[55]為了高效的聚合提出分離的代價體模型。
3、注意力機制
LoFTR[41]采用自注意力和交叉注意力進行特征匹配;Swin Transformer[29]通過滑動窗口進行patch間的信息交互。
研究方法
GMFlowNet由3部分組成:大背景特征提取、全局匹配、基于學習的優化。
1、大背景特征提取
首先用三個卷積層提取出初始特征,再采用Transformer塊來包含長期依賴信息。為了減少計算成本,提出局部注意力模塊POLA。
-
注意力計算
用[45]的transformer計算方式,再加上[34]中提出的相對位置偏置B,得到注意力
-
POLA(Patch-based overlapping attention)
?
POLA將特征劃分為M×M非重疊的patch,處理每個及其相鄰8個的patch,根據[29,45]在注意力塊中采用多頭注意力。給定一個向量化的patch為P,其周圍的3×3paches為S.在注意力中的第i個頭,首先用線性投影將P和S投影到dk維數,投影后為Pi和Si;再用Pi和Si算注意力,得到輸出hi;將hi聚合得到H,把H投射為d維,得到最終結果O
- Swin Transformer有一個固定窗口和一個滑動窗口,而滑動窗口需要2個單獨的注意力塊來進行patch間信息的交換,這會導致信息丟失,不利于匹配。POLA在一個塊內包含patch間的特征,直接進行信息交換,信息損失較小。POLA的優勢在于:消耗的內存更少;可以在現有的深度學習平臺上高效實現;通過patch排列特征可以獲得更好的性能。
2、全局匹配
-
4D代價體計算
根據[26,42],在輸入分辨率的1/8上構建4D代價體。
-
匹配置信度計算
根據[37],用雙softmax算子將代價體轉換為匹配置信度。
-
匹配的選擇和流的生成
根據匹配置信度,算出輸入圖像I1和I2的匹配;定義匹配集;計算粗流。
3、優化
利用RAFT的優化作為本研究的優化,RAFT優化的初始值是0,本研究為f01→2
4、監督
-
匹配損失
-
優化損失
與RAFT相同
-
總損失
實驗
1、定量評估
-
不同位移下的表現
將Sintel訓練集劃分為s10,s10-40,s40+子集,在C+T數據集上訓練GMFlowNet,以RAFT為基準,在子集上評估,評價指標為AEPE。結果表明,GMFlowNet在位移極大的區域上有很大的改進,這說明具有大背景的全局匹配有利于處理較大的運動。
-
跨域評估[26,42,25]
在C+T數據集上訓練,在S和K數據集上評估。結果表明GMFlowNet具有很好的泛化能力,將泛化能力的提高歸功于全局匹配。
-
在標準基準上評估[26,42,25]
2、定性評估
-
可視化估計流
GMFlowNet對局部模糊區域,如無紋理區域提供了更好的預測
-
可視化代價體
GMFlowNet的代價體峰值遠高于RAFT
3、消融實驗
在初始特征提取模塊的選擇;大背景特征提取模塊選擇;注意力塊數量的選擇;重疊類型的選擇;是否使用全局匹配,分別進行實驗,驗證各個模塊的有效性
4、效率
-
全局匹配運行時間
用RAFT和加入全局匹配的RAFT做對比試驗,結果表明加入全局匹配后運行速度稍慢,但性能顯著提高。
-
重疊注意力運行時間
與+Swin相比,GMFlowNet需要0.078秒的額外時間,考慮到性能的改進,這種開銷是可以接受的。
本文的創新點:
?
總結
以上是生活随笔為你收集整理的【论文精读】:Global Matching with Overlapping Attention for Optical Flow Estimation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Allegro 铜皮分割 详解
- 下一篇: 【getchar】在C语言中getcha