目标检测一卷到底之后,终于又有人给它挖了个新坑|CVPR2021 Oral
目標檢測技術雖然已經發展得較為成熟,但是如果要說讓計算機能夠像人眼一樣進行識別,有個特征一直沒有被解鎖——識別現實世界中的所有物體,并且能夠逐漸學習認知新的未知物體。
來自澳大利亞國立大學和瑞典林雪平?大學的學者發現并解決了這個問題。他們提出了一種新穎的方案:Open World Object Detector,簡稱ORE,即開放世界的目標檢測。目前,作者已經將這項技術進行了開源。
ORE主要包含兩個任務:
檢測效果如下所示:
上圖(左)是ORE在學習后產生的結果。由于尚未引入“蘋果“、”橘子“這些種類,ORE將其識別并正確標記為“未知“。而上圖(右)是學習了新的種類的ORE,它成功的識別了新的目標種類,并將仍未引入的種類標記為“未知”。
在上圖中,ORE再次展示了它作為開放世界檢測器的真正特征: ORE在經過訓練后成功識別左圖的未知目標,即在右圖中識別了牙刷和書籍等新引入的類別,同時沒有忘記如何識別已知的目標。
下面,我們將更詳細的介紹這篇論文。
提出背景
深度學習加快了目標檢測的研究進展,但目前現有方法都在一個強假設下進行:所有要被檢測的種類都需要在訓練階段提供。那么當我們放寬這一假設時,就會出現兩個具有挑戰性的問題:(1)測試圖像可能包含未知類的目標,這些未知目標也需要被歸類;(2)當被識別為未知類別的標簽已經可用時,模型需要進一步學習新的類別。而與開放世界存在的無數類別相比,在Pascal VOC和MS-COCO等標準視覺數據集中標注的類數非常少。因此,將未知目標識別為未知類別需要強大的概括性。從下圖可以看出,開放世界的目標檢測尚未得到解決。
論文方法
開放世界的目標檢測
首先對“開放世界的目標檢測”進行定義。在任何時間 ttt ,我們都將已知的目標類別集合視為 Kt={1,2,..,C}?N+\mathcal{K}^{t}=\{1,2, . ., \mathrm{C}\} \subset \mathbb{N}^{+}Kt={1,2,..,C}?N+ ,其中 N+\mathbb{N}^{+}N+ 表示正整數集合。
為了更真實的模擬現實世界,作者假設存在一組未知類別 U={C+1,…}\mathcal{U}=\{\mathbf{C}+1, \ldots\}U={C+1,…} 。
假定已知目標類別 Kt\mathcal{K}_{t}Kt? 在數據集 Dt={Xt,Yt}\mathcal{D}^{t}=\left\{\mathbf{X}^{t}, \mathbf{Y}^{t}\right\}Dt={Xt,Yt} 中被標記,其中 X\mathbf{X}X 和 Y\mathbf{Y}Y 分別表示輸入圖像和標簽。
輸入圖像集包括 MMM 個訓練圖像 Xt={I1,…,IM}\mathbf{X}^{t}=\left\{\boldsymbol{I}_{1}, \ldots, \boldsymbol{I}_{M}\right\}Xt={I1?,…,IM?} ,每個圖像的相關對象標簽形成標簽集 Yt={Y1,…,YM}\mathbf{Y}^{t}=\left\{\boldsymbol{Y}_{1}, \ldots, \boldsymbol{Y}_{M}\right\}Yt={Y1?,…,YM?} 。
每個 Yi={y1,y2,..,yK}\boldsymbol{Y}_{i}=\left\{\boldsymbol{y}_{1}, \boldsymbol{y}_{2}, . ., \boldsymbol{y}_{K}\right\}Yi?={y1?,y2?,..,yK?} 編碼一組帶有其類別標簽和位置的 KKK 個對象實例,即 yk=[lk,xk,yk,wk,hk]\boldsymbol{y}_{k}=\left[l_{k}, x_{k}, y_{k}, w_{k}, h_{k}\right]yk?=[lk?,xk?,yk?,wk?,hk?], lk∈Ktl_{k} \in \mathcal{K}^{t}lk?∈Kt ,其中 xk,yk,wk,hkx_{k}, y_{k}, w_{k}, h_{k}xk?,yk?,wk?,hk? 和 xk,yk,wk,hkx_k , y_k , w_k , h_kxk?,yk?,wk?,hk? 分別表示邊界框的中心坐標,寬度和高度。
開放世界的目標檢測設置考慮了目標檢測模型 MC\mathcal{M}_{\mathrm{C}}MC? ,該模型經過訓練可以檢測所有先前遇到的 C\mathrm{C}C 對象類。重要的是,模型 MC\mathcal{M}_{\mathrm{C}}MC? 能識別屬于任意已知 CCC 類的測試實例,并能通過將其分類為未知類來識別新的或不可見的類別實例。未知的實例集 Ut\mathbf{U}^{t}Ut 將反饋給可以定義 nnn 個新類別的使用者,并為此提供訓練實例。因而逐漸添加 nnn 個新類別并進行迭代,以生成新模型 MC+n\mathcal{M}_{\mathrm{C}+n}MC+n? 。
ORE:Open World Object Detecor
成功的開放世界目標檢測方法應能夠在沒有明確監督的情況下進行未知實例的識別,并能將識別出的新實例標簽提供給模型進行知識升級,同時不會忘記之前的實例,且無需從頭開始重新訓練。本文提出的ORE便能一并應對這兩個挑戰。
對于每個已知類 i∈Kti \in \mathcal{K}^{t}i∈Kt ,保留原型向量 pi\boldsymbol{p}_{i}pi?. 。令 fc∈Rd\boldsymbol{f}_{c} \in \mathbb{R}^ze8trgl8bvbqfc?∈Rd 是由目標檢測器中間層對 ccc 類對象生成的特征向量。我們將對比損失定義如下:
Lcont?(fc)=∑i=0C?(fc,pi),where?\mathcal{L}_{\text {cont }}\left(\boldsymbol{f}_{c}\right)=\sum_{i=0}^{\mathrm{C}} \ell\left(\boldsymbol{f}_{c}, \boldsymbol{p}_{i}\right), \text { where } Lcont??(fc?)=i=0∑C??(fc?,pi?),?where?
?(fc,pi)={D(fc,pi)i=cmax?{0,Δ?D(fc,pi)}otherwise?\ell\left(\boldsymbol{f}_{c}, \boldsymbol{p}_{i}\right)=\left\{\begin{array}{ll} \mathcal{D}\left(\boldsymbol{f}_{c}, \boldsymbol{p}_{i}\right) & i=c \\ \max \left\{0, \Delta-\mathcal{D}\left(\boldsymbol{f}_{c}, \boldsymbol{p}_{i}\right)\right\} & \text { otherwise } \end{array}\right. ?(fc?,pi?)={D(fc?,pi?)max{0,Δ?D(fc?,pi?)}?i=c?otherwise??
在用上述等式計算聚類損失時,我們將輸入特征向量 fc\boldsymbol{f}_{c}fc? 與原型向量進行對比。這需要用未知的地面真實等級標記未知的對象實例,而在已標注的大規模數據集中重新標注每個圖像的所有實例顯然是不切實際的。作為替代,作者建議自動將圖像中的一些對象標記為潛在的未知對象。為此,作者基于RPN(區域候選網絡)與類無關的事實,將那些具有較高客觀性評分但不與ground-truth對象重疊的propasal標記為潛在的未知對象。
給定潛在空間 FFF 中的特征 (f∈F)(f \in F)(f∈F) 及其對應的標簽 l∈L,l \in L,l∈L, ,我們試圖學習一個能量函數 E(F,L)E(F, L)E(F,L) 。使用亥姆霍茲自由能公式將 LLL 中所有值的能量組合在一起:
E(f)=?Tlog?∫l′exp?(?E(f,l′)T)E(\boldsymbol{f})=-T \log \int_{l^{\prime}} \exp \left(-\frac{E\left(\boldsymbol{f}, l^{\prime}\right)}{T}\right) E(f)=?Tlog∫l′?exp(?TE(f,l′)?)
其中T是溫度參數。 在softmax層之后的輸出與類特定能量值的吉布斯分布之間存在簡單關聯:
p(l∣f)=exp?(gl(f)T)∑i=1Cexp?(gi(f)T)=exp?(?E(f,l)T)exp?(?E(f)T)p(l \mid \boldsymbol{f})=\frac{\exp \left(\frac{g_{l}(\boldsymbol{f})}{T}\right)}{\sum_{i=1}^{\mathrm{C}} \exp \left(\frac{g_{i}(\boldsymbol{f})}{T}\right)}=\frac{\exp \left(-\frac{E(\boldsymbol{f}, l)}{T}\right)}{\exp \left(-\frac{E(\boldsymbol{f})}{T}\right)} p(l∣f)=∑i=1C?exp(Tgi?(f)?)exp(Tgl?(f)?)?=exp(?TE(f)?)exp(?TE(f,l)?)?
利用這種對應關系,將分類模型的自由能定義如下:
E(f;g)=?Tlog?∑i=1Cexp?(gi(f)T)E(\boldsymbol{f} ; g)=-T \log \sum_{i=1}^{\mathrm{C}} \exp \left(\frac{g_{i}(\boldsymbol{f})}{T}\right) E(f;g)=?Tlogi=1∑C?exp(Tgi?(f)?)
實驗與結果
作者提出了一項全面的評估標準來探討開放世界的目標檢測器的性能,包含對未知對象的識別,檢測已知類別,以及對未知物提供以標簽時逐漸學習新類別。下表顯示了開放世界評估標準中的任務組成:
下表展示了ORE在開放世界目標檢測中的表現。 WI和A-OSE量化評估了ORE如何處理未知類(灰色背景),而mAP衡量了它如何很好地檢測已知類(白色背景)。可以看到在所有指標上,ORE都始終優于基于Faster R-CNN的baseline。
同時,作者在三種不同的設置下將ORE與最新的增量式目標檢測器進行了比較。 如下表所示,ORE在所有設置中都表現十分出色。
論文傳遞門
論文鏈接:
https://arxiv.org/abs/2103.02603
代碼:
https://github.com/JosephKJ/OWOD
總結
以上是生活随笔為你收集整理的目标检测一卷到底之后,终于又有人给它挖了个新坑|CVPR2021 Oral的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大合集!CVPR2021论文分方向整理:
- 下一篇: 动态卷积超进化!通道融合替换注意力,减少