R-FCN每秒30帧实时检测3000类物体,马里兰大学Larry Davis组最新目标检测工作
【導(dǎo)讀】美國馬里蘭大學(xué)、復(fù)旦大學(xué)和Gobasco人工智能實驗室聯(lián)合提出R-FCN-3000實時3000類目標(biāo)檢測框架,對R-FCN框架中的物體檢測和分類進(jìn)行解耦。本文對R-FCN體系結(jié)構(gòu)進(jìn)行修改,其中位置敏感濾波器在不同的目標(biāo)類之間共享來進(jìn)行定位。對于細(xì)粒度的分類,這些位置敏感的濾波器是不需要的。因此,R-FCN-3000學(xué)習(xí)到了通用的物體性,也達(dá)到了更快的速度。R-FCN-3000在ImageNet檢測數(shù)據(jù)集上獲得34.9%的mAP,在每秒處理30幀圖像的同時,可以以18%的優(yōu)勢超過YOLO-9000。作者相信,未來R-FCN-3000可以適用于更為廣闊的目標(biāo)檢測場景(如十萬類目標(biāo)檢測),并可以更好的整合目標(biāo)類別先驗。代碼將會公開。
▌作者
Bharat Singh 馬里蘭大學(xué)計算機(jī)系博士生,主要研究方向為目標(biāo)及動作識別
http://www.cs.umd.edu/~bharat/
Hengduo Li 復(fù)旦大學(xué)在讀本科生
https://www.linkedin.com/in/hengduo-li-50588032/
Abhishek Sharma 印度德里農(nóng)業(yè)供應(yīng)鏈科技初創(chuàng)公司Gobasco聯(lián)合創(chuàng)始人
https://www.linkedin.com/in/abhishek-sharma-a1204921/
Larry S. Davis 馬里蘭大學(xué)教授
http://www.umiacs.umd.edu/~lsd/
論文:R-FCN-3000 at 30fps: Decoupling Detection and Classification
▌摘要
我們提出了R-FCN-3000,一個大規(guī)模的實時目標(biāo)檢測器,其中的目標(biāo)檢測和分類是解耦的。為了獲得RoI的檢測分?jǐn)?shù),我們將物體性分?jǐn)?shù)(objectnessscore)乘以細(xì)粒度的類別分?jǐn)?shù)。我們的方法是對R-FCN體系結(jié)構(gòu)進(jìn)行修改,其中位置敏感濾波器在不同的目標(biāo)類之間共享來進(jìn)行定位。對于細(xì)粒度的分類,這些位置敏感的濾波器是不需要的。R-FCN-3000在ImageNet檢測數(shù)據(jù)集上獲得34.9%的mAP,在每秒處理30幀圖像的同時,超過YOLO-9000 18%。我們還表明,R-FCN-3000學(xué)習(xí)的物體性可以被推廣到新的類中,并且性能隨著訓(xùn)練目標(biāo)類的數(shù)量增加而增加。這個結(jié)論證明了我們可以學(xué)習(xí)通用目標(biāo)檢測器。本文將隨后提供代碼。
▌詳細(xì)內(nèi)容
隨著深度CNNs的出現(xiàn),目標(biāo)檢測在基準(zhǔn)數(shù)據(jù)集上的性能取得了重大飛躍。這歸功于CNN結(jié)構(gòu)的強(qiáng)大的學(xué)習(xí)能力。在過去的五年中,PASCAL和COCO?的mAP得分分別從33%提高到88%和從37%提高到73%(在重疊率50%的評價標(biāo)準(zhǔn)上)。雖然在有數(shù)十個類別的基準(zhǔn)數(shù)據(jù)庫上有了很大的改進(jìn),但是對于需要實時檢測數(shù)千個類別的現(xiàn)實生活中的目標(biāo)檢測進(jìn)展甚微。最近的一些努力已經(jīng)構(gòu)建了了大規(guī)模的檢測系統(tǒng),但是以犧牲準(zhǔn)確度為代價。
?
這篇文章提出了一個新穎的解決方案,能夠在比YOLO-9000提高18%的精度來完成大規(guī)模目標(biāo)檢測問題,每秒可以處理30幀圖像,同時檢測3000個類別,被稱為R-FCN-3000。
?
R-FCN-3000是對最近的一些目標(biāo)檢測體系結(jié)構(gòu)[文章中文獻(xiàn)6,5,23,25,29]進(jìn)行修改以實現(xiàn)實時大規(guī)模目標(biāo)檢測的任務(wù)。最近提出的全卷積(fullyconvolutional)分類檢測器計算給定圖像中目標(biāo)的每類分?jǐn)?shù)。其在有限的計算預(yù)算中顯示出驚人的準(zhǔn)確性。雖然全卷積方式為諸如目標(biāo)檢測[6],實例分割[22],跟蹤[10],關(guān)系檢測[41]等任務(wù)提供了一個有效的解決方案,但他們需要為每個類設(shè)置類特定的過濾器,以禁止他們應(yīng)用于其他的類。例如,R-FCN [5] / Deformable-R-FCN [6]要求每個類別有49/197個位置特定的濾波器。Retina-Net [23]對于每個卷積特征映射,每個類需要9個濾波器。
?
因此,這樣的結(jié)構(gòu)將需要數(shù)十萬個用于檢測3000個類的過濾器,這將使得它們在實際應(yīng)用中速度非常慢。
這篇文章提出的R-FCN-3000結(jié)構(gòu)背后的重要啟發(fā)是解耦物體性檢測和對被檢測物體的分類,使得即使隨著類別數(shù)量的增加,對于定位的計算需求保持不變-參見圖1。這篇文章利用這樣的事實,即許多目標(biāo)類別在視覺上相似并共享部件。例如,不同品種的狗都有共同的身體部位;因此,學(xué)習(xí)一套不同的濾波器來檢測每個種類是矯枉過正的。因此,R-FCN-3000為固定數(shù)量的超類執(zhí)行目標(biāo)檢測(使用位置敏感濾波器),然后在每個超類內(nèi)進(jìn)行細(xì)粒度分類(不使用位置敏感濾波器)。
通過對圖像的深層語義特征進(jìn)行聚類(在這種情況下是ResNet-101的2048維特征)獲得超類。因此,這篇文章不需要語義層次的結(jié)構(gòu)。通過將超類概率與超類內(nèi)的細(xì)粒度類別的分類概率相乘,獲得給定位置處的細(xì)粒度類別的概率。
?
為了研究使用超類而不是單個目標(biāo)類別的效果,這篇文章將超類的數(shù)量從1改變到100,并評估ImageNet檢測數(shù)據(jù)集的性能。令人驚訝的是,即使有一個超類,檢測器也表現(xiàn)的很好!這一結(jié)果表明,位置敏感濾波器可以學(xué)習(xí)檢測通用的物體性。它也重新驗證了過去很好的研究概念[1,2,39]:目標(biāo)是一個通用的概念,可以學(xué)習(xí)一個通用的目標(biāo)檢測器。因此,為了執(zhí)行目標(biāo)檢測,將RoI的物體性分?jǐn)?shù)乘以給定類別的分類概率就足夠了。
?
該結(jié)果可用于數(shù)千個類別的快速檢測器,因為不再需要每個類別的位置敏感濾波器。在PASCAL-VOC數(shù)據(jù)集中,只用本文提出的基于物體性的檢測器,作者觀察到,與可變形的R-FCN [6]檢測器相比,所有20個目標(biāo)類別的類別特定濾波器(class-specific filters)的mAP下降了1.5%。R-FCN-3000訓(xùn)練了3000個類,與ImageNet數(shù)據(jù)集上當(dāng)前最先進(jìn)的大型目標(biāo)檢測器(YOLO-9000)相比,獲得了18%的mAP提升。
最后,這篇文章在看不見的類(zero-shot?設(shè)定)上評估提出的目標(biāo)檢測器的普適性,并觀察到當(dāng)在更大數(shù)量的類上訓(xùn)練物體檢測器時,泛化誤差減小。
▌模型簡介
(1)框架
如圖2所示,R-FCN-3000使用RPN產(chǎn)生proposals。對于每個超類k有P*P個位置敏感的濾波器。在進(jìn)行位置敏感的RoIpooling和對預(yù)測進(jìn)行平均之后,本文可以得到網(wǎng)絡(luò)對于分類和定位的得分。
為了得到超類概率,網(wǎng)絡(luò)在K個超類上進(jìn)行softmax。為了得到細(xì)粒度的類別概率,作者增加了兩個卷積層,再使用softmax。
R-FCN-3000首先生成region proposals,這些region proposals作為輸入提供給超類檢測分支(如R-FCN),其,整體的預(yù)測每個超類(sc)的檢測分?jǐn)?shù)。另外,本文使用類無關(guān)的邊界框回歸步驟來改進(jìn)每個RoI的位置(這個步驟在圖中沒有顯示)。為了獲得語義類別,本文不使用位置敏感濾波器,而是以全卷積的方式預(yù)測每個類的分?jǐn)?shù)。最后,作者將RoI中的每個類別分?jǐn)?shù)進(jìn)行averagepooling,得到分類概率。分類概率乘以超類檢測概率來檢測3000個類別。當(dāng)K是1時,超級檢測器來預(yù)測物體性。
(2)目標(biāo)函數(shù)
為了訓(xùn)練檢測器,作者使用在線難樣本挖掘(OHEM),并使用smooth L1 loss來進(jìn)行檢測框定位。
對于細(xì)粒度的分類,作者只在C個目標(biāo)類中使用softmax loss來進(jìn)行正樣本分類。由于相比于proposal的數(shù)量,positive ROI的數(shù)量非常少,因此作者對這個分支的loss進(jìn)行了一個因子為0.05的加權(quán),以保證這些梯度不會制約整個網(wǎng)絡(luò)訓(xùn)練。這種設(shè)置是重要的,因為這篇文章中的訓(xùn)練中使用了多任務(wù)損失。
▌結(jié)論
這篇文章證明,通過僅使用一組濾波器來進(jìn)行目標(biāo)與背景檢測,可以預(yù)測通用的物體性得分。這種物體性分?jǐn)?shù)可以簡單地與檢測對象的分類分?jǐn)?shù)相乘,在性能上只有一個較小的下降。最后,作者表明,可將學(xué)習(xí)到的物體性泛化至未出現(xiàn)的類,并且性能隨著訓(xùn)練目標(biāo)類的數(shù)量而增加。它支持物體性具有普遍性的假設(shè)。
?
本文提出了大規(guī)模目標(biāo)檢測的重大改進(jìn)方法,但許多問題仍然沒有得到解決。一些有前景的研究問題是:
如何加快R-FCN-3000檢測100,000個類別的分類過程?
一個典型的圖像包含有限數(shù)量的目標(biāo)類別-如何使用這個先驗知識來加速推斷?
如果還需要檢測對象及其部件,那么在這個架構(gòu)中需要做什么改變?
由于在每個圖像中使用有效的類來標(biāo)記每個對象是代價很高的,所以如果某些目標(biāo)沒有在數(shù)據(jù)集中標(biāo)記出來,可以學(xué)習(xí)魯棒的目標(biāo)檢測器嗎?
參考文獻(xiàn)
https://arxiv.org/abs/1712.01802
總結(jié)
以上是生活随笔為你收集整理的R-FCN每秒30帧实时检测3000类物体,马里兰大学Larry Davis组最新目标检测工作的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 跑faster rcnn测试时遇到错误A
- 下一篇: Faster-RCNN算法精读