目标又多又密?多轮迭代的方式进行密集目标检测
點(diǎn)擊上方“AI搞事情”關(guān)注我們
?
論文:IterDet: Iterative Scheme for ObjectDetection in Crowded Environments
代碼:https://github.com/saic-vul/iterdet
簡(jiǎn)介
2020年5月莫斯科三星AI研究院提出的文章,針對(duì)密集目標(biāo)進(jìn)行檢測(cè),密集目標(biāo)檢測(cè)的難點(diǎn)在于既要檢測(cè)出不同的目標(biāo),又要抑制重復(fù)目標(biāo)框的產(chǎn)生。作者提出了一種「迭代檢測(cè)」的方案,不論單步檢測(cè)器還是多步檢測(cè)器,只需要在訓(xùn)練和推理上做很少的修改,就能簡(jiǎn)單高效地檢測(cè)出密集目標(biāo)。
迭代檢測(cè),不用保證每次迭代的召回率,早期,檢測(cè)部分目標(biāo)子集,后期將檢測(cè)的結(jié)果和圖像再一次輸入網(wǎng)絡(luò),使檢出的目標(biāo)不再被檢測(cè)到,迭代檢測(cè)出復(fù)雜的目標(biāo)子集。
黃色框?yàn)槎蔚鷻z測(cè)結(jié)果方法
模型結(jié)構(gòu)如何迭代
,輸入圖像:,history map?為空,檢測(cè)器? 將輸入和映射為一系列邊框。
「history map 映射方式」:每個(gè)像素點(diǎn)的目標(biāo)個(gè)數(shù)。?
,輸入圖像:,history map? 由映射而得,檢測(cè)器將輸入和映射為一系列邊框;
結(jié)束標(biāo)志:以此類(lèi)推,直到達(dá)到迭代次數(shù)或當(dāng)前迭代未檢測(cè)到新目標(biāo),即時(shí),結(jié)束迭代。
那么最后的檢測(cè)結(jié)果就是每次迭代檢測(cè)出的目標(biāo)的全集,即:
要想實(shí)現(xiàn)上述方案,有兩點(diǎn)必須解決:1)如何將一個(gè)檢測(cè)器轉(zhuǎn)換為對(duì)歷史檢測(cè)敏感的新檢測(cè)器;2)如何讓新檢測(cè)器在不同的迭代下檢測(cè)出不同的目標(biāo)子集。
訓(xùn)練過(guò)程
隨機(jī)地將標(biāo)注目標(biāo)框分為:和兩個(gè)集合,且,將制作為history map?,使得模型訓(xùn)練來(lái)利用已有的目標(biāo)框信息,預(yù)測(cè)缺失的目標(biāo)框集合,同時(shí),通過(guò)不同隨機(jī)劃分和,還可以達(dá)到了數(shù)據(jù)增強(qiáng)的效果。
數(shù)據(jù)集:
AdaptIS:包含兩個(gè)子集Toy V1和Toy V2,用于實(shí)力分割任務(wù)而生成的數(shù)據(jù)集,現(xiàn)有標(biāo)注可以使其用于目標(biāo)檢測(cè),且每張圖片平均有30個(gè)目標(biāo),大部分有重疊情況,絕對(duì)是一個(gè)密集目標(biāo)檢測(cè)的數(shù)據(jù)集。
「Toy V1」:訓(xùn)練集、驗(yàn)證集分別有2000和10000張圖像,大小為:96×96。
「Toy V2」:訓(xùn)練集、驗(yàn)證集和測(cè)試集分別有25000, 1000和1000張,圖片大小為128×128。
「CrowdHuman」:訓(xùn)練集、驗(yàn)證集和測(cè)試集分別有15000, 4370和5000張圖片,平均每張圖的人物數(shù)量達(dá)到了22.64個(gè),遠(yuǎn)大于其他主流的人體檢測(cè)數(shù)據(jù)集,其中,每個(gè)目標(biāo)有三個(gè)標(biāo)注框:full body, visible body 和 head。官網(wǎng):www.crowdhuman.org
同人體檢測(cè)數(shù)據(jù)集的容量、密度和多樣性 (為了公平比較,只顯示訓(xùn)練子集的統(tǒng)計(jì)信息)圖片樣例「WiderPerson」:訓(xùn)練集、驗(yàn)證集和測(cè)試集分別有8000,1000和4382張圖片,共5個(gè)類(lèi)別:pedestrians, riders, partially visible persons, crowd 和 ignored regions。作者在訓(xùn)練和測(cè)試時(shí),將后四類(lèi)合并為了一類(lèi)。
官網(wǎng):www.cbsr.ia.ac.cn/users/sfzhang/WiderPerson
實(shí)現(xiàn)細(xì)節(jié)
采用香港中文大學(xué)-商湯科技聯(lián)合實(shí)驗(yàn)室開(kāi)源的基于Pytorch實(shí)現(xiàn)的深度學(xué)習(xí)目標(biāo)檢測(cè)工具箱mmdetection,倉(cāng)庫(kù)地址:
https://github.com/open-mmlab/mmdetection
,預(yù)訓(xùn)練模型包含單步檢測(cè)器的RetinaNet和兩步檢測(cè)器FasterRCNN,兩者的BackBone均采用ResNet-50的默認(rèn)訓(xùn)練參數(shù),優(yōu)化器采用Adam,學(xué)習(xí)率learning rate為0.0001 。
此外,作者修改了兩個(gè)個(gè)地方:1)FPN中每個(gè)卷積層之后添加了Batch Normalization;2)未凍結(jié)ResNet的第一個(gè)block,因?yàn)樵谶@個(gè)block之前添加了歷史映射和可訓(xùn)練的卷積層。
實(shí)驗(yàn)指標(biāo)與結(jié)果如下:
搞事情
今年5月,2020 CrowdHuman人體檢測(cè)大賽啟動(dòng)上線,本屆比賽是CrowdHuman人體檢測(cè)賽的第二期,數(shù)據(jù)集應(yīng)該就是論文中的CrowdHuman數(shù)據(jù)集。官方基于上述論文方法公布了baseline,具體可見(jiàn):【Ranking第7名,2020 CrowdHuman大賽Baseline發(fā)布】
git地址:https://github.com/thuwyh/BAAI-2020-CrowdHuman-Baseline
一些檢測(cè)結(jié)果:
往期推薦
DeepHSV:號(hào)稱可以商用的計(jì)算機(jī)筆跡鑒別算法
CVPR 2019筆跡識(shí)別論文:逆鑒別網(wǎng)絡(luò)+八路Attention
PolarMask:單階段實(shí)例分割框架,FCOS進(jìn)階!
真正意義的Anchor-Free,FCOS目標(biāo)檢測(cè)算法了解一下
眨眼算什么,讓蒙娜麗莎像你一樣嘮上嗑才算硬核
抖音同款白眼特效,DeepWarp讓蒙拉麗莎對(duì)你眨眨眼
長(zhǎng)按二維碼關(guān)注我們
有趣的靈魂在等你
總結(jié)
以上是生活随笔為你收集整理的目标又多又密?多轮迭代的方式进行密集目标检测的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 利用python分析了下乘风破浪的姐姐
- 下一篇: 你看我还有机会吗?这么GAN让我秃然荒了