crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset
1.Contribution
(1)主要是提出了基于GTA5的GCC數(shù)據(jù)集
數(shù)據(jù)集下載地址:
https://gjy3035.github.io/GCC-CL/?gjy3035.github.io(2)提出了在如何在GCC上train,然后在傳統(tǒng)的通用數(shù)據(jù)集上test的遷移學(xué)習(xí)方案,方案基于Cycle GAN,提出了SE Cycle GAN
(3)也提出了他們自己的counting模型SFCN,不過(guò)該模型本身不是亮點(diǎn)
2.GCC dataset
提出GCC數(shù)據(jù)集的目的是當(dāng)前已經(jīng)有的數(shù)據(jù)集圖片數(shù)量太少,很容易o(hù)verfitting,基于GTA5場(chǎng)景制作出的GCC數(shù)據(jù)集,擁有豐富的場(chǎng)景,大量的圖片。
(1)場(chǎng)景的選擇
基于GTA5,選擇了100個(gè)地點(diǎn),然后每個(gè)地點(diǎn)通過(guò)改變相機(jī)的位姿,最終獲得400個(gè)場(chǎng)景,然后通過(guò)不同的ROI獲得不同的圖片
(2)人模型的設(shè)計(jì)
選擇了265個(gè)人的模型,每個(gè)人的模型有不同的膚色,性別,形狀,然后又衣服,發(fā)型等6個(gè)不同的外觀參數(shù),在場(chǎng)景中采用隨機(jī)的動(dòng)作
(3)場(chǎng)景合成
原始GTA5每個(gè)場(chǎng)景不超過(guò)256人,為了產(chǎn)生人多的圖片,需要進(jìn)行場(chǎng)景合成,就是將不同場(chǎng)景下的人拼到一塊兒
最終人數(shù)分布如下:
(4)添加了不同環(huán)境因素
通過(guò)設(shè)置不同的時(shí)間因素,以及天氣因素,產(chǎn)生不同的環(huán)境:
(5)如何利用GCC數(shù)據(jù)集
①先在GCC在pretain,然后在其他數(shù)據(jù)集上進(jìn)行fine-tune,有點(diǎn)在利用在ImageNet上pretrain模型的意思
②在GCC上train,然后直接在其他數(shù)據(jù)集上,不過(guò)中間利用了SE CycleGAN去將GCC的圖片色調(diào)改成了測(cè)試數(shù)據(jù)集的風(fēng)格,才去train,和test
3.SFCN
(1)模型配置
為了進(jìn)行counting,本文也提出了自己的counting模型SFCN(Spatial FCN):
就是一個(gè)簡(jiǎn)單的單列全卷積,encoder-decoder的結(jié)構(gòu)
提出了采用兩種不同backbone的模型,這里有個(gè)特殊的部分為Spatial Encoder結(jié)構(gòu),是《Spatial as deep: Spatial cnn for traffic scene understanding》這篇paper中提出的,具體看那篇paper
基本上backbone+Dilation conv+spatial encoder+upsample4個(gè)結(jié)構(gòu)
采用1e-5的lr,Adam+MSE
(2)ablation study
①在GCC上訓(xùn)練的情況,采用了三種不同的訓(xùn)練集測(cè)試集劃分方法:
第一種是75%train,25%test,第二種是每個(gè)場(chǎng)景(共4個(gè)相機(jī)),1個(gè)相機(jī)用來(lái)test,其他3個(gè)用來(lái)train,第三種是以場(chǎng)景為單位,75個(gè)場(chǎng)景做train,25個(gè)場(chǎng)景做test
②在GCC上pretrain,在其他數(shù)據(jù)集上fine tune
感覺(jué)如果不用ResNet做backbone,效果不如用了ImageNet的CSRNet
4.SE CycleGAN & DA
DA是domain adaption,就是領(lǐng)域自適應(yīng),有點(diǎn)像遷移學(xué)習(xí),要在讓在數(shù)據(jù)集A上train的模型,更好地在數(shù)據(jù)集B上test,本文要做到的就是如何在GCC上train,然后在其他數(shù)據(jù)集上獲得更好的效果
之所以要提到DA這個(gè)概念是因?yàn)镚TA的圖片太卡通了,相比于實(shí)際場(chǎng)景,有一定Gap
(1)SE Cycle GAN
本文采用SE CycleGAN,其實(shí)就是給CycleGAN添加了SSIM的loss
根據(jù)CycleGAN的原理,GCC的圖片要通過(guò)一個(gè)Generator,產(chǎn)生于另一個(gè)數(shù)據(jù)集風(fēng)格相似的圖片,并讓對(duì)應(yīng)的distriminator去判斷,然后又用另一個(gè)Generator轉(zhuǎn)變回來(lái),期望轉(zhuǎn)變過(guò)去又轉(zhuǎn)變回來(lái)的圖片跟原來(lái)的圖片越相似越好,
同理,另一條路是從另一個(gè)數(shù)據(jù)集轉(zhuǎn)變到GCC的風(fēng)格,再轉(zhuǎn)變回去,采用的loss如下:
LGAN是Discriminator判斷的loss,Lcycle是轉(zhuǎn)變過(guò)去又轉(zhuǎn)變回來(lái)的比較相似度的loss,λ是多少?zèng)]說(shuō)
因?yàn)橐容^圖像相似度,參考SANet采用SSIM作為loss,本文引入了SSIM作為loss,將CycleGAN轉(zhuǎn)變?yōu)镾E CycleGAN:
μ設(shè)置為1
用了SE CycleGAN風(fēng)格轉(zhuǎn)換結(jié)果如下:
(2)Density/Scene Regulation
Density Regulation,為了防止density map某些點(diǎn)預(yù)測(cè)了很大的值這種現(xiàn)象,本文設(shè)置了density map每個(gè)點(diǎn)出值得上限,超過(guò)這個(gè)上限,就把這個(gè)點(diǎn)設(shè)為0
Scene Regulation是對(duì)于不同的測(cè)試數(shù)據(jù)集,比如WorldExpo10,其人數(shù)不超過(guò)500,那么在GCC中也要選擇少人數(shù)的場(chǎng)景圖片進(jìn)行train
(3)ablation Study
①用不用CycleGAN進(jìn)行風(fēng)格轉(zhuǎn)換的對(duì)比
發(fā)現(xiàn)如果沒(méi)有Density/Scene Regulation,加了GAN反而效果變差了,可能是因?yàn)榧恿薌AN導(dǎo)致圖像變模糊,帶來(lái)了一些細(xì)節(jié)的丟失
5.評(píng)價(jià)
本文最大的亮點(diǎn)在于提出了GCC數(shù)據(jù)集,在這上面pretrain是否能取代ImageNet,似乎持保留意見(jiàn),不過(guò)對(duì)于容易o(hù)verfitting的counting社區(qū)來(lái)說(shuō),確實(shí)是一個(gè)不錯(cuò)的數(shù)據(jù)集
總結(jié)
以上是生活随笔為你收集整理的crowd counting_[crowd_counting]-SFCN-CVPR2019amp;amp;GCC dataset的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: hp246笔记本怎么 盘启动 hp246
- 下一篇: java类初始化顺序_《To Be a