利用VOC2007数据集创建属于自己的数据集
? ? ? ?最近在做本科畢設(shè),是做個(gè)關(guān)于汽車類型識(shí)別的論文。已經(jīng)在網(wǎng)上找來(lái)了VOC格式的車輛數(shù)據(jù)集,已有轎車、suv、卡車、公交車等類別的照片和標(biāo)簽文件,但是還是缺少一類數(shù)據(jù):摩托車。摩托車數(shù)據(jù)集應(yīng)該很好找,但是我比較懶,由于電腦已經(jīng)有了經(jīng)典的voc2007數(shù)據(jù)集,這20個(gè)類中恰好有motorbike這一類,所以懶得去上網(wǎng)再搜了,直接利用voc2007數(shù)據(jù)集中的摩托車數(shù)據(jù)集來(lái)湊。
先貼出voc2007數(shù)據(jù)集的鏈接
鏈接:https://pan.baidu.com/s/1mvc8kqXNOIRnb0u2T_FdpA?
提取碼:2b5d
? ? ? ?鏈接里面的數(shù)據(jù)是分成test和trainval兩個(gè)文件夾,我直接只用了test里的數(shù)據(jù)
? ? ? ? ? ??
? ? ? ?在VOCtest這個(gè)文件夾里面(VOCtrainval里面也一樣),層層找進(jìn)去,如下圖所示,共有以下5個(gè)文件夾
其中只需關(guān)心Annotations和JPEGImages這兩個(gè)文件夾即可(其他的文件夾我不是很清楚)。
? ? ? ?Annotations文件夾包含的是標(biāo)簽文件xml
? ? ? ?JPEGImages文件夾包含的是圖片文件jpg
?
? ? ? ? 首先在JPEGImages文件夾中尋找你要的類別的圖像(按住Ctrl一個(gè)個(gè)選中),然后復(fù)制到另一個(gè)你新建的專門用來(lái)存放圖像的文件夾:
??
?
? ? ? ?復(fù)制完后,你會(huì)得到大概170張摩托車的照片:
接下來(lái)還剩下標(biāo)簽文件了,和圖片相對(duì)應(yīng),有170張左右的標(biāo)簽文件。可是去Annotations一個(gè)個(gè)找很頭疼,于是乎想到了用python寫個(gè)腳本:
# 在voc2007中已有摩托車的圖片下,自動(dòng)獲取對(duì)應(yīng)的xml文件 import os import shutil# xmlfilepath:即將放入xml文件的路徑 # imgfilepath:已抽取的摩托車圖像文件夾路徑 # xmlsrc:即將被抽取xml的文件夾路徑xmlfilepath=r'E:/車輛數(shù)據(jù)集/motorbike/xml/' imgfilepath=r'E:/車輛數(shù)據(jù)集/motorbike/' xmlsrc = r'E:/pascal-voc-2007/VOCtest_06-Nov-2007/VOCdevkit/VOC2007/Annotations/'temp_img = os.listdir(imgfilepath) src = os.listdir(xmlsrc)# 注意:voc的圖像格式都是jpg的 for img in temp_img:imgname = img[:-4]for xml in src:xmlname = xml[:-4]if imgname == xmlname:shutil.copyfile( xmlsrc + '%s.xml'%xmlname, xmlfilepath + '%s.xml'%xmlname)運(yùn)行完后:
?
總結(jié)
以上是生活随笔為你收集整理的利用VOC2007数据集创建属于自己的数据集的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 彩虹图纸管理系统提升工作效率30%
- 下一篇: 新一代可重构ERP系统(转)