数据集Pascal VOC2012
寫在前面
PASCAL VOC為圖像識別提供了一套標準化的優秀的數據集。其三個主要的物體識別競賽分別是分類classification, 檢測detection, 分割segmentation。
PASCAL---- Pattern Analysis, Statistical Modelling and Computational Learning,分別是 模式分析、 統計建模、 計算學習;
VOC----Visual Object Class, 視覺對象類;
對于分割任務, VOC2012的trainval包含2007-2011年所有對應圖片,test只包含2008-2011,trainval有2913張圖片,共6929個物體。
分類
總共分成20+1類,有20類物體,第21類為背景:
Person : person
Animal : bird , cat , cow , dog , horse , sheep
Vehicle : aeroplane , bicycle , boat , bus , car , motorbike , train
Indoor: bottle, chaire, dining-table, potted plant, sofa, tv/monitor
編號分別如下:(序號為(0代表背景,1~20代表20個類別))
| 0 ? ? ? ? | background | ||
| 1 ? ?? | aeroplane | 11 | dining-table |
| 2 | bicycle | 12 | dog |
| 3 | bird | 13 | horse |
| 4 | boat | 14 | motorbike |
| 5 | bottle | 15 | person |
| 6 | bus | 16 | pottedplant |
| 7 | car | 17 | sheep |
| 8 | cat | 18 | sofa |
| 9 | chair | 19 | train |
| 10 | cow | 20 | tv |
每個類別的分布如下:
類別與顏色的對應關系如下(RGB數值)
具體文件
下載后得到如下壓縮包:(圖是在linux系統下的圖標)
解壓后如圖所示:
?1、JPEG IMAGES
該文件夾包含了PASCAL VOC所提供的所有的信息圖片,包括訓練圖片和測試圖片。
這些圖片的命名格式都是“年份_編號.jpg”,圖片大小尺寸不一,橫向圖尺寸大概在500*375,縱向圖尺寸大約在375*500, 偏差在100之內。
2、Annotations
此文件夾存放的是xml格式的標簽文件,每個xml文件都與JPEGImages中的圖片一一對應。
以2007_000392為例,xml文件的具體格式如下所示:
<annotation><folder>VOC2012</folder> <filename>2007_000392.jpg</filename> //文件名<source> //圖像來源(不重要)<database>The VOC2007 Database</database><annotation>PASCAL VOC2007</annotation><image>flickr</image></source><size> //圖像尺寸(長寬以及通道數) <width>500</width><height>332</height><depth>3</depth></size><segmented>1</segmented> //是否用于分割(在圖像物體識別中01無所謂)<object> //檢測到的物體<name>horse</name> //物體類別<pose>Right</pose> //拍攝角度<truncated>0</truncated> //是否被截斷(0表示完整)<difficult>0</difficult> //目標是否難以識別(0表示容易識別)<bndbox> //bounding-box(包含左下角和右上角xy坐標)<xmin>100</xmin><ymin>96</ymin><xmax>355</xmax><ymax>324</ymax></bndbox></object><object> //檢測到多個物體<name>person</name><pose>Unspecified</pose><truncated>0</truncated><difficult>0</difficult><bndbox><xmin>198</xmin><ymin>58</ymin><xmax>286</xmax><ymax>197</ymax></bndbox></object> </annotation>其對應的圖片如下:
這里僅對比較重要的做出解釋:
-
size
size下包括了與圖片尺寸相關的信息,其中 :
- width為寬度
- height為高度
- depth為圖片的通道數(彩色圖像為3通道,灰度圖為1通道)。
-
segmented
表示圖像是否進行分割,1表示是,0表示否。
-
object
object下包括的是目標檢測的相關信息,object可以出現多個。其中:
- name表示物體的名字
- pose表示拍攝的角度
- truncated表示目標檢測的框是否被截斷,1表示是,0表示否
- difficult 表示目標是否難以識別,1表示是,0表示否
- bndbox 下包括的是目標檢測框的位置信息
- xmin,ymin 表示檢測框的左上角
- xmax,ymax 表示檢測框的右下角
3、ImageSets
該文件夾下存放的是每一種類型的challenge對應的圖像數據,包含4個子文件夾:
- Action下存放的是人的動作
- Layout下存放的是人的部位的數據
- Main下存放的是?物體識別 的數據,總共分為20類
- Segmentation下存放的是用于 分割 的數據
Main文件
包含了20個分類的不同的 ***_train.txt, ***_val.txt, ***_trainval.txt。截圖如下:
從圖片中右邊打開的txt文件可見:
最左一列為圖片的name,后面的 1 表示這個樣本為正樣本, -1表示這個樣本為負樣本。
train里面放的是訓練使用的數據,每一個CLASS有5717個;
val里面放的是驗證結果使用的數據,每一個CLASS有5823個;
trainval是將上面兩個進行合并;
Action文件
一共花分類11個動作類別,如下圖所示:?
下圖為具體的TXT文件內容:第一列為圖片名,第二列為上表中的序號,第三列為樣本屬性:1為正樣本;-1為負樣本;?
LAYOUT
Layout文件夾存儲的是人體部位識別競賽中相關的數據集圖片列表。
具體內容如下圖所示:
第一列為圖片名,第二列為圖片中所包含的人數。?
4、SegmentationClass &?SegmentationObject
這個文件夾里面存放的是與 物體分割任務相關的圖片。如下圖展示:
上面的文件夾為SegmentationClass;存放語義分割圖;標注每一個像素屬于哪一個類別;
下面的文件夾為SegmentationObject;?存放實例分割圖;標注每一個像素屬于哪一個物體;
放一個圖可以進行直觀的對比:
?可以看到同樣是火車,語義分割時兩個時同一個顏色,在實例分割時則為不同顏色。
在voc數據集里面,分割的顏色與類別對應關系如下圖所示:
這里強調一點,這兩個文件夾下面的圖片位深度是8。
這里對比一下RGB圖像的位深度位24,每個通道都有8位。而8位深的圖像一般都是灰度圖像,這是VOC2012 mask的特殊性。
PS:我也不太懂“ 由于colormap”的存在,使其看起來是彩色的,在deeplabv3+,準備數據時要去掉label的colormap” 。
下載
另附,voc2007,voc2012鏡像下載的鏈接:
https://pjreddie.com/projects/pascal-voc-dataset-mirror/
總結
以上是生活随笔為你收集整理的数据集Pascal VOC2012的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 大数据之路、阿里巴巴大数据实践读书笔记目
- 下一篇: Java学习笔记:根据Excel工资表生