ImageNet图像数据集介绍
ImageNet圖像數(shù)據(jù)集始于2009年,當(dāng)時(shí)李飛飛教授等在CVPR2009上發(fā)表了一篇名為《ImageNet: A Large-Scale Hierarchical Image Database》的論文,之后就是基于ImageNet數(shù)據(jù)集的7屆ImageNet挑戰(zhàn)賽(2010年開始),2017年后,ImageNet由Kaggle(Kaggle公司是由聯(lián)合創(chuàng)始人兼首席執(zhí)行官Anthony Goldbloom 2010年在墨爾本創(chuàng)立的,主要是為開發(fā)商和數(shù)據(jù)科學(xué)家提供舉辦機(jī)器學(xué)習(xí)競賽、托管數(shù)據(jù)庫、編寫和分享代碼的平臺(tái))繼續(xù)維護(hù)。
WordNet是一個(gè)由普林斯頓大學(xué)認(rèn)識科學(xué)實(shí)驗(yàn)室在心理學(xué)教授喬治·A·米勒的指導(dǎo)下建立和維護(hù)的英語字典。開發(fā)工作從1985年開始。由于它包含了語義信息,所以有別于通常意義上的字典。WordNet根據(jù)詞條的意義將它們分組,每一個(gè)具有相同意義的字條組稱為一個(gè)synset(同義詞集合)。WordNet為每一個(gè)synset提供了簡短,概要的定義,并記錄不同synset之間的語義關(guān)系。WordNet中的每個(gè)有意義的概念(concept)(可能由多個(gè)單詞或單詞短語描述)被稱為"同義詞集(synonym set)"或"synset"。
ImageNet是根據(jù)WordNet層次結(jié)構(gòu)組織的圖像數(shù)據(jù)集。在ImageNet中,目標(biāo)是為了說明每個(gè)synset提供平均1000幅圖像。 每個(gè)concept圖像都是質(zhì)量控制和人為標(biāo)注的(quality-controlled and human-annotated)。 在完成之后,希望ImageNet能夠?yàn)閃ordNet層次結(jié)構(gòu)中的大多數(shù)concept提供數(shù)千萬個(gè)干凈整理的圖像(cleanly sorted images)。
ImageNet是一項(xiàng)持續(xù)的研究工作,旨在為世界各地的研究人員提供易于訪問的圖像數(shù)據(jù)庫。目前ImageNet中總共有14197122幅圖像,總共分為21841個(gè)類別(synsets),大類別包括:amphibian、animal、appliance、bird、covering、device、fabric、fish、flower、food、fruit、fungus、furniture、geological formation、invertebrate、mammal、musical instrument、plant、reptile、sport、structure、tool、tree、utensil、vegetable、vehicle、person。
ImageNet有5種下載方式,如下圖所示:
(1). 所有圖像可通過url下載:不需要賬號登錄即可免費(fèi)下載,下載鏈接:http://www.image-net.org/download-imageurls ,在SEARCH框中輸入需要下載的synset,如tree,結(jié)果如下圖所示,也可按類別下載即WordNet ID,下載鏈接:http://www.image-net.org/synset?wnid=n02084071 ,其中好像個(gè)別url已失效。
(2). 直接下載原始圖像:需要自己申請注冊一個(gè)賬號,然后登錄,經(jīng)驗(yàn)證普通非學(xué)校郵箱無法注冊。對于希望將圖像用于非商業(yè)研究或教育目的的研究人員,可以在特定條件下通過ImageNet網(wǎng)站提供訪問權(quán)限。
(3). 下載圖像sift features:不需要賬號登錄即可免費(fèi)下載,包括原始sift descriptors、quantized codewords、spatial coordiates of each descriptor/codeword。提features前,需要縮放圖像大小到最大邊長不超過300像素。通過VLFeat開源軟件提前sift features。并沒有對所有的synsets圖像提取sift。下載鏈接:http://www.image-net.org/api/download/imagenet.sbow.synset?wnid=n02119789 ,后面的n02119789為WordNet ID,可在http://www.image-net.org/api/text/imagenet.sbow.obtain_synset_list 中查看有哪些WordNet ID包括sift features并可點(diǎn)擊直接下載,下載下來的是一個(gè)Matlab文件(.mat),如n02119789.sbow.mat,在每個(gè).mat文件中,每個(gè)sift descriptor有5個(gè)字段:x, y, norm, scale, word。word字段是cluster(k-means clustering of a random subset of 10 million SIFT descriptors)中心的索引,是一個(gè)0到999之間的一個(gè)整數(shù)。
(4). 下載Object Bounding Boxes:不需要賬號登錄即可免費(fèi)下載,bounding boxes是通過亞馬遜土耳其機(jī)器人(Amazon Mechanical Turk)進(jìn)行標(biāo)注和驗(yàn)證的。目前標(biāo)注過的synsets已經(jīng)超過3000種,可從http://www.image-net.org/api/text/imagenet.bbox.obtain_synset_list 中查看和下載已標(biāo)注的種類。對于每種synset,平均有150張帶有邊界框(bounding boxes)的圖像。圖像標(biāo)注以PASCAL VOC格式保存在XML文件中,用戶可以使用PASCAL Development Toolkit解析標(biāo)注。注意:在邊界框標(biāo)注中,有兩個(gè)字段(width和height)表示圖像的大小。標(biāo)注文件中邊界框的位置和大小與此大小有關(guān)。但是,此大小可能與下載的包中的實(shí)際圖像大小不同。(原因是標(biāo)注文件中的大小是圖像顯示給標(biāo)注器的顯示大小)。因此,要在原始圖像上找到實(shí)際像素,可能需要相應(yīng)地重新縮放邊界框。可以通過http://www.image-net.org/Annotation/Annotation.tar.gz 下載所有的標(biāo)注文件,也可以通過http://www.image-net.org/api/download/imagenet.bbox.synset?wnid=n02119789 ,下載特定的synset,后面的n02119789為WordNet ID。
(5). 下載Object Attributes:不需要賬號登錄即可免費(fèi)下載,object attributes是通過亞馬遜土耳其機(jī)器人(Amazon Mechanical Turk)進(jìn)行標(biāo)注和驗(yàn)證的。目前標(biāo)注過的synsets大約有400種,可從http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_list 中查看已標(biāo)注的種類,通過http://www.image-net.org/api/text/imagenet.attributes.obtain_synset_wordlist 點(diǎn)擊下載特定的種類。對于每一個(gè)synset,包含25種屬性:A. 顏色:黑色,藍(lán)色,棕色,灰色,綠色,橙色,粉紅色,紅色,紫羅蘭色,白色,黃色; B. 圖案(pattern):斑點(diǎn),條紋;C. 形狀:長,圓形,矩形,方形;D. 紋理(texture):毛茸茸,光滑,粗糙,有光澤,金屬色,植被(vegetation),木質(zhì),濕潤。標(biāo)注的屬性是基于先前收集的邊界框內(nèi)的object,即感興趣區(qū)域的object而不是整幅圖像。可以通過http://www.image-net.org/downloads/attributes/attrann.mat 下載整個(gè)文件,這個(gè).mat文件有一個(gè)attrann結(jié)構(gòu)體,包括:A. 圖像列表;B. bounding boxes列表:每幅圖像一個(gè),每個(gè)bounding boxes包含x1,x2,y1,y2字段,所有字段的值都?xì)w一化為介于0和1之間;C. 屬性列表:圖像數(shù)*屬性數(shù)的labels矩陣,label為1表示屬性存在,label為-1表示屬性不存在,label為0表示不確定。也可以通過http://www.image-net.org/api/download/imagenet.attributes.synset?wnid=n01322604 ,下載特定的synset,后面的n01322604為WordNet ID。
ImageNet中的每張圖片屬于提供圖片的個(gè)人,ImageNet不擁有圖像的版權(quán),ImageNet數(shù)據(jù)集可以免費(fèi)用于學(xué)術(shù)研究和非商業(yè)用途,但不能直接使用這些數(shù)據(jù)作為產(chǎn)品的一部分。
ImageNet Large Scale Visual Recognition Challenge(ILSVRC),從2010年開始,每年舉辦的ImageNet大規(guī)模視覺識別挑戰(zhàn)賽,到2017年后截止。比賽項(xiàng)目包括:圖像分類(Classification)、目標(biāo)定位(Object localization)、目標(biāo)檢測(Object detection)、視頻目標(biāo)檢測(Object detection from video)、場景分類(Scene classification)、場景解析(Scene parsing)。ILSVRC中使用到的數(shù)據(jù)僅是ImageNet數(shù)據(jù)集中的一部分。比賽使用的所有數(shù)據(jù)集均可通過登錄后下載。
"ImageNet改變了AI領(lǐng)域人們對數(shù)據(jù)集的認(rèn)識,人們真正開始意識到它在研究中的地位,就像算法一樣重要",李飛飛教授說。
GitHub:?https://github.com/fengbingchun/NN_Test?
總結(jié)
以上是生活随笔為你收集整理的ImageNet图像数据集介绍的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 经典网络LeNet-5介绍及代码测试(C
- 下一篇: 网络文件系统(NFS)简介