深度学习图像数据库总结(收藏用)
深度學習數據庫總結
感謝感謝~收藏用!
原文出自:https://blog.csdn.net/chaipp0607/article/details/71403797
數據的準備工作是訓練模型前的必要工作,顯然這也是非常耗時的,所以在入門階段我們完全可以用現有的開源圖片庫快速完成前期的準備工作:
ImageNet
??ImageNet是根據WordNet層次結構(目前只有名詞)組織的圖像數據庫,其中層次結構的每個節點都由數百和數千個圖像描繪。 目前,數據庫中每個節點平均擁有超過五百幅圖像。 我們希望ImageNet將成為研究人員,教育工作者,學生以及分享我們對圖片熱情的所有人的有用資源。?
??ImageNet的一些特點:?
??ImageNet是全球最大的開源圖片庫,截至到現在(2017.5)ImageNet共有一千四百多萬張圖片。其中包括超過20000個synset(s),synset是近義詞的合集,synsnet可以理解為ImageNet整理的標簽。?
??說到WordNet層次結構,就要提一下什么是WordNet,WordNet是普林斯頓大學開源的詞匯庫,可以理解為是一個詞典。每個詞語(word)可能有多個不同的語義,對應不同的sense。而每個不同的語義(sense)又可能對應多個詞,如topic和subject在某些情況下是同義的,WordNet由Princeton 大學的心理學家,語言學家和計算機工程師聯合設計的一種基于認知語言學的英語詞典。它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個“單詞的網絡”。WordNet 主要有3個主概念 Synset, WordSense 和 Word。而ImageNet就是應用了synset這個概念,只是ImageNet目前只有名詞。?
??由于圖片的版權問題,ImageNet中的圖片以URLs的形式提供下載,也就是說ImageNet只提供這個圖片在哪,而不直接提供圖片本身。?
?
??我們在ImageNet搜索一個synset的時,左側可以看到他的層次結構WordNet,在Download中提供了URLs的下載地址。
CIFAR
??CIFAR由Alex Krizhevsky, Vinod Nair和 Geoffrey Hinton收集并整理,在Visual Dictionary的80萬張圖片中選擇了6萬張,并把它們分為CIFAR-10 和CIFAR-100。?
??CIFAR-10數據集包含60000個32*32的彩色圖像,共有10類。有50000個訓練圖像和10000個測試圖像。數據集分為5個訓練塊和1個測試塊,每個塊有10000個圖像。測試塊包含從每類隨機選擇的1000個圖像。訓練塊以隨機的順序包含這些圖像,但一些訓練塊可能比其它類包含更多的圖像。訓練塊每類包含5000個圖像。?
??CIFAR-100數據集包含100小類,每小類包含600個圖像,其中有500個訓練圖像和100個測試圖像。100類被分組為20個大類。?
MNIST
??MNIST深度學習領域中大名鼎鼎的數據集—MNIST,幾乎所有的深度學習教程的入門實例都是手寫數字識別,而它們用到的庫就是MNIST。這就好比我們學習一門語言的時候顯示”hello world”。?
??MNIST數據集共包含7萬個樣本,分別是手寫體數字0~9,樣本大小為28*28。
Labeled Faces in the Wild
??Labeled Faces in the Wild數據庫中收集了1萬3千多張人臉圖像,共包含了5000多個人物。每個人標記除了人物的名字外,還包含了其他信息,比如性別,年齡等
Quick Draw
??Quick Draw是由google發布的涂鴉數據集,其中包含 5000 萬張圖畫的集合,分成了 345 個類別,它其實就是張這個樣子:?
??這么看起來這個數據集還是挺無聊的,它的發布其實是源于谷歌推出的?AutoDraw?,這是一個能把你的隨手涂鴉變成繪畫的人工智能技術工具,就是這樣(谷歌總是在做一些很好玩的東西):?
??谷歌也曾發布論文和博客介紹了其背后的技術。實際上,AutoDraw 所用的技術基于谷歌先前的涂鴉實驗「Quick, Draw!」。近日,谷歌發布了該項目背后的數據集,就是之前提到的Quick Draw數據集了。這個項目同時發布到了git上,在git的地址中對數據集進行了詳細的介紹,在這里簡要描述下:
??原始數據在 ndjson 文件中,并按類別進行了分割,按照如下格式:?
??該數據集在谷歌云存儲服務中,在 ndjson 文件中分類存儲。請參閱 Cloud Console 中的文件列表,數據集分類如下:
Raw files (.ndjson)?
Simplified drawings files (.ndjson)?
Binary files (.bin)?
Numpy bitmap files (.npy)
??其中原始文件和簡筆畫都是.ndjson形式存儲,同時提供了二進制文件(.bin)和Numpy 位圖(.npy)文件。
Binary files (.bin)?
??我們也提供了簡化后的繪畫和元數據的定制二進制格式,可用于高效的壓縮和加載。examples/binary_file_parser.py 給出了如何用 Python 加載該文件的示例。
Numpy 位圖(.npy)?
??所有簡化過的繪畫也都被轉換成了 28×28 的灰度位圖,保存為 numpy 的 .npy 格式。該文件可以通過 np.load() 函數加載。
AI-Challneger
??AI-Challneger是一個由創新工場發起的大賽,其中有6個項目,每一個項目下都提供了配套的數據集,比如場景分類項目下,到目前為止提供了三個數據集,分別是訓練集(train),驗證集(valuation)和測試集A(test_a),分別包含圖片5w+,7k+,7k+;包含80類場景圖,支持直接下載原圖。?
kaggle cats vs. dogs
??貓狗大戰數據集,大名鼎鼎的kaggle大賽下的數據,一個二分類數據集,訓練集中貓狗圖片各12500張,測試集中貓狗圖片共12500張,支持原圖下載。?
notMNIST
??notMNIST數據集起做這個名字是為了致敬MNIST,它提供了從A到J是個字母的圖片,圖片大小為28*28,而且圖片不是手寫字母,而是來源于網絡上各種各樣奇奇怪怪的圖片,比如字母A:?
?
??該數據集提供了兩個版本,其中large版中,每個類大概5.3W左右的圖片,總數在53W個,類別間數據比較平均。
Pascal VOC
??PASCAL VOC挑戰賽是視覺對象的分類識別和檢測的一個基準測試,提供了檢測算法和學習性能的標準圖像注釋數據集和標準的評估系統。PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年后便不再舉辦,但其數據集圖像質量好,標注完備,非常適合用來測試算法性能。
COCO common objects Dataset
??COCO數據集由微軟贊助,其對于圖像的標注信息不僅有類別、位置信息,還有對圖像的語義文本描述,COCO數據集的開源使得近兩三年來圖像分割語義理解取得了巨大的進展,也幾乎成為了圖像語義理解算法性能評價的“標準”數據集。Google的開源show and tell生成模型就是在此數據集上測試的。?
目前包含的比賽項目有:?
1.目標檢測(COCO Detection Challenge),包含兩項比賽:?
??輸出目標物的邊框即可(using bounding box output),也就是我們常說的目標檢測(object detection)了?
要求把目標物從圖像中分割出來(object segmentation output),即我們所說的圖像語義分割(Semantic image segmentation)?
2.圖像標注(COCO Captioning Challenge)?
??具體說來就是一句話準確描述圖片上的信息(producing image captions that are informative and accurate)。那這個怎么評分呢?目前是靠人工評分。?
3.人體關鍵點檢測(COCO Keypoint Challenge)?
??比賽要求是找到人在哪,然后定位到人體的一些關鍵點位置(The keypoint challenge involves simultaneously detecting people and localizing their keypoints)。?
CityScapes
??CityScapes數據場景包括50個不同城市(主要在德國),春夏秋三個季節白天的場景,有大量的動態目標不同層次的場景和多樣的背景。場景不包括下大雨的和下雪的,因為這種場景需要用特殊的技術處理。?
??圖像數據分為30類:除了有 5000幀細標注的(像素級別的),標注一張圖時間控制在1.5h左右,精細標注的數據劃分成如下圖訓練驗證測試集,不是隨機劃分的,而是確保每個劃分的數據集里面包含各種場景。最終有2975張用來訓練,500張用來驗證,1525張用來測試。此外,還有20000張弱標注的幀,只用來訓練,標注一張圖控制在7min內。?
持續更新中……
總結
以上是生活随笔為你收集整理的深度学习图像数据库总结(收藏用)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 万洲金业:投资现货黄金的收益与风险如何平
- 下一篇: Matter协议特性解析(一) 支持非M