celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标
為什么要聊到數據集這個話題..因為數據集的noise對訓練效果的影響很大!很長一段時間MegaFace的效果都上不去,就是因為數據集噪聲的原因。而且自己在訓練人臉的時候,如果不對數據集的噪聲和屬性有一點了解,對訓練結果可能會有誤判,甚至越訓練越差...在選擇數據集的時候不要一味求大,有的時候選擇一個noise比例極高的大數據集,效果還不如選擇一個clean的小數據集呢,可以參見這篇論文The Devil of Face Recognition is in the Noise
LFW
全名是Labeled Faces in the Wild.這個數據集是人臉評估一定會用到的一個數據集,包含了來自1680的13000張人臉圖,數據是從網上搜索來的。基本都是正臉。這個數據集也是最簡單的,基本主流算法都能跑到99%以上,貌似有6對label錯了,所以最高正確率應該是99.9%左右。這個都跑不到99%的話別的數據集表現效果會更差。一般來說這個數據集是用來做人臉識別驗證的。
下載鏈接:LFW Face Database : Main
CelebFaces
總共包含10177個人的202599張圖片,也是從搜索引擎上爬過來的,噪聲不算多,適合作為訓練集。同時這個數據對人臉有一些二元標簽,比如是否微笑,是否戴帽子等。如果需要特定屬性的人臉,也可以從中獲取。40個屬性如下(引用自芯尚刃:CelebA數據集詳細介紹及其屬性提取源代碼 ):
這些標簽的屬性在下載文件中的list_attr_celeba.txt中,在使用的時候,由于它不每一列都分開的,而是所有屬性按一列來讀取,所以在使用的時候,注意使用line.split()進行切分。(不是line.split(" "),因為每個屬性不全都是按一個空格隔開的,有的時候是用兩個空格隔開的,自己在這里踩過坑所以就記錄一下..
下載鏈接:Large-scale CelebFaces Attributes (CelebA) Dataset
CFP
這個數據集由500個identity的約共7000張圖片組成,這個數據集的特別之處在于對于每個人,它有10張正面圖像和4張側面圖像,這對于想要做側臉識別的同學還是很有幫助的。我也寫了一篇關于側臉識別的博文:https://zhuanlan.zhihu.com/p/61304192 有興趣的可以看一看
下載鏈接: http://www.cfpw.io/cfp-dataset.zip
VGG-Face
來自2622個人的2百萬張圖片。每個人大概要2000+圖片,跟MS-Celeb-1M有很多重疊的地方(因為都是從搜索引擎來的),這個數據集經常作為訓練模型的數據,噪聲比較小,相對來說能訓練出比較好的結果。
下載鏈接:VGG Face Dataset
CASIA-WebFace
該數據集是從IMBb網站上搜集來的,含10K個人的500K張圖片。同時做了相似度聚類來去掉一部分噪聲。CAISA-WebFace的數據集源和IMDb-Face是一樣的,不過因為數據清洗的原因,會比IMDb-Face少一些圖片。噪聲不算特別多,適合作為訓練數據。
下載鏈接:https://drive.google.com/file/d/1Of_EVz-yHV7QVWQGihYfvtny9Ne8qXVz/view
MS-Celeb-1M
100K人的共100M圖片,來自搜索引擎。這個數據集非常大,沒有清洗過,噪聲很大,很難。我用未經過清洗的MS-Celeb-1M訓練google facenet和Insightface的accuracy都比較低。
下載鏈接:MS-Celeb-1M: Challenge of Recognizing One Million Celebrities in the Real World - Microsoft Research
然而沒有被請洗過的MS1M數據集噪聲太大,所以其實更推薦使用iBUG清洗過的數據集(以下鏈接來自insightface團隊):
https://pan.baidu.com/s/1nxmSCch
MegaFace
672K人的4.7M張圖片,做過一些清洗,不過依然有噪聲,不同人的圖片可能混到了一起。相比來說噪聲可能比MS-Celeb-1M小一點,但還是挺大的..這個數據集是由兩個數據集組合而來:Facescrub和FGNet,所以如果你要使用多個數據集,注意有沒有重合哦!
下載鏈接: MegaFace
各個數據集的scale和噪聲比例見下圖(來自論文the devil of face recognition is in the Noise)。這篇論文也有提到清洗數據的噪聲能夠有效提升訓練表現,所以大家自己在做人臉相關的檢測時也要心中有數,除了可以優化算法,優化數據集也是一種方向。
還有一些數據集陸陸續續地補充上去~
人臉識別指標
雖然跑庫的時候我們一般還是看Accuracy或者Recall,不過其實實際應用的時候更多的是會用TAR(True Accept Rate)和FAR(False Accept Rate)。
這個指標的意思是我們拿一對不同的人的照片去測試的時候,如果兩個人的特征向量之差超過了設定的閾值(也就是把這兩個人認成了同一個人)的次數比上所有不同的人的pairs的對比次數。也就是把不同的人識別成同一個人的概率啦。當然是越小越好
那么TAR則是表示正確接受的比例。就是同一個人的照片被判別為同一個人的概率。
一般我們會計算的是在FAR為多少(比如
)的情況下TAR為多少參考文獻:
The Devil of Face Recognition is in the Noise
deepinsight/insightface
https://blog.csdn.net/liuweiyuxiang/article/details/81259492
總結
以上是生活随笔為你收集整理的celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python合并文件_python把多个
- 下一篇: python多态的概念_python中的