前言
通用检测任务的常用数据集,包含VOC,COCO,ImageNet,不断更新其他分支任务的数据集。
big data is all you need
一,PASCAL VOC
1.1 简介
由Mark Everingham (University ofLeeds)、Luc van Gool (ETHZ, Zurich)等人创立,有1.7W+张图片,分为20类。
PASCAL VOC挑战赛是计算机视觉竞赛的鼻祖,从2005年到2012年一共举办了8届,其任务涵盖:目标分类,目标检测,分割,人体部位,动作识别。
VOC图片集包括20个类别:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。
1.2 组织结构
以 VOC 2007 为例,解压后的文件为
1 | . |
1.3 数据集xml文件标注格式
1 | <annotation> |
二,COCO
2.1 简介
全称是Microsoft Common Objects in Context,起源于微软于2014年出资标注的Microsoft COCO数据集,与ImageNet竞赛一样,被视为是计算机视觉领域最受关注和最权威的比赛之一。
COCO数据集是一个大型的、丰富的物体检测,分割和图像描述数据集。这个数据集以情景理解为目标,主要从复杂的日常场景中截取,图像中的目标通过精确的分割进行位置的标定。该数据集主要解决3个问题:目标检测,目标之间的上下文关系,目标的二维上的精确定位。COCO数据集有91类,虽然比ImageNet类别少,但是每一类的图像多,这有利于获得更多的每类中位于某种特定场景的能力,对比PASCAL VOC,其有更多类和图像。
COCO数据集包含20万个图像,其中80个类别(80个对象类别是stuff91类的子集,如果仅仅是做目标检测,基本只用80类即可。)中有超过50万个目标标注,它是最广泛公开的目标检测数据库,平均每个图像的目标数为7.2。
2.2 特点
- 目标集分割;
- 图像情景识别;
- 超像素分割;
- 330K图像(> 200K标记);
- 150万个对象实例;
- 80个对象类别;
- 91个stuff类别;
- 每张图片有5段情景描述;
- 有关键点的250,000人;
三种标注类型:
- object instances(目标实例)
- object keypoints(目标上的关键点)
- image captions(看图说话)
2.3 组织结构
以coco2017为例,解压后的文件为:
1 | . |
2.4 标注文件格式
以Object Instance为例,其json文件为:
1 | { |
三,ImageNet
3.1 简介
ImageNet是目前深度学习图像领域应用得非常多的一个图像集,由斯坦福大学李飞飞创立,有1400W+张样例图片,分为27大类和2W+小类,只能用于非商业研究和教学使用。与ImageNet图像集相应的是著名的ILSVRC竞赛,各种新机器学习算法脱颖而出(AlexNet、ZFNet、GoogleNet、ResNet、…),图像识别率得以显著提高,在ILSVRC竞赛上一举成名是近几年来计算机视觉从业者的梦想。
对于如基于ImageNet的图像识别的结果评估,往往用到两个准确率的指标,一个是top-1准确率,一个是top-5准确率。Top-1准确率指的是输出概率中最大的那一个对应的是正确类别的概率;top-5准确率指的是输出概率中最大的5个对应的5个类别中包含了正确类别的概率。
3.2 特点
- ImageNet拥有用于分类、定位和检测任务评估的数据。
- 与分类数据类似,定位任务有1000个类别。准确率是根据最高五项检测结果计算出来的。
- 所有图像中至少有一个边框。对200个目标的检测问题有470000个图像,平均每个图像有1.1个目标。