常见大型图像开源数据集汇总及下载

type

status

date

slug

summary

ActivityNet 100

ActivityNet 是一个用于人类活动理解的大规模视频数据集，支持全局视频分类、修剪活动分类和时间活动检测任务。此版本包含数据集 100 类版本的视频和时间活动检.ActivityNet 100 和 200 在每个分割的活动类别和视频数量上有所不同。

训练：4,819 个视频（7,151 个实例）

测试：2,480 个视频（标签保留）

验证：2,383 个视频（3,582 个实例）

下面数据集代码下载方法一致，只需修改数据集名称！

ActivityNet 200

ActivityNet是一个大规模视频数据集，专注于人类活动理解，支持全局视频分类、剪辑活动分类和时态活动检测任务。其200类版本包含相应视频和时态活动检测数据，是ActivityNet 100的超集，两者在活动类别数和每部分视频数上有所差异。标签包括视频、分类、动作识别和时态检测。支持训练、验证和测试三个部分，其中测试集无注释。

训练：10,024 个视频（15,410 个实例）

测试：5,044 个视频（标签保留）

验证：4,926 个视频（7,654 个实例

BDD100K

伯克利深度驱动 (BDD) 数据集是自动驾驶汽车最大的、最具多样性的视频数据集之一。

BDD100K 数据集包含 100,000 个视频片段，这些视频片段收集自纽约、旧金山湾区和其他地区的 50,000 多个骑行场景。数据集包含各种场景类型，例如城市街道、住宅区和高速公路。此外，这些视频是在一天中的不同时间在不同天气条件下录制的。

视频分为训练集（70K）、验证集（10K）和测试集（20K）。每个视频时长 40 秒，分辨率为 720p，帧率为 30fps。每个视频第 10 秒的帧都带有注释，用于图像分类、检测和分割任务。

此版本的数据集仅包含如上所述从视频中提取的 100K 张图像以及图像分类、检测和分割标签。数据集大小：7.10 GB

Caltech-101

数据集由属于 101 个类别的物体图片以及一个背景杂乱类别 ( BACKGROUND_Google) 组成。每幅图像都标有一个物体。

每个类别包含大约 40 到 800 张图像，总共约 9,000 张图像。图像大小各异，边长通常为 200-300 像素。此版本仅包含图像级标签。数据集大小：138.60 MB

Caltech-256

数据集由属于 256 个类别的物体图片和一个背景杂乱类别 ( clutter) 组成。每幅图像都标有一个物体。

每个类别包含 80 到 827 张图像，总计 30,607 张。图像大小各异，边长一般为 80-800 像素。数据集大小：1.16 GB

CIFAR-10

该数据集包含 10 个类别的 60,000 张 32 x 32 彩色图像，每类 6,000 张图像。其中有 50,000 张训练图像和 10,000 张测试图像。数据集大小：132.40 MB

CIFAR-100

该数据集包含 100 个类别的 60,000 张 32 x 32 彩色图像，每类 600 张图像。其中有 50,000 张训练图像和 10,000 张测试图像。数据集大小：132.03 MB

Cityscapes

Cityscapes 是一个大规模数据集，包含来自 50 个不同城市的街道场景中记录的多样化立体视频序列，除了 20,000 个弱注释帧之外，还包含 5,000 帧的高质量像素级注释。

该数据集适用于：

评估视觉算法在城市场景语义理解主要任务中的性能：像素级、实例级和全景语义标记

支持旨在利用大量（弱）注释数据的研究，例如用于训练深度神经网络。数据集大小：11.80 GB

COCO 2014

COCO 是一个大规模物体检测、分割和caption数据集。数据集大小：37.57 GB

COCO 定义了 91 个类，但数据仅使用了 80 个类，训练集和验证集中的一些图像没有注释

测试集没有注释，COCO 2014 和 2017 使用相同的图像，但分割方式不同。

训练分割：82,783 张图像

测试分组：40,775 张图像

验证分割：40,504 张图像

COCO-2017

COCO 2017定义了 91 个类，但数据仅使用了 80 个类，训练集和验证集中的一些图像没有注释，测试集没有注释，COCO 2014 和 2017 使用相同的图像，但分割方式不同。数据集大小：25.20 GB

训练分割：118,287 张图像

测试分组：40,670 张图像

验证分割：5,000 张图像

Fashion-MNIST

该数据集包含 10 个类别的 70,000 张 28 x 28 灰度图像。其中有 60,000 张训练图像和 10,000 张测试图像。数据集大小：36.42 MB

Families in the Wild

Families in the Wild 是通过面部图像识别家庭的公共基准。该数据集包含来自 978 个家庭的 5,037 张面部图像，超过 26,642 张。每个家庭分配一个唯一的家庭 ID (FID)，范围从 F0001-F1018（即，自 2016 年首次发布以来，一些家庭被合并或删除）。该数据集是一项持续进行的工作。

使用五点人脸检测器 MTCNN 从各种照片类型（即大部分是家庭照片，以及几张个人的个人资料照片（面部照片））的图像中裁剪出人脸。每个家庭的成员数量从 3 到 26 不等，每个对象的脸部数量从 1 到 >10 不等。

此数据集中的样本与各种级别和类型的标签相关联。家族级标签包含成员列表，每个成员都分配有该家族独有的成员 ID (MID)（例如，F0011.MID2 指家族 11 中的 2 号成员）。每个成员都有注释，指定性别和与该家族中所有其他成员的关系。数据集大小：173.00 MB

FIW 中的关系包括：

===== ===== ID Type ===== ===== 0 not related or self 1 child 2 sibling 3 grandchild 4 parent 5 spouse 6 grandparent 7 great grandchild 8 great grandparent 9 TBD ===== =====

在 FiftyOne 中，每个样本对应一张脸部图像，并包含家庭 ID、成员 ID 等原始标签。关系标签存储为多标签分类，其中每个分类代表家庭成员与家庭中另一成员之间的一种关系。关系数量因人而异，但一个人的所有面孔都具有相同的关系标签。

此外，亲属关系验证任务的标签也通过 FiftyOne 加载到此数据集中。这些标签像关系一样存储为分类，但亲属关系的标签与上面定义的标签不同。例如，标签可能 fd代表父女亲属关系或母女亲属关系，而不是md父母亲属关系。

为了更轻松地浏览 FiftyOne 应用程序中的数据集，每个样本还包含一个face_id字段，其中包含成员每张脸的唯一整数，始终从 0 开始。这使您可以face_id 在应用程序中将字段过滤为 0，以仅显示每个人的单个图像。

供您参考，关系标签以矩阵形式存储在磁盘中，该矩阵提供每个成员与家庭其他成员的关系以及姓名和性别。第 i 行代表第 i 个家庭成员与第 j 个其他成员的关系。

例如，FID0001.csv包含：

MID 1 2 3 Name Gender 1 0 4 5 name1 f 2 1 0 1 name2 f 3 5 4 0 name3 m

HMBD51

HMDB51 是一个动作识别数据集，包含总共 6,766 个剪辑，分布在 51 个动作类别中。数据集大小：2.16 GB

ImageNet 2012

ImageNet，又名 ILSVRC 2012，是一个按照 WordNet 层次结构组织的图像数据集。WordNet 中每个有意义的概念（可能由多个单词或词组描述）称为“同义词集”或“同义词集”。WordNet 中有超过 100,000 个同义词集，其中大多数是名词（80,000 多个）。ImageNet 平均提供 1,000 幅图像来说明每个同义词集。每个概念的图像都经过质量控制和人工注释。在完成之后，我们希望 ImageNet 能够为 WordNet 层次结构中的大多数概念提供数千万张整齐排序的图像。

请注意，测试集的标签从未公开发布，因此仅提供训练集和验证集。

imagenet-sample

来自 ImageNet 2012 数据集的一小部分图像样本。

该数据集包含 1,000 张图像，从 ImageNet 2012 数据集的验证分割的每个类中随机选择一个。数据集大小：98.26 MB

Kinetics

Kinetics 是一个大规模、高质量的 URL 链接数据集，包含多达 650,000 个视频片段，涵盖 400/600/700 个人类动作类别（具体取决于数据集版本）。这些视频包括人与物体的互动（例如演奏乐器）以及人与人的互动（例如握手和拥抱）。每个动作类别至少有 400/600/700 个视频片段。每个片段都由人工注释，只有一个动作类别，时长约为 10 秒。

该数据集包含数据集 400 类版本的视频和动作分类。数据集大小：456 GB

原始分割统计数据：

训练分割：219,782 个视频

测试分组：35,357 个视频

验证样本：18,035 个视频

CVDF 分割统计：

训练分割：246,534 个视频

测试分组：39,805 个视频

验证样本：19,906 个视频

数据集大小：

列车分割：370 GB

测试分割：56 GB

验证分割：30 GB

kinetics-600

该数据集包含数据集 600 类版本的视频和动作分类。数据集大小：779 GB

原始分割统计数据：

训练分割：370,582 个视频

测试分组：56,618 个视频

验证样本：28,313 个视频

CVDF 分割统计：

训练分割：427,549 个视频

测试分组：72,924 个视频

验证样本：29,793 个视频

数据集大小：

列车分割：648 GB

测试分割：88 GB

验证分割：43 GB

kinetics-700

该数据集包含数据集 700 类版本的视频和动作分类。数据集大小：710 GB

分割统计：

训练分割：529,046 个视频

测试分组：67,446 个视频

验证样本：33,925 个视频

数据集大小

列车分割：603 GB

测试分割：59 GB

验证分割：48 GB

kinetics-700-2020

此版本包含 2020 年更新了新视频的 700 类数据集版本的视频和动作分类。该数据集是 Kinetics 700 的超集。数据集大小：710 GB

原始分割统计数据：

训练分割：542,352 个视频

测试分组：67,433 个视频

验证样本：34,125 个视频

CVDF 分割统计：

训练分割：534,073 个视频

测试分组：64,260 个视频

验证样本：33,914 个视频

数据集大小

列车分割：603 GB

测试分割：59 GB

验证分割：48 GB

KITTI

KITTI 包含一套使用自动驾驶平台构建的视觉任务。数据集大小：12.57 GB

该数据集包含左摄像机图像和相关的二维物体检测。

训练部分包含 7,481 张带注释的图像，测试部分包含 7,518 张未标记的图像。

kitti-multiview

KITTI 包含一套使用自动驾驶平台构建的视觉任务。

该数据集包含每个场景的以下多视图数据：

左侧摄像头图像标注有二维物体检测结果

右侧摄像头图像标注有二维物体检测结果

使用 3D 物体检测注释的 Velodyne LIDAR 点云

训练部分包含 7,481 个带注释的场景，测试部分包含 7,518 个未标记的场景。

数据集大小：53.34 GB

Labeled Faces in the Wild

Labeled Faces in the Wild 是人脸验证的公共基准，也称为配对。

该数据集包含从网上收集的 5,749 人脸的 13,233 张图像。每张脸都标有照片中人物的姓名。照片中的 1,680 人在数据集中有两张或两张以上不同的照片。这些脸的唯一限制是它们是由 Viola-Jones 人脸检测器检测到的。数据集大小：173.00 MB

MNIST

MNIST 手写数字数据库。该数据集包含 10 个类别的 70,000 张 28 x 28 灰度图像。其中有 60,000 张训练图像和 10,000 张测试图像。数据集大小：21.00 MB

Open Images V6

Open Images V6 是一个包含约 900 万张图像的数据集，其中大约 200 万张已注释并可通过此动物园数据集获取。

该数据集包含 600 个可装箱类别的分类、检测、分割和视觉关系任务的注释。

数据集大小：561 GB

并非所有图像都包含所有类型的标签

所有图像均已重新缩放，使其最大边最多为 1024 像素

完整拆分统计

训练分割：1,743,042 张图像 (513 GB)

测试分割：125,436 张图像（36 GB）

验证分割：41,620 张图像（12 GB）

Open Images V7

相较于v6增加了关键点注释

Places

Places 是一个包含 1000 万张图像的场景识别数据集，包含约 400 个独特的场景类别。

这些图像被标有场景语义类别，包含了世界上遇到的各种环境类型的大量列表。

数据集大小：29 GB

训练样本：1,803,460 张图像，每个类别有 3,068 到 5,000 张

测试样本：328,500 张图像，每个类别 900 张

验证样本：36500 张图像，每个类别 100 张

quickstart

具有地面真实边界框和预测的小型数据集。数据集大小：23.40 MB

该数据集包含来自 COCO-2017 验证分割的 200 张图像，模型预测由来自torchvision.models的开箱即用的 Faster R-CNN 模型生成。

quickstart-geo

包含地理位置数据的小型数据集。

该数据集包含来自纽约市地区 BDD100K 数据集验证分割的 500 张图像，带有物体检测和 GPS 时间戳。数据集大小：33.50 MB

quickstart-video

带有密集注释的小型视频数据集。数据集大小：35.20 MB

该数据集由人工注释者生成的 10 个具有密集物体检测的视频片段组成。

quickstart-groups

包含分组图像和点云数据的小型数据集。数据集大小：516.3 MB

该数据集由 KITTI 数据集训练分割的 200 个场景组成，每个场景包含左摄像头、右摄像头、点云和 2D/3D 对象注释数据。

quickstart-3d

具有网格、点云和定向边界框的小型 3D 数据集。数据集大小：215.7 MB

该数据集由来自ModelNet40数据集测试分割的 200 个 3D 网格样本组成，其中点云使用泊松盘采样方法生成，并基于凸包生成有向边界框。

对象已根据原始数据集重新调整比例并重新居中。

Sama-COCO

Sama-COCO 是 COCO-2017 的重新标记版本，是一个大规模物体检测和分割数据集。Sama-COCO 中的掩码更紧密，许多人群实例已分解为其组成部分。

此版本包含来自 COCO-2017 版本数据集的图像，以及边界框形式的注释和 Sama 提供的分割蒙版。数据集大小：25.67 GB

Sama-COCO 定义了 91 个类，但数据仅使用 80 个类（如 COCO-2017）

训练集和验证集中的一些图像没有注释

测试集没有注释

Sama-COCO 与 COCO-2017 的拆分方式相同

训练分割：118,287 张图像

测试分组：40,670 张图像

验证分割：5,000 张图像

UCF101

UCF101 是一个从 YouTube 收集的真实动作视频动作识别数据集，有 101 个动作类别。该数据集是 UCF50 数据集的扩展，UCF50 数据集有 50 个动作类别。

UCF101 包含 13,320 个视频，涵盖 101 个动作类别，在动作方面具有最大的多样性，并且由于摄像机运动、物体外观和姿势、物体比例、视点、杂乱背景、照明条件等存在很大差异，因此它是迄今为止最具挑战性的数据集。由于大多数可用的动作识别数据集都不真实，并且是由演员表演的，UCF101 旨在通过学习和探索新的真实动作类别来鼓励对动作识别进行进一步研究。

101 个动作类别的视频被分为 25 组，每组由 4-7 个动作视频组成。同一组的视频可能具有一些共同的特征，例如相似的背景、相似的视角等。

数据集大小：6.48 GB

VOC-2007

用于检测竞赛的 PASCAL 视觉对象类挑战赛 2007（VOC2007）的数据集。

该数据集共包含 9,963 张图像，每张图像包含一组对象，分为 20 个不同的类别，共计 24,640 个带注释的对象。

请注意，根据官方数据集，VOC2007 的测试集不包含注释。

数据集大小：868.85 MB

VOC-2012

用于检测竞赛的 PASCAL 视觉对象类挑战赛 2012（VOC2012）的数据集。

该数据集共包含 11540 张图像，每张图像包含一组对象，分为 20 个不同的类别，共计 27450 个带注释的对象。

请注意，根据官方数据集，VOC2012 的测试集不包含注释。

数据集大小：3.59 GB

💡

有关Notion安装或者使用上的问题，欢迎您在底部评论区留言，一起交流~

数据集名称	任务	数据类型
ActivityNet 100	classification, action-recognition, temporal-detection	video
ActivityNet 200	classification, action-recognition, temporal-detection	video
BDD100K	multilabel, automotive, manual	image
Caltech-101	classification	image
Caltech-256	classification	image
CIFAR-10	classification	image
CIFAR-100	classification	image
Cityscapes	multilabel, automotive, manual	image
COCO-2014	detection, segmentation	image
COCO-2017	detection, segmentation	image
Fashion MNIST	classification	image
Families in the Wild	classification	image
HMDB51	action-recognition	video
ImageNet 2012	classification, manual	image
ImageNet Sample	classification	image
Kinetics 400	classification, action-recognition	video
Kinetics 600	classification, action-recognition	video
Kinetics 700	classification, action-recognition	video
Kinetics 700-2020	classification, action-recognition	video
KITTI	detection	image
KITTI Multiview	point-cloud, detection	image
Labeled Faces in the Wild	classification, facial-recognition	image
MNIST	classification	image
Open Images V6	classification, detection, segmentation, relationships	image
Open Images V7	classification, detection, segmentation, keypoints, relationships	image
Places	classification	image
Quickstart	quickstart	image
Quickstart Geo	location, quickstart	image
Quickstart Video	quickstart	video
Quickstart Groups	point-cloud, quickstart	image
Quickstart 3D	point-cloud, mesh, quickstart	3d
Sama-COCO	detection, segmentation	image
UCF101	action-recognition	video
VOC-2007	detection	image
VOC-2012	detection	image