公开数据集说明

矩池云整理了常见的一些公开数据集

矩池云整理了常见了一些公开数据集,如果您有推荐的公共数据集,可随时联系我们。

keras 预置数据集

访问路径:/public/keras_datasets
  • MNIST:经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。
  • CIFAR10:10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
  • CIFAR100:100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
  • IMDB:电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。
  • REUTERS:路透社新闻专线主题分类,11228条新闻专线,46个主题。
  • FASHION MNIST:训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。
  • BOSTON HOUSEING:波斯顿房价回归数据集。

keras 预训练模型

访问路径:/public/keras_pretrained_model/
使用方法:先执行 mkdir -p ~/.keras/models/ 创建目录,然后将预训练模型复制进去。

Pytorch 预训练模型

访问路径:/public/pytorch_models
使用方法:先执行 mkdir -p ~/.cache/torch/checkpoints/ 创建目录,然后将预训练模型复制进去。

image - 图像数据集

访问路径:/public/data/image
  • 3D_Segmentation:来自 EPFL CVLab 的电子显微镜下图像,可用于图像分割。
  • voc2012:来自 PASCAL VOC 2012 数据集,此数据集可以用于图像分类、目标检测、图像分割。
  • coco2014:起源于微软的 Common Objects in Context,是一个大型的、丰富的物体检测、分割和标注数据集。
  • ModelNet:ModelNet 数据集由普林斯顿视觉与机器人实验室于 2015 年发布,提供全面的物体 3D 模型。
  • CASIA-WebFace:是一个大规模人脸数据集,主要用于身份鉴定和人脸识别,其包含 10,575 个主题和 494,414 张图像。
  • DIOR:西北工业大学发布的大规模、公开可用的光学遥感图像目标检测基准。数据集包含23463张图像和190288个实例,覆盖20个目标类。
  • Flickr8k:数据集包含8,000张图像,每张图像都与五个不同的标题配对,这些标题提供了对图片中物体和事件的内容描述。详细内容
  • DRIVE:用于视网膜病变研究的数据集,相关图像均来自于荷兰的糖尿病视网膜病变筛查计划,其被用于视网膜图像中的血管分割比较研究。
  • insightface-ms1m:基于 MS-Celeb-1M 名人图片数据集的 2D 和 3D 人脸分析项目,详情
  • Airbus-Ship-Detection:Kaggle的遥感图像分割检测比赛 Airbus Ship Detection Challenge 的数据集
  • DOTA:DOTA 数据集是用于航拍图像中的目标检测的大型图像数据集,包含 2806 张遥感图像,近 19 万个标注实例
  • Ai_Challenger_Caption:数据来自2017 AI Challenger,数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片,150万句中文描述。训练集:210,000 张,验证集:30,000 张,测试集 A:30,000 张,测试集 B:30,000 张。
  • KITTI 3D Object Detection:包含7481张训练图片以及7518张测试图片,一共有80256个标记物体。并且测试模式包含普通的视角以及鸟瞰视角。
仅网盘扩容后支持:
访问路径:/dataset
  • ImageNet:目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测。
  • coco2017:2017年 COCO 竞赛的数据集。
  • Cityscapes:Cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。
  • VGG-Face2:VGG-Face 2 Dataset 是一个大规模人脸识别数据集,其包含共计 9131 个人的面部数据,其图像均来自 Google 的图片搜索,在姿势、年龄、种族和职业方面有很大差异。

NLP - 自然语言处理数据集

访问路径:/public/data/nlp
  • dbpedia:来自 Wikipedia 的文章分类
  • stanford-question-answering:来自斯坦福的 100,000+ 问答数据集
  • amazonreviews:来自亚马逊的商品评论
  • UCI-spambase:经典的垃圾邮件分类数据集

videos_and_music - 视频和音乐数据集

访问路径:/public/data/videos_and_music
  • youtube8m:来自 Youtube 的视频,公开总数据有 1.53TB,源数据集包含 8,000,000 万个 YouTube 视频链接,矩池云仅提供若干样例。
  • beethoven:贝多芬交响曲,以 mid 格式存储。

kaggle_compettions

访问路径:/public/data/kaggle_competitions
  • msdchallenge:Kaggle 上的挑战赛,提供了百万的歌曲数据集(million song dateset),以预测用户会听哪一首歌。
  • netflix-prize-data:数据来源于 Netflix,希望有参赛者能写出更优的推荐算法。
  • transaction_prediction:数据来源于 Santander,以预测哪个用户可能会再次购买。

天池

访问路径:/public/data/天池
  • 中文糖尿病标注数据集
  • Traffic_Flow_KDD_CUP_2017:杭州市交通数据集
  • User Behavior Data on Taobao App:淘宝 APP 用户行为数据集

如何使用

在租用机器后,您可使用 cd {访问路径} 命令快速使用和访问(只读)。例如 cd /public/keras_datasets
Cifar10 等 Keras 支持的数据集,可通过复制到 Keras 路径使用。
shell
# 若路径不存在则先创建
mkdir -p ~/.keras/datasets/
# 复制到目标路径
cp /public/keras_datasets/cifar-10-batches-py.tar.gz ~/.keras/datasets/
复制后可在 Python 中载入使用。
python
import keras
from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
若您想使用矩池云提供的 Keras 预置模型,请移步如何使用 Keras 预置模型