公开数据集说明

矩池云整理了常见的一些公开数据集

矩池云整理了常见了一些公开数据集,如果您有推荐的公共数据集,可随时联系我们。

keras 预置数据集

访问路径:/public/keras_datasets
名称描述
MNIST经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。
CIFAR1010 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
CIFAR100100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
IMDB电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。
REUTERS路透社新闻专线主题分类,11228条新闻专线,46个主题。
FASHION MNIST训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。
BOSTON HOUSEING波斯顿房价回归数据集。

keras 预训练模型

访问路径:/public/keras_pretrained_model/
使用方法:先执行 mkdir -p ~/.keras/models/ 创建目录,然后将预训练模型复制进去。

Pytorch 预训练模型

访问路径:/public/pytorch_models
使用方法:先执行 mkdir -p ~/.cache/torch/checkpoints/ 创建目录,然后将预训练模型复制进去。

TensorFlow datasets

访问路径:/public/tensorflow_datasets/
名称描述
MNIST经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。
CIFAR1010 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
CIFAR100100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。
IMDB REVIEWS电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。
TF FLOWERS数据集为五种花朵数据集,分别为雏菊(daisy),郁金香(tulips),向日葵(sunflowers),玫瑰(roses),蒲公英(dandelion)。
FASHION MNIST训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。
CATS VS DOGSKaggle大数据竞赛的猫狗大战数据集,有1738张图片可供训练。

image - 图像数据集

访问路径:/public/data/image
名称描述
3D_Segmentation来自 EPFL CVLab 的电子显微镜下图像,可用于图像分割。
voc2012来自 PASCAL VOC 2012 数据集,此数据集可以用于图像分类、目标检测、图像分割。
coco2014起源于微软的 Common Objects in Context,是一个大型的、丰富的物体检测、分割和标注数据集。
ModelNetModelNet 数据集由普林斯顿视觉与机器人实验室于 2015 年发布,提供全面的物体 3D 模型。
CASIA-WebFace是一个大规模人脸数据集,主要用于身份鉴定和人脸识别,其包含 10,575 个主题和 494,414 张图像。
DIOR西北工业大学发布的大规模、公开可用的光学遥感图像目标检测基准。数据集包含23463张图像和190288个实例,覆盖20个目标类。
Flickr8k数据集包含8,000张图像,每张图像都与五个不同的标题配对,这些标题提供了对图片中物体和事件的内容描述。详细内容
DRIVE用于视网膜病变研究的数据集,相关图像均来自于荷兰的糖尿病视网膜病变筛查计划,其被用于视网膜图像中的血管分割比较研究。
insightface-ms1m基于 MS-Celeb-1M 名人图片数据集的 2D 和 3D 人脸分析项目,详情
Airbus-Ship-DetectionKaggle的遥感图像分割检测比赛 Airbus Ship Detection Challenge 的数据集
DOTADOTA 数据集是用于航拍图像中的目标检测的大型图像数据集,包含 2806 张遥感图像,近 19 万个标注实例
Ai_Challenger_Caption数据来自2017 AI Challenger,数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片,150万句中文描述。训练集:210,000 张,验证集:30,000 张,测试集 A:30,000 张,测试集 B:30,000 张。
KITTI 3D Object Detection包含7481张训练图片以及7518张测试图片,一共有80256个标记物体。并且测试模式包含普通的视角以及鸟瞰视角。
20bn-jester-v1该数据集由大量的人群工作者创建,它允许训练健壮的机器学习模型来识别人的手势。其中训练集为118562个视频,验证集为14787个视频,测试集为14743个视频,总共27类标签。
仅网盘扩容后支持:
访问路径:/dataset
名称描述
ImageNet目前世界上最大的图像识别数据库,主要用于机器视觉领域的图像分类和目标检测。
coco20172017年 COCO 竞赛的数据集。
CityscapesCityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。
VGG-Face2VGG-Face 2 Dataset 是一个大规模人脸识别数据集,其包含共计 9131 个人的面部数据,其图像均来自 Google 的图片搜索,在姿势、年龄、种族和职业方面有很大差异。

NLP - 自然语言处理数据集

访问路径:/public/data/nlp
  • dbpedia:来自 Wikipedia 的文章分类
  • stanford-question-answering:来自斯坦福的 100,000+ 问答数据集
  • amazonreviews:来自亚马逊的商品评论
  • UCI-spambase:经典的垃圾邮件分类数据集

videos_and_music - 视频和音乐数据集

访问路径:/public/data/videos_and_music
  • youtube8m:来自 Youtube 的视频,公开总数据有 1.53TB,源数据集包含 8,000,000 万个 YouTube 视频链接,矩池云仅提供若干样例。
  • beethoven:贝多芬交响曲,以 mid 格式存储。

speech音频数据集

访问路径:/public/data/speech/
  • THCHS-30:由清华大学语音与语言技术中心(CSLT)出版的开放式中文语音数据库。包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。对学术用户完全免费。
  • MAGICDATA Mandarin Chinese Read Speech Corpus:Magic Data技术有限公司的中文语料库,语料库包含755小时的语音数据,其主要是移动终端的录音数据。可免费用于学术用途。

kaggle_compettions

访问路径:/public/data/kaggle_competitions
  • msdchallenge:Kaggle 上的挑战赛,提供了百万的歌曲数据集(million song dateset),以预测用户会听哪一首歌。
  • netflix-prize-data:数据来源于 Netflix,希望有参赛者能写出更优的推荐算法。
  • transaction_prediction:数据来源于 Santander,以预测哪个用户可能会再次购买。

天池

访问路径:/public/data/天池
  • 中文糖尿病标注数据集
  • Traffic_Flow_KDD_CUP_2017:杭州市交通数据集
  • User Behavior Data on Taobao App:淘宝 APP 用户行为数据集

如何使用

在租用机器后,您可使用 cd {访问路径} 命令快速使用和访问(只读)。例如 cd /public/keras_datasets
Cifar10 等 Keras 支持的数据集,可通过复制到 Keras 路径使用。
shell
# 若路径不存在则先创建
mkdir -p ~/.keras/datasets/
# 复制到目标路径
cp /public/keras_datasets/cifar-10-batches-py.tar.gz ~/.keras/datasets/
复制后可在 Python 中载入使用。
python
import keras
from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
若您想使用矩池云提供的 Keras 预置模型,请移步如何使用 Keras 预置模型

关于 CUDA 安装

矩池云提供了 CUDA 安装包,根据您自己想要安装的 CUDA 版本,安装命令如下
shell
bash /public/cuda/cuda_11.2.2_460.32.03_linux.run --silent --toolkit --samples
安装包md5值数据如下,
安装包md5
cuda_7.0.28_linux.run312aede1c3d1d3425c8caa67bbb7a55e
cuda_7.5.18_linux.run4b3bcecf0dfc35928a0898793cf3e4c6
cuda_8.0.61_375.26_linux.run33e1bd980e91af4e55f3ef835c103f9b
cuda_9.0.176_384.81_linux.run7a00187b2ce5c5e350e68882f42dd507
cuda_9.1.85_387.26_linux.run67a5c3933109507df6b68f80650b4b4a
cuda_9.2.148_396.37_linux.run8303cdf46904e6dea8d5d641b0b46f0d
cuda_10.0.130_410.48_linux.run9375304c8dc8d42e7f9a9ae37e80b42b
cuda_10.1.243_418.87.00_linux.runa71f703ed688eeca637dc27df714e854
cuda_10.2.89_440.33.01_linux.run3d816c583759efa8567a92c1a2af90db
cuda_11.0.3_450.51.06_linux.run70af4cebe30549b9995fb9c57d538214
cuda_11.1.1_455.32.00_linux.runc24e2755e3868692051a38797ce01044
cuda_11.2.2_460.32.03_linux.run955ae5d59531923d32a3bfe3f68a7dfe