客服

公开数据集&预训练模型

矩池云整理了常见的一些公开数据集和常用的预训练模型

矩池云整理了一些常见的公开数据集,如果您有推荐的公共数据集,可随时联系我们点击联系小助手

如何使用

公共数据集和模型分布在机器中的/public/dataset目录下,用户对这两个目录只有读权限,如果您想使用相关资源,需要先将资源复制到机器内其他目录,再使用。
注: /dataset目录主要存放比较大型的公开数据集,需要进行网盘扩容后才可在租用机器目录中显示。
在租用机器后,您可使用 cd {访问路径} 命令快速使用和访问。以 Keras 数据集为例,访问命令为: cd /public/keras_datasets
Cifar10 等 Keras 支持的数据集,可通过复制到 Keras 路径使用。
shell
# 若路径不存在则先创建
mkdir -p ~/.keras/datasets/
# 复制到目标路径
cp /public/keras_datasets/cifar-10-batches-py.tar.gz ~/.keras/datasets/
复制后可在 Python 中载入使用。
python
import keras
from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()

公开数据集

大型数据集

访问路径:/dataset
该目录主要存放比较大型的公开数据集,需要进行网盘扩容后才可在租用机器目录中显示。
名称描述数据文件/文件夹路径
ImageNet2012ImageNet 大规模视觉识别挑战赛 2012 (ILSVRC2012)数据集。/dataset/ImageNet2012
ImageNet2014ImageNet 大规模视觉识别挑战赛 2014 (ILSVRC2014)数据集。/dataset/ImageNet2014
ImageNet2015ImageNet 大规模视觉识别挑战赛 2015 (ILSVRC2015)数据集。/dataset/ImageNet2015
COCO 20172017年 COCO 竞赛的数据集,全称是Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集。COCO 2017数据集包括train(118287张)、val(5000张)、test(40670张)/dataset/coco2017
CityscapesCityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。/dataset/Cityscapes
VoxCeleb2大型人声识别数据集,包含超过6000说话人共计超过百万的语音句子,适用于噪声和非约束场景下的声纹识别任务/dataset/VoxCeleb2
AlphaFoldAlphaFold 蛋白质数据库,由 DeepMind 推出可用于预测蛋白质3D结构。/dataset/alphafold
nuScenesnuScenes数据集是 Motional 团队开发的公共大型自动驾驶数据集。/dataset/nuScenes
OpenLane1.2OpenLane是第一个真实世界的,也是迄今为止规模最大的3D车道数据集。/dataset/OpenLane1.2
LaSOTCVPR2019 提出的单目标跟踪数据集,包含 1550 个序列,超过 3.87 万帧的数据,完全手动标注的高精度数据集。包含85 个类别,每个类别包含 20 个(70 个类)或 10 个(15 个类)序列,平均视频长度约为 2,500 帧(即 83 秒),每个序列具备视觉和语言注释。/dataset/LaSOT
iNaturalist 2018大规模生物图像分类数据集,数据集中共有 8142 个物种,其中 437,513 张训练图像和 24,426 张验证图像。每个图像都有一个真实值标签。/dataset/iNaturalist2018
SemanticKITTI一个基于 KITTI Vision Benchmark 的大规模数据集,包括了里程计任务提供的所有序列。/dataset/SemanticKITTI
LUNA16LUng Nodule Analysis 2016 赛事数据集/dataset/LUNA16
Genecorpus-30M一个大规模的预训练语料库,其中包括来自广泛范围组织的约3000万个人类单细胞转录组数据,这些数据来自公开可用的数据集。/dataset/Genecorpus-30M

Keras 预置数据集

访问路径:/public/keras_datasets
名称描述数据文件/文件夹路径
MNIST经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。/public/keras_datasets/mnist.npz
CIFAR1010 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。/public/keras_datasets/cifar-10-batches-py.tar.gz
CIFAR100100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。/public/keras_datasets/cifar-100-python.tar.gz
IMDB电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。/public/keras_datasets/imdb.npz
REUTERS路透社新闻专线主题分类,11228条新闻专线,46个主题。/public/keras_datasets/reuters.npz
FASHION MNIST训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。/public/keras_datasets/fashion-mnist
BOSTON HOUSING波斯顿房价回归数据集。/public/keras_datasets/boston_housing.npz

Pytorch 数据集

访问路径:/public/torchvision_datasets
名称
描述
数据文件/文件夹路径
MNIST经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。/public/torchvision_datasets/MNIST
FashionMNIST训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。/public/torchvision_datasets/FashionMNIST
CIFAR1010 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。/public/torchvision_datasets/cifar-10-batches-py
使用方法:torchvision.datasets 引用后,将数据集复制进 root 参数指定的目录。

TensorFlow 数据集

访问路径:/public/tensorflow_datasets/
名称
描述
数据文件/文件夹路径
MNIST经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。/public/tensorflow_datasets/mnist
CIFAR10数据集由6万张32*32的彩色图片组成,10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。/public/tensorflow_datasets/cifar10
CIFAR100100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。/public/tensorflow_datasets/cifar100
IMDB REVIEWS电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。/public/tensorflow_datasets/imdb_reviews
TF FLOWERS数据集为五种花朵数据集,分别为雏菊(daisy),郁金香(tulips),向日葵(sunflowers),玫瑰(roses),蒲公英(dandelion)。/public/tensorflow_datasets/tf_flowers
FASHION MNIST训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。/public/tensorflow_datasets/fashion_mnist
CATS VS DOGS这个数据集是Kaggle大数据竞赛的一道赛题,利用给定的数据集,用算法实现猫和狗的识别。猫和狗的图片数量都是12500张且按顺序排序/public/tensorflow_datasets/cats_vs_dogs

Image图像数据集

访问路径:/public/data/image
名称
描述
数据文件/文件夹路径
taskcv-2017-public来自于VisDA2017竞赛,是一个针对领域自适应的、从仿真器到现实环境的数据集。包含训练、验证和测试三个领域共包含 12 类 28 万张图像,训练图像是同一物体在不同情况下生成的。/public/data/image/taskcv-2017-public
3D_Segmentation来自 EPFL CVLab 的电子显微镜下图像,可用于图像分割。/public/data/image/3D_segmentation
VOC 2012来自 PASCAL VOC 2012 数据集,此数据集可以用于图像分类、目标检测、图像分割。/public/data/image/voc2012
COCO 2014起源于微软的 Common Objects in Context,是一个大型的、丰富的物体检测、分割和标注数据集。/public/data/image/COCO2014
ModelNetModelNet 数据集由普林斯顿视觉与机器人实验室于 2015 年发布,提供全面的物体 3D 模型。/public/data/image/ModelNet
CASIA-WebFace是一个大规模人脸数据集,主要用于身份鉴定和人脸识别,其包含 10,575 个主题和 494,414 张图像。/public/data/image/CASIA-WebFace
Flickr8k数据集包含8,000张图像,每张图像都与五个不同的标题配对,这些标题提供了对图片中物体和事件的内容描述。详细内容/public/data/image/Flickr8k
DRIVE用于视网膜病变研究的数据集,相关图像均来自于荷兰的糖尿病视网膜病变筛查计划,其被用于视网膜图像中的血管分割比较研究。/public/data/image/DRIVE
DOTADOTA 数据集是用于航拍图像中的目标检测的大型图像数据集,包含 2806 张遥感图像,近 19 万个标注实例/public/data/image/DOTA
Ai_Challenger_Caption数据来自2017 AI Challenger,数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片,150万句中文描述。训练集:210,000 张,验证集:30,000 张,测试集 A:30,000 张,测试集 B:30,000 张。/public/data/image/Ai_Challenger_Caption_2017
KITTI 3D Object Detection包含对实际交通场景进行数据采集获得的公开数据集,包含7481张训练图片以及7518张测试图片,一共有80256个标记物体。并且测试模式包含普通的视角以及鸟瞰视角。/public/data/image/KITTI
20bn-jester-v1该数据集由大量的人群工作者创建,它允许训练健壮的机器学习模型来识别人的手势。其中训练集为118562个视频,验证集为14787个视频,测试集为14743个视频,总共27类标签。/public/data/image/20bn-jester-v1
AVA_dataset一个美学质量评估的数据库,包括250000张照片。每一张照片,都有一系列的评分,以及语义级别的label,其中语义级别的label共60类,同时还有14类photographic style。/public/data/image/AVA_dataset
CelebACelebA是CelebFaces Attribute的缩写,意即名人人脸属性数据集,其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记,CelebA由香港中文大学开放提供,广泛用于人脸相关的计算机视觉训练任务,可用于人脸属性标识训练、人脸检测训练以及landmark标记等/public/data/image/CelebA
CIFAR10数据集由6万张32*32的彩色图片组成,10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。/public/data/image/cifar10
Food-101包含了101 种食品类别的图像数据集,共有101,000 张图像,平均每个类别拥有250张测试图像和750张训练图像。/public/data/image/food-101.tar.gz
MedMNIST上海交大发布的医学图像分析数据集。由18个类MNIST的生物医学图像数据集组成,包括12个2D数据集(共708069例,28x28)以及6个3D数据集(共10214例,28x28x28),涵盖大部分的医学图像数据模态、多样的数据规模和丰富的任务类型/public/data/image/medmnist
mini-imagenet由ImageNet提取的适用于小样本学习的数据集。miniImageNet包含100类共60000张彩色图片,其中每类有600个样本,每张图片的规格为84 × 84 。/public/data/image/mini-imagenet
MNIST经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。/public/data/image/mnist
GOT-10K通用的目标追踪数据集,该数据集包含 10,000 多个真实世界移动对象的视频片段和超过 150 万个手动标记的边界框。涵盖了大多数560+类真实世界的运动对象和80+类运动模式。同时,该数据集提供了额外的标签,包括对象可见比率和运动类,作为处理特定挑战的额外监督。/public/data/image/GOT-10K
3D_Lane_Synthetic这是一个综合数据集,旨在促进 3D 车道检测方法的开发和评估。/public/data/image/3D_Lane_Synthetic
CULaneCULane 是一个用于交通车道检测学术研究的大型挑战性数据集。/public/data/image/CULane
GraspNetGraspNet是一个持续丰富的通用物体抓取的开放项目。/public/data/image/GraspNet
InterHand2.6M从单个RGB图像中进行3D交互手部姿态估计的数据集(ECCV 2020)/public/data/image/InterHand2.6M
LIDCdata肺部图像数据库联盟 (LIDC) 和图像数据库资源倡议 (IDRI):CT 扫描肺结节的完整参考数据库。/public/data/image/LIDCdata
LUNA16-Mask2016 年肺结节分析赛事相关数据集/public/data/image/LUNA16-Mask
LUNA20162016 年肺结节分析赛事数据集/public/data/image/LUNA2016
TT100K清华-腾讯100K(官方训练和测试集),原始训练集包括6105张图像,原始测试集包括3071张图像。/public/data/image/TT100K
Tusimple车道线检测相关数据集/public/data/image/Tusimple
WikiArt-RefinedWikiArt 包含 195 名不同艺术家的绘画作品。该数据集有 42129 张训练图像和 10628 张测试图像。/public/data/image/WikiArt-Refined
AVisTAVisT 提供专用的视觉对象跟踪数据集,涵盖与现实应用程序高度相关的各种不利场景。/public/data/image/AVisT

NLP 自然语言处理数据集

访问路径:/public/data/nlp
名称描述数据文件/文件夹路径
UCI-spambase经典的垃圾邮件分类数据集/public/data/nlp/UCI-spambase
amazonreviews来自亚马逊的商品评论/public/data/nlp/amazonreviews
dbpedia来自 Wikipedia 的文章分类/public/data/nlp/dbpedia
dbpedia_14基于DBpedia2014的14个不重叠的分类数据集,包含40,000训练样本和5,000测试样本。源自维基百科的语义词条/public/data/nlp/dbpedia_14.zip
glue通用语言理解评估基准,面向9项任务的数据集,参考gluebenchmark/public/data/nlp/glue.zip
imdb-sentiments电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。/public/data/nlp/imdb-sentiments
newsgroup用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合/public/data/nlp/newsgroup.zip
nltk_dataNLTK,自然语言处理工具包的数据库,常用于NLP领域/public/data/nlp/nltk_data
SQuAD斯坦福问答数据集,一个阅读理解数据集/public/data/nlp/squad.zip
super_glue更新版的Glue数据集/public/data/nlp/super_glue.zip
wikitext英语词库数据是由Salesforce MetaMind策划的包含1亿个词汇的大型语言建模语料库。这些词汇都是从维基百科一些经典文章中提取得到/public/data/nlp/wikitext.zip
yahooAnswers数据集源于 Yahoo!Answers Comprehensive Questions and Answers 1.0 的 10个主要分类数据,每个类别分别包含 140000 个训练样本和 5000 个测试样本/public/data/nlp/yahooAnswers.zip
yelp_review_full这个数据集是Yelp业务、评论和用户数据的一个子集。包含大量的评论、业务、用户、提示和签到数据/public/data/nlp/yelp_review_full.zip

Videos_and_Music 视频和音乐数据集

访问路径:/public/data/videos_and_music
名称描述数据文件/文件夹路径
beethoven贝多芬交响曲,以 mid 格式存储/public/data/videos_and_music/beethoven
youtube8m来自Youtube的视频,公开总数据有1.53TB,源数据集包含 8,000,000万个YouTube视频链接,矩池云仅提供若干样例/public/data/videos_and_music/youtube8m
OTB100该数据集总共包含 100 个序列,每个序列都用边界框和 11 个挑战属性逐帧注释。OTB-2015 数据集包含 OTB 数据集的所有 100 个序列。/public/data/videos_and_music/OTB100.zip
NfS该数据集由100个视频(380K帧)组成的单目标追踪数据集,这些视频由现在普遍使用的更高帧率(240 FPS)的摄像机从真实世界场景中捕获。 所有帧都使用轴对齐的边界框进行注释,所有序列都使用九个视觉属性手动标记 - 光照变化、尺度变化、遮挡、非刚性物体变形、快速运动、视点切换、出视野、背景干扰、低分辨率。/public/data/videos_and_music/Nfs

Speech 音频数据集

访问路径:/public/data/speech/
名称描述数据文件/文件夹路径
VoxCeleb1大型人声识别数据集,包含超过1251说话人共计超过十万的语音句子,适用于噪声和非约束场景下的声纹识别任务。/public/data/speech/VoxCeleb1
Free-ST-Chinese-Mandarin-Corpus中文普通话语音数据集,包含来自855个对话者的102600句话。/public/data/speech/Free-ST-Chinese-Mandarin-Corpus
LibriSpeech公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。/public/data/speech/LibriSpeech
THCHS-30THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。/public/data/speech/THCHS-30
TIMITTIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phonelevel)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。/public/data/speech/TIMIT

Kaggle 竞赛数据集

访问路径:/public/data/kaggle_competitions
名称描述数据文件/文件夹路径
dogs_vs_cats_reduxKaggle大数据竞赛的猫狗大战数据集,有1738张图片可供训练。/public/data/kaggle_competitions/dogs_vs_cats_redux
msdchallengeKaggle 上的挑战赛,提供了百万的歌曲数据集(million song dateset),以预测用户会听哪一首歌。/public/data/kaggle_competitions/msdchallenge
netflix_price_data数据来源于 Netflix,希望有参赛者能写出更优的推荐算法。/public/data/kaggle_competitions/netflix_price_data
transaction_prediction数据来源于 Santander,以预测哪个用户可能会再次购买。/public/data/kaggle_competitions/transaction_prediction

天池竞赛数据集

访问路径:/public/data/天池/+数据文件名称
名称描述数据文件/文件夹名称
Traffic_Flow_KDD_CUP_2017杭州市交通数据集Traffic_Flow_KDD_CUP_2017
User-Behavior-Data-on-Taobao-App淘宝 APP 用户行为数据集User-Behavior-Data-on-Taobao-App
中文糖尿病标注数据集中文糖尿病标注数据集中文糖尿病标注数据集.zip

常用预训练模型

Keras 预训练模型

访问路径: /public/keras_pretrained_model
使用方法:您在运行代码时程序会自动下载需要的预训练模型,例如:
text
Downloading data from https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels.h5
只需在/public/keras_pretrained_model中找到此同名 h5 文件,复制进 ~/.keras/models/ 目录即可,例如要使用 Resnet50 模型:
shell
# 若路径不存在则先创建
mkdir -p ~/.keras/models/
# 复制到目标路径
cp /public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5 ~/.keras/models
复制成功后即可在 Python 文件中即可调用该模型。
python
from keras.applications.resnet50 import ResNet50
model = ResNet50(weights='imagenet')
model.summary()
若您使用的是 Resnet50 模型,可能会遇到以下报错:
text
A local file was found, but it seems to be incomplete or outdated because the auto file hash does not match the original value of 2cb95161c43110f7111970584f804107 so we will re-download the data.
这个报错是因为新版本的 Keras 预训练模型已经从 googleapis 上下载,而您仍在使用老版本的数据集。老版本的数据集存放于 keras_pretrained_model 的子目录 resnet50v0.1 ,这些数据集为 Github 仓库中 v0.1 版本对应的数据。建议您使用新版的数据集进行代替。
更多关于 Keras 预置模型的使用教程,可参见官方教程
模型文件/文件夹路径
/public/keras_pretrained_model/NASNet-large-no-top.h5
/public/keras_pretrained_model/NASNet-large.h5
/public/keras_pretrained_model/NASNet-mobile-no-top.h5
/public/keras_pretrained_model/NASNet-mobile.h5
/public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/mobilenet_1_0_128_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_1_0_160_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_192_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_192_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_1_0_224_tf.h5
/public/keras_pretrained_model/mobilenet_1_0_224_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_2_5_128_tf.h5
/public/keras_pretrained_model/mobilenet_2_5_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_2_5_160_tf.h5
/public/keras_pretrained_model/mobilenet_2_5_160_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_128_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_160_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_160_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_192_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_192_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_5_0_224_tf.h5
/public/keras_pretrained_model/mobilenet_5_0_224_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_7_5_128_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_7_5_160_tf_no_top.h5
/public/keras_pretrained_model/mobilenet_7_5_192_tf.h5
/public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_tf_dim_ordering.h5
/public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_th_dim_ordering.h5
/public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet50v0.1
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels_notop.h5
/public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels.h5
/public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels_notop.h5
/public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels.h5
/public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels_notop.h5

Pytorch 预训练模型

访问路径:/public/pytorch_models
使用方法:先执行 mkdir -p ~/.cache/torch/hub/checkpoints/ 创建目录,然后将预训练模型复制进去。
例如需要使用 vgg16 模型,先确定模型具体名称(如:vgg16-397923af.pth),操作如下:
bash
# 创建一个Pytorch 预训练模型默认存储路径
mkdir -p ~/.cache/torch/hub/checkpoints/
# 复制对应模型文件到默认路径
cp /public/pytorch_models/vgg/vgg16-397923af.pth ~/.cache/torch/hub/checkpoints/
名称模型文件/文件夹路径
alexnet/public/pytorch_models/alexnet
clip_models/public/pytorch_models/clip_models
densenet/public/pytorch_models/densenet
googlenet/public/pytorch_models/googlenet
inception/public/pytorch_models/inception
mnasnet/public/pytorch_models/mnasnet
mobilenetv2/public/pytorch_models/mobilenetv2
pytorch-pretrained-BERT/public/pytorch_models/pytorch-pretrained-BERT
resnet/public/pytorch_models/resnet
shufflenetv2/public/pytorch_models/shufflenetv2
squeezenet/public/pytorch_models/squeezenet
vgg/public/pytorch_models/vgg

Pytorch image 预训练模型

访问路径:/public/pytorch-image-models
名称模型文件/文件夹路径
v0.1-cadene/public/pytorch-image-models/v0.1-cadene
v0.1-coat-weights/public/pytorch-image-models/v0.1-coat-weights
v0.1-dnf-weights/public/pytorch-image-models/v0.1-dnf-weights
v0.1-effv2-weights/public/pytorch-image-models/v0.1-effv2-weights
v0.1-ger-weights/public/pytorch-image-models/v0.1-ger-weights
v0.1-hrnet/public/pytorch-image-models/v0.1-hrnet
v0.1-pit-weights/public/pytorch-image-models/v0.1-pit-weights
v0.1-regnet/public/pytorch-image-models/v0.1-regnet
v0.1-repvgg-weights/public/pytorch-image-models/v0.1-repvgg-weights
v0.1-res2net/public/pytorch-image-models/v0.1-res2net
v0.1-resnest/public/pytorch-image-models/v0.1-resnest
v0.1-rexnet/public/pytorch-image-models/v0.1-rexnet
v0.1-rs-weights/public/pytorch-image-models/v0.1-rs-weights
v0.1-selecsls/public/pytorch-image-models/v0.1-selecsls
v0.1-tresnet/public/pytorch-image-models/v0.1-tresnet
v0.1-vitjx/public/pytorch-image-models/v0.1-vitjx
v0.1-vt3p-weights/public/pytorch-image-models/v0.1-vt3p-weights
v0.1-weights/public/pytorch-image-models/v0.1-weights

TF Bert 模型

访问路径:/public/data/nlp
名称描述模型文件/文件夹路径
bert_modelsbert模型集合/public/data/nlp/bert_models
chinese_bert_modelschinese_bert模型集合/public/data/nlp/chinese_bert_models

Huggingface 模型

访问路径::/public/model/nlp
描述
模型文件/文件夹路径
huggingface bert模型,基于MLM和SOP方向训练的英语预训练Transformer模型。Base模型的第二版。/public/model/nlp/albert-base-v2.zip
huggingface bert模型,基于MLM和SOP方向训练的英语预训练Transformer模型。Xxlarge模型的第二版。/public/model/nlp/albert-xxlarge-v2.zip
huggingface bertcased模型,基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。/public/model/nlp/bert-base-cased.zip
huggingface bert中文基础预训练模型/public/model/nlp/bert-base-chinese.zip
huggingface bertuncased模型,基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。/public/model/nlp/bert-base-uncased.zip
大型bert uncased模型/public/model/nlp/bert-large-uncased.zip
基于全词mask的中文bert模型/public/model/nlp/chinese-bert-wwm-ext.zip
基于180G数据训练的中文ELECTRA bert模型/public/model/nlp/chinese-electra-180g-base-discriminator.zip
基于全词mask的中文bert模型/public/model/nlp/chinese-roberta-wwm-ext.zip
OpenAI团队开发的CLIP模型/public/model/nlp/clip-vit-base-patch32.zip
基于t5 small模型的迁移学习模型/public/model/nlp/code_trans_t5_small_program_synthese_transfer_learning_finetune.zip
使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa/public/model/nlp/deberta-v3-base.zip
使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa/public/model/nlp/deberta-v3-large.zip
由cnn_dailymail数据集训练的distilbart模型/public/model/nlp/distilbart-cnn-12-6.zip
基于SST-2调优的DistilBERT-base-uncased模型,在dev set上达到了91.3%准确率/public/model/nlp/distilbert-base-uncased-finetuned-sst-2-english.zip
Distilled-GPT2模型/public/model/nlp/distilgpt2.zip
中文GPT2模型/public/model/nlp/gpt2-chinese-cluecorpussmall.zip
著名的OpenAI的GPT-2模型/public/model/nlp/gpt2.zip
基于MLM方向训练的BERT模型/public/model/nlp/roberta-base.zip
Text-To-Text Transfer Transformer (T5) base模型/public/model/nlp/t5-base.zip
多语言版本的RoBERTa模型,基于2.5TB数据超过100种语言训练/public/model/nlp/xlm-roberta-base.zip

其他资源

软件资源

名称描述数据文件/文件夹路径
MilvusMilvus 是一款全球领先的开源向量数据库,赋能 AI 应用和向量相似度搜索,加速非结构化数据检索。/public/database/milvus
MATLAB 2020aMATLAB 2020a 安装包,点击查看安装教程/public/matlab/Matlab98R2020a_Lin64.iso
MATLAB 2019bMATLAB 2019b 安装包,点击查看安装教程/public/matlab/R2019b_Linux.iso

CUDA 安装

访问目录:/public/cuda
矩池云提供了 CUDA 安装包,根据您自己想要安装的 CUDA 版本,安装命令如下
shell
bash /public/cuda/cuda_11.2.2_460.32.03_linux.run --silent --toolkit --samples
安装包md5值数据如下,
安装包md5
cuda_7.0.28_linux.run312aede1c3d1d3425c8caa67bbb7a55e
cuda_7.5.18_linux.run4b3bcecf0dfc35928a0898793cf3e4c6
cuda_8.0.61_375.26_linux.run33e1bd980e91af4e55f3ef835c103f9b
cuda_9.0.176_384.81_linux.run7a00187b2ce5c5e350e68882f42dd507
cuda_9.1.85_387.26_linux.run67a5c3933109507df6b68f80650b4b4a
cuda_9.2.148_396.37_linux.run8303cdf46904e6dea8d5d641b0b46f0d
cuda_10.0.130_410.48_linux.run9375304c8dc8d42e7f9a9ae37e80b42b
cuda_10.1.243_418.87.00_linux.runa71f703ed688eeca637dc27df714e854
cuda_10.2.89_440.33.01_linux.run3d816c583759efa8567a92c1a2af90db
cuda_11.0.3_450.51.06_linux.run70af4cebe30549b9995fb9c57d538214
cuda_11.1.1_455.32.00_linux.runc24e2755e3868692051a38797ce01044
cuda_11.2.2_460.32.03_linux.run955ae5d59531923d32a3bfe3f68a7dfe