公开数据集&预训练模型
矩池云整理了常见的一些公开数据集和常用的预训练模型
矩池云整理了一些常见的公开数据集,如果您有推荐的公共数据集,可随时联系我们点击联系小助手。
如何使用
公共数据集和模型分布在机器中的
/public
和/dataset
目录下,用户对这两个目录只有读权限,如果您想使用相关资源,需要先将资源复制到机器内其他目录,再使用。注:
/dataset
目录主要存放比较大型的公开数据集,需要进行网盘扩容后才可在租用机器目录中显示。在租用机器后,您可使用
cd {访问路径}
命令快速使用和访问。以 Keras 数据集为例,访问命令为: cd /public/keras_datasets
Cifar10 等 Keras 支持的数据集,可通过复制到 Keras 路径使用。
shell
# 若路径不存在则先创建
mkdir -p ~/.keras/datasets/
# 复制到目标路径
cp /public/keras_datasets/cifar-10-batches-py.tar.gz ~/.keras/datasets/
复制后可在 Python 中载入使用。
python
import keras
from keras.datasets import cifar10
(x_train, y_train), (x_test, y_test) = cifar10.load_data()
公开数据集
大型数据集
访问路径:
/dataset
该目录主要存放比较大型的公开数据集,需要进行网盘扩容后才可在租用机器目录中显示。
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
ImageNet2012 | ImageNet 大规模视觉识别挑战赛 2012 (ILSVRC2012)数据集。 | /dataset/ImageNet2012 |
ImageNet2014 | ImageNet 大规模视觉识别挑战赛 2014 (ILSVRC2014)数据集。 | /dataset/ImageNet2014 |
ImageNet2015 | ImageNet 大规模视觉识别挑战赛 2015 (ILSVRC2015)数据集。 | /dataset/ImageNet2015 |
COCO 2017 | 2017年 COCO 竞赛的数据集,全称是Common Objects in Context,是微软团队提供的一个可以用来进行图像识别的数据集。COCO 2017数据集包括train(118287张)、val(5000张)、test(40670张) | /dataset/coco2017 |
Cityscapes | Cityscapes拥有5000张在城市环境中驾驶场景的图像(2975train,500 val,1525test)。它具有19个类别的密集像素标注(97%coverage),其中8个具有实例级分割。 | /dataset/Cityscapes |
VoxCeleb2 | 大型人声识别数据集,包含超过6000说话人共计超过百万的语音句子,适用于噪声和非约束场景下的声纹识别任务 | /dataset/VoxCeleb2 |
AlphaFold | AlphaFold 蛋白质数据库,由 DeepMind 推出可用于预测蛋白质3D结构。 | /dataset/alphafold |
nuScenes | nuScenes数据集是 Motional 团队开发的公共大型自动驾驶数据集。 | /dataset/nuScenes |
OpenLane1.2 | OpenLane是第一个真实世界的,也是迄今为止规模最大的3D车道数据集。 | /dataset/OpenLane1.2 |
LaSOT | CVPR2019 提出的单目标跟踪数据集,包含 1550 个序列,超过 3.87 万帧的数据,完全手动标注的高精度数据集。包含85 个类别,每个类别包含 20 个(70 个类)或 10 个(15 个类)序列,平均视频长度约为 2,500 帧(即 83 秒),每个序列具备视觉和语言注释。 | /dataset/LaSOT |
iNaturalist 2018 | 大规模生物图像分类数据集,数据集中共有 8142 个物种,其中 437,513 张训练图像和 24,426 张验证图像。每个图像都有一个真实值标签。 | /dataset/iNaturalist2018 |
SemanticKITTI | 一个基于 KITTI Vision Benchmark 的大规模数据集,包括了里程计任务提供的所有序列。 | /dataset/SemanticKITTI |
LUNA16 | LUng Nodule Analysis 2016 赛事数据集 | /dataset/LUNA16 |
Genecorpus-30M | 一个大规模的预训练语料库,其中包括来自广泛范围组织的约3000万个人类单细胞转录组数据,这些数据来自公开可用的数据集。 | /dataset/Genecorpus-30M |
Keras 预置数据集
访问路径:
/public/keras_datasets
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/keras_datasets/mnist.npz |
CIFAR10 | 10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/keras_datasets/cifar-10-batches-py.tar.gz |
CIFAR100 | 100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/keras_datasets/cifar-100-python.tar.gz |
IMDB | 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。 | /public/keras_datasets/imdb.npz |
REUTERS | 路透社新闻专线主题分类,11228条新闻专线,46个主题。 | /public/keras_datasets/reuters.npz |
FASHION MNIST | 训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。 | /public/keras_datasets/fashion-mnist |
BOSTON HOUSING | 波斯顿房价回归数据集。 | /public/keras_datasets/boston_housing.npz |
Pytorch 数据集
访问路径:
/public/torchvision_datasets
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/torchvision_datasets/MNIST |
FashionMNIST | 训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。 | /public/torchvision_datasets/FashionMNIST |
CIFAR10 | 10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/torchvision_datasets/cifar-10-batches-py |
使用方法:torchvision.datasets 引用后,将数据集复制进 root 参数指定的目录。
TensorFlow 数据集
访问路径:
/public/tensorflow_datasets/
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/tensorflow_datasets/mnist |
CIFAR10 | 数据集由6万张32*32的彩色图片组成,10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/tensorflow_datasets/cifar10 |
CIFAR100 | 100 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/tensorflow_datasets/cifar100 |
IMDB REVIEWS | 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。 | /public/tensorflow_datasets/imdb_reviews |
TF FLOWERS | 数据集为五种花朵数据集,分别为雏菊(daisy),郁金香(tulips),向日葵(sunflowers),玫瑰(roses),蒲公英(dandelion)。 | /public/tensorflow_datasets/tf_flowers |
FASHION MNIST | 训练集 60000 张,大小28*28,共10类(0-9),测试集 10000 张图像。 | /public/tensorflow_datasets/fashion_mnist |
CATS VS DOGS | 这个数据集是Kaggle大数据竞赛的一道赛题,利用给定的数据集,用算法实现猫和狗的识别。猫和狗的图片数量都是12500张且按顺序排序 | /public/tensorflow_datasets/cats_vs_dogs |
Image图像数据集
访问路径:
/public/data/image
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
taskcv-2017-public | 来自于VisDA2017竞赛,是一个针对领域自适应的、从仿真器到现实环境的数据集。包含训练、验证和测试三个领域共包含 12 类 28 万张图像,训练图像是同一物体在不同情况下生成的。 | /public/data/image/taskcv-2017-public |
3D_Segmentation | 来自 EPFL CVLab 的电子显微镜下图像,可用于图像分割。 | /public/data/image/3D_segmentation |
VOC 2012 | 来自 PASCAL VOC 2012 数据集,此数据集可以用于图像分类、目标检测、图像分割。 | /public/data/image/voc2012 |
COCO 2014 | 起源于微软的 Common Objects in Context,是一个大型的、丰富的物体检测、分割和标注数据集。 | /public/data/image/COCO2014 |
ModelNet | ModelNet 数据集由普林斯顿视觉与机器人实验室于 2015 年发布,提供全面的物体 3D 模型。 | /public/data/image/ModelNet |
CASIA-WebFace | 是一个大规模人脸数据集,主要用于身份鉴定和人脸识别,其包含 10,575 个主题和 494,414 张图像。 | /public/data/image/CASIA-WebFace |
Flickr8k | 数据集包含8,000张图像,每张图像都与五个不同的标题配对,这些标题提供了对图片中物体和事件的内容描述。详细内容 | /public/data/image/Flickr8k |
DRIVE | 用于视网膜病变研究的数据集,相关图像均来自于荷兰的糖尿病视网膜病变筛查计划,其被用于视网膜图像中的血管分割比较研究。 | /public/data/image/DRIVE |
DOTA | DOTA 数据集是用于航拍图像中的目标检测的大型图像数据集,包含 2806 张遥感图像,近 19 万个标注实例 | /public/data/image/DOTA |
Ai_Challenger_Caption | 数据来自2017 AI Challenger,数据集对给定的每一张图片有五句话的中文描述。数据集包含30万张图片,150万句中文描述。训练集:210,000 张,验证集:30,000 张,测试集 A:30,000 张,测试集 B:30,000 张。 | /public/data/image/Ai_Challenger_Caption_2017 |
KITTI 3D Object Detection | 包含对实际交通场景进行数据采集获得的公开数据集,包含7481张训练图片以及7518张测试图片,一共有80256个标记物体。并且测试模式包含普通的视角以及鸟瞰视角。 | /public/data/image/KITTI |
20bn-jester-v1 | 该数据集由大量的人群工作者创建,它允许训练健壮的机器学习模型来识别人的手势。其中训练集为118562个视频,验证集为14787个视频,测试集为14743个视频,总共27类标签。 | /public/data/image/20bn-jester-v1 |
AVA_dataset | 一个美学质量评估的数据库,包括250000张照片。每一张照片,都有一系列的评分,以及语义级别的label,其中语义级别的label共60类,同时还有14类photographic style。 | /public/data/image/AVA_dataset |
CelebA | CelebA是CelebFaces Attribute的缩写,意即名人人脸属性数据集,其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记,CelebA由香港中文大学开放提供,广泛用于人脸相关的计算机视觉训练任务,可用于人脸属性标识训练、人脸检测训练以及landmark标记等 | /public/data/image/CelebA |
CIFAR10 | 数据集由6万张32*32的彩色图片组成,10 个类别,32x32 像素彩色图像,用于图像分类。训练集 50000 张,测试集 10000 张。 | /public/data/image/cifar10 |
Food-101 | 包含了101 种食品类别的图像数据集,共有101,000 张图像,平均每个类别拥有250张测试图像和750张训练图像。 | /public/data/image/food-101.tar.gz |
MedMNIST | 上海交大发布的医学图像分析数据集。由18个类MNIST的生物医学图像数据集组成,包括12个2D数据集(共708069例,28x28)以及6个3D数据集(共10214例,28x28x28),涵盖大部分的医学图像数据模态、多样的数据规模和丰富的任务类型 | /public/data/image/medmnist |
mini-imagenet | 由ImageNet提取的适用于小样本学习的数据集。miniImageNet包含100类共60000张彩色图片,其中每类有600个样本,每张图片的规格为84 × 84 。 | /public/data/image/mini-imagenet |
MNIST | 经典的小型(28x28 像素)灰度手写数字数据集,共 10 类,用于灰度数据图像识别。训练集 60000 张,测试集 10000 张。 | /public/data/image/mnist |
GOT-10K | 通用的目标追踪数据集,该数据集包含 10,000 多个真实世界移动对象的视频片段和超过 150 万个手动标记的边界框。涵盖了大多数560+类真实世界的运动对象和80+类运动模式。同时,该数据集提供了额外的标签,包括对象可见比率和运动类,作为处理特定挑战的额外监督。 | /public/data/image/GOT-10K |
3D_Lane_Synthetic | 这是一个综合数据集,旨在促进 3D 车道检测方法的开发和评估。 | /public/data/image/3D_Lane_Synthetic |
CULane | CULane 是一个用于交通车道检测学术研究的大型挑战性数据集。 | /public/data/image/CULane |
GraspNet | GraspNet是一个持续丰富的通用物体抓取的开放项目。 | /public/data/image/GraspNet |
InterHand2.6M | 从单个RGB图像中进行3D交互手部姿态估计的数据集(ECCV 2020) | /public/data/image/InterHand2.6M |
LIDCdata | 肺部图像数据库联盟 (LIDC) 和图像数据库资源倡议 (IDRI):CT 扫描肺结节的完整参考数据库。 | /public/data/image/LIDCdata |
LUNA16-Mask | 2016 年肺结节分析赛事相关数据集 | /public/data/image/LUNA16-Mask |
LUNA2016 | 2016 年肺结节分析赛事数据集 | /public/data/image/LUNA2016 |
TT100K | 清华-腾讯100K(官方训练和测试集),原始训练集包括6105张图像,原始测试集包括3071张图像。 | /public/data/image/TT100K |
Tusimple | 车道线检测相关数据集 | /public/data/image/Tusimple |
WikiArt-Refined | WikiArt 包含 195 名不同艺术家的绘画作品。该数据集有 42129 张训练图像和 10628 张测试图像。 | /public/data/image/WikiArt-Refined |
AVisT | AVisT 提供专用的视觉对象跟踪数据集,涵盖与现实应用程序高度相关的各种不利场景。 | /public/data/image/AVisT |
NLP 自然语言处理数据集
访问路径:
/public/data/nlp
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
UCI-spambase | 经典的垃圾邮件分类数据集 | /public/data/nlp/UCI-spambase |
amazonreviews | 来自亚马逊的商品评论 | /public/data/nlp/amazonreviews |
dbpedia | 来自 Wikipedia 的文章分类 | /public/data/nlp/dbpedia |
dbpedia_14 | 基于DBpedia2014的14个不重叠的分类数据集,包含40,000训练样本和5,000测试样本。源自维基百科的语义词条 | /public/data/nlp/dbpedia_14.zip |
glue | 通用语言理解评估基准,面向9项任务的数据集,参考gluebenchmark | /public/data/nlp/glue.zip |
imdb-sentiments | 电影影评情感分类,训练集 25000 条评论,正面评价标为 1,负面评价标为 0。测试集 25000 条评论。 | /public/data/nlp/imdb-sentiments |
newsgroup | 用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合 | /public/data/nlp/newsgroup.zip |
nltk_data | NLTK,自然语言处理工具包的数据库,常用于NLP领域 | /public/data/nlp/nltk_data |
SQuAD | 斯坦福问答数据集,一个阅读理解数据集 | /public/data/nlp/squad.zip |
super_glue | 更新版的Glue数据集 | /public/data/nlp/super_glue.zip |
wikitext | 英语词库数据是由Salesforce MetaMind策划的包含1亿个词汇的大型语言建模语料库。这些词汇都是从维基百科一些经典文章中提取得到 | /public/data/nlp/wikitext.zip |
yahooAnswers | 数据集源于 Yahoo!Answers Comprehensive Questions and Answers 1.0 的 10个主要分类数据,每个类别分别包含 140000 个训练样本和 5000 个测试样本 | /public/data/nlp/yahooAnswers.zip |
yelp_review_full | 这个数据集是Yelp业务、评论和用户数据的一个子集。包含大量的评论、业务、用户、提示和签到数据 | /public/data/nlp/yelp_review_full.zip |
Videos_and_Music 视频和音乐数据集
访问路径:
/public/data/videos_and_music
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
beethoven | 贝多芬交响曲,以 mid 格式存储 | /public/data/videos_and_music/beethoven |
youtube8m | 来自Youtube的视频,公开总数据有1.53TB,源数据集包含 8,000,000万个YouTube视频链接,矩池云仅提供若干样例 | /public/data/videos_and_music/youtube8m |
OTB100 | 该数据集总共包含 100 个序列,每个序列都用边界框和 11 个挑战属性逐帧注释。OTB-2015 数据集包含 OTB 数据集的所有 100 个序列。 | /public/data/videos_and_music/OTB100.zip |
NfS | 该数据集由100个视频(380K帧)组成的单目标追踪数据集,这些视频由现在普遍使用的更高帧率(240 FPS)的摄像机从真实世界场景中捕获。 所有帧都使用轴对齐的边界框进行注释,所有序列都使用九个视觉属性手动标记 - 光照变化、尺度变化、遮挡、非刚性物体变形、快速运动、视点切换、出视野、背景干扰、低分辨率。 | /public/data/videos_and_music/Nfs |
Speech 音频数据集
访问路径:
/public/data/speech/
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
VoxCeleb1 | 大型人声识别数据集,包含超过1251说话人共计超过十万的语音句子,适用于噪声和非约束场景下的声纹识别任务。 | /public/data/speech/VoxCeleb1 |
Free-ST-Chinese-Mandarin-Corpus | 中文普通话语音数据集,包含来自855个对话者的102600句话。 | /public/data/speech/Free-ST-Chinese-Mandarin-Corpus |
LibriSpeech | 公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。 | /public/data/speech/LibriSpeech |
THCHS-30 | THCHS30是由清华大学语音与语言技术中心发布的开源中文语音数据集。数据集包含了1万余条语音文件,大约40小时的中文语音数据,内容以文章诗句为主,全部为女声。THCHS-30是在安静的办公室环境下,通过单个碳粒麦克风录取,采样频率16kHz,采样大小16bits。 | /public/data/speech/THCHS-30 |
TIMIT | TIMIT数据集的语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phonelevel)上进行了手动分割,标记。70%的说话人是男性;大多数说话者是成年白人。 | /public/data/speech/TIMIT |
Kaggle 竞赛数据集
访问路径:
/public/data/kaggle_competitions
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
dogs_vs_cats_redux | Kaggle大数据竞赛的猫狗大战数据集,有1738张图片可供训练。 | /public/data/kaggle_competitions/dogs_vs_cats_redux |
msdchallenge | Kaggle 上的挑战赛,提供了百万的歌曲数据集(million song dateset),以预测用户会听哪一首歌。 | /public/data/kaggle_competitions/msdchallenge |
netflix_price_data | 数据来源于 Netflix,希望有参赛者能写出更优的推荐算法。 | /public/data/kaggle_competitions/netflix_price_data |
transaction_prediction | 数据来源于 Santander,以预测哪个用户可能会再次购买。 | /public/data/kaggle_competitions/transaction_prediction |
天池竞赛数据集
访问路径:
/public/data/天池/
+数据文件名称
名称 | 描述 | 数据文件/文件夹名称 |
---|---|---|
Traffic_Flow_KDD_CUP_2017 | 杭州市交通数据集 | Traffic_Flow_KDD_CUP_2017 |
User-Behavior-Data-on-Taobao-App | 淘宝 APP 用户行为数据集 | User-Behavior-Data-on-Taobao-App |
中文糖尿病标注数据集 | 中文糖尿病标注数据集 | 中文糖尿病标注数据集.zip |
常用预训练模型
Keras 预训练模型
访问路径:
/public/keras_pretrained_model
使用方法:您在运行代码时程序会自动下载需要的预训练模型,例如:
text
Downloading data from https://github.com/fchollet/deep-learning-models/releases/download/v0.1/vgg16_weights_tf_dim_ordering_tf_kernels.h5
只需在
/public/keras_pretrained_model
中找到此同名 h5 文件,复制进 ~/.keras/models/
目录即可,例如要使用 Resnet50 模型:shell
# 若路径不存在则先创建
mkdir -p ~/.keras/models/
# 复制到目标路径
cp /public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5 ~/.keras/models
复制成功后即可在 Python 文件中即可调用该模型。
python
from keras.applications.resnet50 import ResNet50
model = ResNet50(weights='imagenet')
model.summary()
若您使用的是 Resnet50 模型,可能会遇到以下报错:
text
A local file was found, but it seems to be incomplete or outdated because the auto file hash does not match the original value of 2cb95161c43110f7111970584f804107 so we will re-download the data.
这个报错是因为新版本的 Keras 预训练模型已经从 googleapis 上下载,而您仍在使用老版本的数据集。老版本的数据集存放于
keras_pretrained_model
的子目录 resnet50v0.1
,这些数据集为 Github 仓库中 v0.1 版本对应的数据。建议您使用新版的数据集进行代替。更多关于 Keras 预置模型的使用教程,可参见官方教程
模型文件/文件夹路径 |
---|
/public/keras_pretrained_model/NASNet-large-no-top.h5 |
/public/keras_pretrained_model/NASNet-large.h5 |
/public/keras_pretrained_model/NASNet-mobile-no-top.h5 |
/public/keras_pretrained_model/NASNet-mobile.h5 |
/public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/densenet121_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/densenet169_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/densenet201_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/inception_resnet_v2_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/inception_v3_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels.h5 |
/public/keras_pretrained_model/inception_v3_weights_th_dim_ordering_th_kernels_notop.h5 |
/public/keras_pretrained_model/mobilenet_1_0_128_tf.h5 |
/public/keras_pretrained_model/mobilenet_1_0_128_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_1_0_160_tf.h5 |
/public/keras_pretrained_model/mobilenet_1_0_192_tf.h5 |
/public/keras_pretrained_model/mobilenet_1_0_192_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_1_0_224_tf.h5 |
/public/keras_pretrained_model/mobilenet_1_0_224_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_2_5_128_tf.h5 |
/public/keras_pretrained_model/mobilenet_2_5_128_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_2_5_160_tf.h5 |
/public/keras_pretrained_model/mobilenet_2_5_160_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_5_0_128_tf.h5 |
/public/keras_pretrained_model/mobilenet_5_0_128_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_5_0_160_tf.h5 |
/public/keras_pretrained_model/mobilenet_5_0_160_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_5_0_192_tf.h5 |
/public/keras_pretrained_model/mobilenet_5_0_192_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_5_0_224_tf.h5 |
/public/keras_pretrained_model/mobilenet_5_0_224_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_7_5_128_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_7_5_160_tf_no_top.h5 |
/public/keras_pretrained_model/mobilenet_7_5_192_tf.h5 |
/public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_tf_dim_ordering.h5 |
/public/keras_pretrained_model/music_tagger_crnn_weights_tf_kernels_th_dim_ordering.h5 |
/public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnet101_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnet101v2_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnet152_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnet152v2_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnet50v0.1 |
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels.h5 |
/public/keras_pretrained_model/resnet50v0.1/resnet50_weights_th_dim_ordering_th_kernels_notop.h5 |
/public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnet50v2_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnext101_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/resnext50_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/vgg16_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels.h5 |
/public/keras_pretrained_model/vgg16_weights_th_dim_ordering_th_kernels_notop.h5 |
/public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/vgg19_weights_tf_dim_ordering_tf_kernels_notop.h5 |
/public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels.h5 |
/public/keras_pretrained_model/vgg19_weights_th_dim_ordering_th_kernels_notop.h5 |
/public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels.h5 |
/public/keras_pretrained_model/xception_weights_tf_dim_ordering_tf_kernels_notop.h5 |
Pytorch 预训练模型
访问路径:
使用方法:先执行
/public/pytorch_models
使用方法:先执行
mkdir -p ~/.cache/torch/hub/checkpoints/
创建目录,然后将预训练模型复制进去。例如需要使用 vgg16 模型,先确定模型具体名称(如:vgg16-397923af.pth),操作如下:
bash
# 创建一个Pytorch 预训练模型默认存储路径
mkdir -p ~/.cache/torch/hub/checkpoints/
# 复制对应模型文件到默认路径
cp /public/pytorch_models/vgg/vgg16-397923af.pth ~/.cache/torch/hub/checkpoints/
名称 | 模型文件/文件夹路径 |
---|---|
alexnet | /public/pytorch_models/alexnet |
clip_models | /public/pytorch_models/clip_models |
densenet | /public/pytorch_models/densenet |
googlenet | /public/pytorch_models/googlenet |
inception | /public/pytorch_models/inception |
mnasnet | /public/pytorch_models/mnasnet |
mobilenetv2 | /public/pytorch_models/mobilenetv2 |
pytorch-pretrained-BERT | /public/pytorch_models/pytorch-pretrained-BERT |
resnet | /public/pytorch_models/resnet |
shufflenetv2 | /public/pytorch_models/shufflenetv2 |
squeezenet | /public/pytorch_models/squeezenet |
vgg | /public/pytorch_models/vgg |
Pytorch image 预训练模型
访问路径:
/public/pytorch-image-models
名称 | 模型文件/文件夹路径 |
---|---|
v0.1-cadene | /public/pytorch-image-models/v0.1-cadene |
v0.1-coat-weights | /public/pytorch-image-models/v0.1-coat-weights |
v0.1-dnf-weights | /public/pytorch-image-models/v0.1-dnf-weights |
v0.1-effv2-weights | /public/pytorch-image-models/v0.1-effv2-weights |
v0.1-ger-weights | /public/pytorch-image-models/v0.1-ger-weights |
v0.1-hrnet | /public/pytorch-image-models/v0.1-hrnet |
v0.1-pit-weights | /public/pytorch-image-models/v0.1-pit-weights |
v0.1-regnet | /public/pytorch-image-models/v0.1-regnet |
v0.1-repvgg-weights | /public/pytorch-image-models/v0.1-repvgg-weights |
v0.1-res2net | /public/pytorch-image-models/v0.1-res2net |
v0.1-resnest | /public/pytorch-image-models/v0.1-resnest |
v0.1-rexnet | /public/pytorch-image-models/v0.1-rexnet |
v0.1-rs-weights | /public/pytorch-image-models/v0.1-rs-weights |
v0.1-selecsls | /public/pytorch-image-models/v0.1-selecsls |
v0.1-tresnet | /public/pytorch-image-models/v0.1-tresnet |
v0.1-vitjx | /public/pytorch-image-models/v0.1-vitjx |
v0.1-vt3p-weights | /public/pytorch-image-models/v0.1-vt3p-weights |
v0.1-weights | /public/pytorch-image-models/v0.1-weights |
TF Bert 模型
访问路径:
/public/data/nlp
名称 | 描述 | 模型文件/文件夹路径 |
---|---|---|
bert_models | bert模型集合 | /public/data/nlp/bert_models |
chinese_bert_models | chinese_bert模型集合 | /public/data/nlp/chinese_bert_models |
Huggingface 模型
访问路径::
/public/model/nlp
描述 | 模型文件/文件夹路径 |
---|---|
huggingface bert模型,基于MLM和SOP方向训练的英语预训练Transformer模型。Base模型的第二版。 | /public/model/nlp/albert-base-v2.zip |
huggingface bert模型,基于MLM和SOP方向训练的英语预训练Transformer模型。Xxlarge模型的第二版。 | /public/model/nlp/albert-xxlarge-v2.zip |
huggingface bertcased模型,基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。 | /public/model/nlp/bert-base-cased.zip |
huggingface bert中文基础预训练模型 | /public/model/nlp/bert-base-chinese.zip |
huggingface bertuncased模型,基于MLM和NSP方向训练的英语预训练Transformer模型。Bert基础模型。 | /public/model/nlp/bert-base-uncased.zip |
大型bert uncased模型 | /public/model/nlp/bert-large-uncased.zip |
基于全词mask的中文bert模型 | /public/model/nlp/chinese-bert-wwm-ext.zip |
基于180G数据训练的中文ELECTRA bert模型 | /public/model/nlp/chinese-electra-180g-base-discriminator.zip |
基于全词mask的中文bert模型 | /public/model/nlp/chinese-roberta-wwm-ext.zip |
OpenAI团队开发的CLIP模型 | /public/model/nlp/clip-vit-base-patch32.zip |
基于t5 small模型的迁移学习模型 | /public/model/nlp/code_trans_t5_small_program_synthese_transfer_learning_finetune.zip |
使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa | /public/model/nlp/deberta-v3-base.zip |
使用disentangled attention机制和enhanced mask decoder提升了BERT和RoBERTa | /public/model/nlp/deberta-v3-large.zip |
由cnn_dailymail数据集训练的distilbart模型 | /public/model/nlp/distilbart-cnn-12-6.zip |
基于SST-2调优的DistilBERT-base-uncased模型,在dev set上达到了91.3%准确率 | /public/model/nlp/distilbert-base-uncased-finetuned-sst-2-english.zip |
Distilled-GPT2模型 | /public/model/nlp/distilgpt2.zip |
中文GPT2模型 | /public/model/nlp/gpt2-chinese-cluecorpussmall.zip |
著名的OpenAI的GPT-2模型 | /public/model/nlp/gpt2.zip |
基于MLM方向训练的BERT模型 | /public/model/nlp/roberta-base.zip |
Text-To-Text Transfer Transformer (T5) base模型 | /public/model/nlp/t5-base.zip |
多语言版本的RoBERTa模型,基于2.5TB数据超过100种语言训练 | /public/model/nlp/xlm-roberta-base.zip |
其他资源
软件资源
名称 | 描述 | 数据文件/文件夹路径 |
---|---|---|
Milvus | Milvus 是一款全球领先的开源向量数据库,赋能 AI 应用和向量相似度搜索,加速非结构化数据检索。 | /public/database/milvus |
MATLAB 2020a | MATLAB 2020a 安装包,点击查看安装教程 | /public/matlab/Matlab98R2020a_Lin64.iso |
MATLAB 2019b | MATLAB 2019b 安装包,点击查看安装教程 | /public/matlab/R2019b_Linux.iso |
CUDA 安装
访问目录:
/public/cuda
矩池云提供了 CUDA 安装包,根据您自己想要安装的 CUDA 版本,安装命令如下
shell
bash /public/cuda/cuda_11.2.2_460.32.03_linux.run --silent --toolkit --samples
安装包md5值数据如下,
安装包 | md5 |
---|---|
cuda_7.0.28_linux.run | 312aede1c3d1d3425c8caa67bbb7a55e |
cuda_7.5.18_linux.run | 4b3bcecf0dfc35928a0898793cf3e4c6 |
cuda_8.0.61_375.26_linux.run | 33e1bd980e91af4e55f3ef835c103f9b |
cuda_9.0.176_384.81_linux.run | 7a00187b2ce5c5e350e68882f42dd507 |
cuda_9.1.85_387.26_linux.run | 67a5c3933109507df6b68f80650b4b4a |
cuda_9.2.148_396.37_linux.run | 8303cdf46904e6dea8d5d641b0b46f0d |
cuda_10.0.130_410.48_linux.run | 9375304c8dc8d42e7f9a9ae37e80b42b |
cuda_10.1.243_418.87.00_linux.run | a71f703ed688eeca637dc27df714e854 |
cuda_10.2.89_440.33.01_linux.run | 3d816c583759efa8567a92c1a2af90db |
cuda_11.0.3_450.51.06_linux.run | 70af4cebe30549b9995fb9c57d538214 |
cuda_11.1.1_455.32.00_linux.run | c24e2755e3868692051a38797ce01044 |
cuda_11.2.2_460.32.03_linux.run | 955ae5d59531923d32a3bfe3f68a7dfe |