使用离线任务进行长时间训练
如何提交及查看离线任务
离线任务使用说明
简介
离线任务功能旨在为用户提供一种高效、便捷的方式来进行长时间的AI任务训练。与传统的在线训练方式相比,离线任务具有如下优势:
- 可以避免因为网络连接不稳定、断开或者带宽限制等问题而导致训练过程中断,从而保证训练效果;
- 可以节约计算资源和时间成本。您可以将需要训练的数据集和模型上传到我们的平台上,然后通过提交任务的方式来启动训练过程。这样可以避免自己购买和维护昂贵的计算设备或云服务,同时也能够避免因为计算资源不足而导致的训练速度缓慢。
- 具有更好的灵活性和可扩展性。您可以根据自己的需求和实际情况来配置训练参数和规模,同时还可以对训练过程进行监控和调试。
通过使用我们的离线任务功能,您可以更加高效、便捷地进行长时间的AI任务训练,并且能够获得更好的训练效果和保障。欢迎尝试并享受这个全新的体验!
使用推荐:结合矩池云个人网盘/团队网盘使用离线任务,持久保存训练数据、模型、训练结果和日志。
本期功能:
- 支持配置单机单卡实例,暂不支持单机多卡或多机多卡的实例
- 支持普通容器实例,不支持
Windows
实例、不支持支持docker
实例 - 界面支持从个人网盘选取训练脚本,不支持从团队网盘/课程网盘选取脚本(可自行写命令)
权限开通
离线任务权限目前由人工进行分配,需要使用的用户,请联系小助手。授权具有有效期,到期后,可联系小助手进行免费续期。
计费逻辑
离线任务当前仅收取实例使用的费用,即任务所运行的实例按照按时租用价格消耗的费用,时长卡、算力豆、优惠券亦可抵扣,具体参考计费规则
提交任务
建议在提交任务前,先通过租用实例在交互式界面上验证脚本是否可正常启动。
字段说明:
任务名称
:必填,当前任务名称,同时会赋予给任务启动的实例;运行区域
:必填,每个区域配置的实例、网盘、镜像、环境等资源有所不同,请按需选择;实例配置
:必填,选择列表中展示了 运行区域
内所有的实例类型;运行环境
:必填,选择列表中展示了所选实例支持运行的环境和镜像资源;环境变量
:环境变量的录入格式为:name=matpool;value=100
执行命令
:必填,支持从运行区域
的个人网盘中导入.py
或.sh
脚本。选择好脚本后,系统自动生成执行命令。此命令将在实例中运行选中的脚本并将运行日志输出到个人网盘中。注:
- 如果选择
.py
文件,系统默认使用矩池云安装的Python解释器,路径为/root/miniconda3/envs/myconda/bin/python
,如果自己conda新建了环境,则改成对应的环境路径即可。 - 脚本运行结果默认存放在个人网盘目录下(/mnt)
执行文件模版
test.sh
模版:shell
#!/bin/bash
#Task 1: 打印环境变量 name 和 value
echo "Name Environment Variable: $name"
echo "Value Environment Variable: $value"
#Task 2: 循环打印 10 次 "hello matpool" 消息,并在每次消息输出后间隔 10 秒钟
count=1
while [ $count -le 10 ]
do
echo "hello matpool"
sleep 10
count=$((count + 1))
done
test.py
脚本:python
import os
import time
#Task 1: 打印环境变量 name 和 value
name = os.environ['name']
value = os.environ['value']
print(f"Name Environment Variable: {name}")
print(f"Value Environment Variable: {value}\n")
#Task 2: 循环打印 10 次 "hello matpool" 消息,并在每次消息输出后间隔 10 秒钟
count = 1
while count <= 10:
print("hello matpool")
time.sleep(10)
count += 1
任务状态
任务的整个生命周期中,包含三个状态:
启动中
:任务处于等待资源、排队调度的阶段,此时尚未分配实例资源;运行中
:此状态下,任务获得实例资源,开始运行,此时已经分配实例资源,可通过界面的查看详情
按钮跳转查看实例状态;已终止
:此状态下,取消任务、停止任务运行、终止任务操作,实例侧释放实例操作及任务自身运行完毕等场景都会结束此任务。注:任务终止后,任务对应的实例将自动释放。