客服

使用离线任务进行长时间训练

如何提交及查看离线任务

离线任务使用说明

简介

离线任务功能旨在为用户提供一种高效、便捷的方式来进行长时间的AI任务训练。与传统的在线训练方式相比,离线任务具有如下优势:
  1. 可以避免因为网络连接不稳定、断开或者带宽限制等问题而导致训练过程中断,从而保证训练效果;
  2. 可以节约计算资源和时间成本。您可以将需要训练的数据集和模型上传到我们的平台上,然后通过提交任务的方式来启动训练过程。这样可以避免自己购买和维护昂贵的计算设备或云服务,同时也能够避免因为计算资源不足而导致的训练速度缓慢。
  3. 具有更好的灵活性和可扩展性。您可以根据自己的需求和实际情况来配置训练参数和规模,同时还可以对训练过程进行监控和调试。
通过使用我们的离线任务功能,您可以更加高效、便捷地进行长时间的AI任务训练,并且能够获得更好的训练效果和保障。欢迎尝试并享受这个全新的体验!
使用推荐:结合矩池云个人网盘/团队网盘使用离线任务,持久保存训练数据、模型、训练结果和日志。
本期功能:
  • 支持配置单机单卡实例,暂不支持单机多卡或多机多卡的实例
  • 支持普通容器实例,不支持Windows实例、不支持支持docker实例
  • 界面支持从个人网盘选取训练脚本,不支持从团队网盘/课程网盘选取脚本(可自行写命令)

权限开通

离线任务权限目前由人工进行分配,需要使用的用户,请联系小助手。授权具有有效期,到期后,可联系小助手进行免费续期。

计费逻辑

离线任务当前仅收取实例使用的费用,即任务所运行的实例按照按时租用价格消耗的费用,时长卡、算力豆、优惠券亦可抵扣,具体参考计费规则

提交任务

建议在提交任务前,先通过租用实例在交互式界面上验证脚本是否可正常启动。
字段说明:
任务名称:必填,当前任务名称,同时会赋予给任务启动的实例;
运行区域:必填,每个区域配置的实例、网盘、镜像、环境等资源有所不同,请按需选择;
实例配置:必填,选择列表中展示了 运行区域内所有的实例类型;
运行环境:必填,选择列表中展示了所选实例支持运行的环境和镜像资源;
环境变量:环境变量的录入格式为:name=matpool;value=100
执行命令:必填,支持从运行区域的个人网盘中导入.py.sh脚本。选择好脚本后,系统自动生成执行命令。此命令将在实例中运行选中的脚本并将运行日志输出到个人网盘中。
注:
  • 如果选择.py文件,系统默认使用矩池云安装的Python解释器,路径为/root/miniconda3/envs/myconda/bin/python,如果自己conda新建了环境,则改成对应的环境路径即可。
  • 脚本运行结果默认存放在个人网盘目录下(/mnt)

执行文件模版

test.sh模版:
shell
#!/bin/bash

#Task 1: 打印环境变量 name 和 value
echo "Name Environment Variable: $name"
echo "Value Environment Variable: $value"

#Task 2: 循环打印 10 次 "hello matpool" 消息,并在每次消息输出后间隔 10 秒钟
count=1
while [ $count -le 10 ]
do
    echo "hello matpool"
    sleep 10
    count=$((count + 1))
done
test.py脚本:
python
import os
import time

#Task 1: 打印环境变量 name 和 value
name = os.environ['name']
value = os.environ['value']
print(f"Name Environment Variable: {name}")
print(f"Value Environment Variable: {value}\n")

#Task 2: 循环打印 10 次 "hello matpool" 消息,并在每次消息输出后间隔 10 秒钟
count = 1
while count <= 10:
    print("hello matpool")
    time.sleep(10)
    count += 1

任务状态

任务的整个生命周期中,包含三个状态:
启动中:任务处于等待资源、排队调度的阶段,此时尚未分配实例资源;
运行中:此状态下,任务获得实例资源,开始运行,此时已经分配实例资源,可通过界面的查看详情按钮跳转查看实例状态;
已终止:此状态下,取消任务、停止任务运行、终止任务操作,实例侧释放实例操作及任务自身运行完毕等场景都会结束此任务。注:任务终止后,任务对应的实例将自动释放。