创建分布式任务
前提条件
-
已经获取控制台账户和密码。
-
已完成个人实名认证且账户余额大于 0 元。
操作步骤
-
登录控制台,默认进入 AI 计算平台。
-
在左侧导航栏,选择分布式任务,进入分布式任务页面,点击创建分布式任务。
-
在创建训练任务页面,配置各项参数,点击确定即可。
参考以下参数说明进行配置。
参数 说明 任务名称
用户自定义名称。
模板
分布式任务的模板。支持不使用模板、系统模板、自定义模板三种方式。
任务类型
支持选择 Pre-train 或 HPC。
-
Pre-train 即分布式训练任务。
-
HPC:即高性能计算任务。
框架
训练任务所需的 ML 架构,目前支持 TensorFlow、PyTorch、MPI、Deepspeed、Mindspore 等。
镜像
支持选择基础镜像、应用镜像、HPC 镜像、自定义镜像或共享镜像。
-
基础镜像:平台内的基础镜像,支持 Paddle、TensorFlow、Pytorch 等。
-
应用镜像:平台内专为个人开发者用户,如电商运营人员、绘画人员等无开发能力者,提供的现成可用的 AI 应用镜像。
-
HPC 镜像:适用于高性能计算任务的镜像。当任务类型为
HPC时可用。 -
自定义镜像:用户基于基础镜像或 Dockerfile 构建的镜像。
-
共享镜像:共享给我的镜像仓库。
存储与数据(选填)
选择数据集所处的用户目录,以及相应的挂载目录。如训练模型所需的图库、语料库、运行代码等。
环境变量(选填)
针对当前分布式训练任务,用户自定义配置的环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考环境变量相关章节内容。
启动命令
根据用户上传到存储与数据中的代码文件,输入相应文件的运行命令,若使用平台提供的基础镜像,默认工作目录为
root。自定义镜像则根据用户设置为准。例如用户使用平台基础镜像,上传的代码文件为
main.py,可直接使用python3 /root/code/main.py命令。自动重试
当任务或容器组运行过程中出现问题导致失败,系统将自动迁移任务或容器组到其他机器,使得任务继续开始运行。
-
若选择开启,则需设置相应的重试次数。
-
若选择关闭,任务失败后,系统不会重试。
超时配置
配置任务可以运行的最大时间,超过此时间,任务无论在什么状态下,都将自动取消。
资源组
支持用户选择公共资源池或我的资源组。
-
公共资源池:共享资源池,用户可直接勾选相应的资源类型用于训练任务。任务运行完成后将根据实际使用时长进行扣费。
-
我的资源组:用户的专属资源,可提前创建并申请资源。若选择我的资源组,需配置以下参数。
-
资源组:平台内已创建完成的,且申请了计算资源的可用资源组。
-
指定节点:根据所选资源组,指定相应计算节点。
-
规格配置:支持按内置规格、自定义规格创建。内置规格支持设置 vCPU 核数、内存、系统盘大小、GPU 个数(选填)、数据盘大小(选填),自定义规格支持设置 vCPU 核数、内存、GPU 数量。
-
-
-
返回分布式训练任务列表页面,已创建成功的训练任务显示在列。