创建分布式任务 - AI 智算产品文档

创建分布式任务

更新时间：2025-11-24 15:29:50

前提条件

已经获取控制台账户和密码。
已完成个人实名认证且账户余额大于 0 元。

操作步骤

登录控制台，默认进入 AI 计算平台。
在左侧导航栏，选择分布式任务，进入分布式任务页面，点击创建分布式任务。

在创建分布式任务页面，配置各项参数，然后点击确定。

参数说明

参数	说明
任务名称	任务的名称，由用户自定义。
模板	分布式任务的模板。支持不使用模板、系统模板、自定义模板三种方式。
任务类型	支持选择 Pre-train 或 HPC。 Pre-train：分布式训练任务。 HPC：高性能计算任务。
框架	训练任务所需的 ML 架构，目前支持 TensorFlow、PyTorch、MPI、Deepspeed、Mindspore 等。当任务类型为 `Pre-train` 时可用。
镜像	支持选择基础镜像、应用镜像或 HPC 镜像、自定义镜像、以及共享镜像。基础镜像：平台内的基础镜像，支持 Paddle、TensorFlow、Pytorch 等。应用镜像：平台内专为个人开发者用户，如电商运营人员、绘画人员等无开发能力者，提供的现成可用的 AI 应用镜像。当任务类型为 `Pre-train` 时可用。 HPC 镜像：适用于高性能计算任务的镜像。当任务类型为 `HPC` 时可用。自定义镜像：用户基于基础镜像或 Dockerfile 构建的镜像。共享镜像：共享给我的镜像仓库。
存储与数据（选填）	选择数据集所处的用户目录，以及相应的挂载目录。如训练模型所需的图库、语料库、运行代码等。
环境变量（选填）	针对当前分布式训练任务，用户自定义配置的环境变量。任务提交时，系统也会自动注入相应的系统变量，可参考环境变量相关章节内容。
启动命令	根据用户上传到存储与数据中的代码文件，输入相应文件的运行命令。若使用平台提供的基础镜像，默认工作目录为 `root`。自定义镜像则根据用户设置为准。例如用户使用平台基础镜像，上传的代码文件为 `main.py`，可直接使用 `python3 /root/code/main.py` 命令。
自动重试	当任务或容器组运行过程中出现问题导致失败，系统将自动迁移任务或容器组到其他机器，使得任务继续开始运行。若选择开启，则需设置相应的重试次数。若选择关闭，任务失败后，系统不会重试。
超时配置	配置任务可以运行的最大时间，超过此时间，任务无论在什么状态下，都将自动取消。
保存为模板	将当前任务保存为任务模板，以便后续快速创建类似的分布式任务。
资源组	支持用户选择公共资源池或我的资源组。公共资源池：共享资源池，用户可直接勾选相应的资源类型用于分布式任务。任务运行完成后将根据实际使用时长进行扣费。我的资源组：用户的专属资源，可提前创建并申请资源。若选择我的资源组，需配置以下参数。资源组：平台内已创建完成的，且申请了计算资源的可用资源组。指定节点：根据所选资源组，指定相应计算节点。规格配置：支持按内置规格、自定义规格创建。内置规格支持设置 vCPU 核数、内存、系统盘大小、GPU 个数（选填）、数据盘大小（选填）；自定义规格支持设置 vCPU 核数、内存、GPU 数量。

任务名称

任务的名称，由用户自定义。

模板

分布式任务的模板。支持不使用模板、系统模板、自定义模板三种方式。

任务类型

支持选择 Pre-train 或 HPC。

Pre-train：分布式训练任务。
HPC：高性能计算任务。

框架

训练任务所需的 ML 架构，目前支持 TensorFlow、PyTorch、MPI、Deepspeed、Mindspore 等。

当任务类型为 Pre-train 时可用。

镜像

支持选择基础镜像、应用镜像或 HPC 镜像、自定义镜像、以及共享镜像。

基础镜像：平台内的基础镜像，支持 Paddle、TensorFlow、Pytorch 等。
应用镜像：平台内专为个人开发者用户，如电商运营人员、绘画人员等无开发能力者，提供的现成可用的 AI 应用镜像。当任务类型为 Pre-train 时可用。
HPC 镜像：适用于高性能计算任务的镜像。当任务类型为 HPC 时可用。
自定义镜像：用户基于基础镜像或 Dockerfile 构建的镜像。
共享镜像：共享给我的镜像仓库。

存储与数据（选填）

选择数据集所处的用户目录，以及相应的挂载目录。如训练模型所需的图库、语料库、运行代码等。

环境变量（选填）

针对当前分布式训练任务，用户自定义配置的环境变量。任务提交时，系统也会自动注入相应的系统变量，可参考环境变量相关章节内容。

启动命令

根据用户上传到存储与数据中的代码文件，输入相应文件的运行命令。若使用平台提供的基础镜像，默认工作目录为 root。自定义镜像则根据用户设置为准。

例如用户使用平台基础镜像，上传的代码文件为 main.py，可直接使用 python3 /root/code/main.py 命令。

自动重试

当任务或容器组运行过程中出现问题导致失败，系统将自动迁移任务或容器组到其他机器，使得任务继续开始运行。

若选择开启，则需设置相应的重试次数。
若选择关闭，任务失败后，系统不会重试。

超时配置

配置任务可以运行的最大时间，超过此时间，任务无论在什么状态下，都将自动取消。

保存为模板

将当前任务保存为任务模板，以便后续快速创建类似的分布式任务。

资源组

支持用户选择公共资源池或我的资源组。

公共资源池：共享资源池，用户可直接勾选相应的资源类型用于分布式任务。任务运行完成后将根据实际使用时长进行扣费。
我的资源组：用户的专属资源，可提前创建并申请资源。若选择我的资源组，需配置以下参数。
- 资源组：平台内已创建完成的，且申请了计算资源的可用资源组。
- 指定节点：根据所选资源组，指定相应计算节点。
- 规格配置：支持按内置规格、自定义规格创建。内置规格支持设置 vCPU 核数、内存、系统盘大小、GPU 个数（选填）、数据盘大小（选填）；自定义规格支持设置 vCPU 核数、内存、GPU 数量。

返回分布式训练任务列表页面，已创建成功的训练任务显示在列。