前提条件

  • 已经获取控制台账户和密码。

  • 已完成个人实名认证且账户余额大于 0 元。

操作步骤

  1. 登录控制台,默认进入 AI 计算平台。

  2. 在左侧导航栏,选择分布式任务,进入分布式任务页面,点击创建分布式任务

    develop training job list
  3. 在创建训练任务页面,配置各项参数,点击确定即可。

    参考以下参数说明进行配置。

    参数 说明

    任务名称

    用户自定义名称。

    模板

    分布式任务的模板。支持不使用模板、系统模板、自定义模板三种方式。

    任务类型

    支持选择 Pre-train 或 HPC。

    • Pre-train 即分布式训练任务。

    • HPC:即高性能计算任务。

    框架

    训练任务所需的 ML 架构,目前支持 TensorFlow、PyTorch、MPI、Deepspeed、Mindspore 等。

    镜像

    支持选择基础镜像、应用镜像、HPC 镜像、自定义镜像或共享镜像。

    • 基础镜像:平台内的基础镜像,支持 Paddle、TensorFlow、Pytorch 等。

    • 应用镜像:平台内专为个人开发者用户,如电商运营人员、绘画人员等无开发能力者,提供的现成可用的 AI 应用镜像。

    • HPC 镜像:适用于高性能计算任务的镜像。当任务类型为 HPC 时可用。

    • 自定义镜像:用户基于基础镜像或 Dockerfile 构建的镜像

    • 共享镜像:共享给我的镜像仓库。

    存储与数据(选填)

    选择数据集所处的用户目录,以及相应的挂载目录。如训练模型所需的图库、语料库、运行代码等。

    环境变量(选填)

    针对当前分布式训练任务,用户自定义配置的环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考环境变量相关章节内容。

    启动命令

    根据用户上传到存储与数据中的代码文件,输入相应文件的运行命令,若使用平台提供的基础镜像,默认工作目录为 root。自定义镜像则根据用户设置为准。

    例如用户使用平台基础镜像,上传的代码文件为 main.py,可直接使用 python3 /root/code/main.py 命令。

    自动重试

    当任务或容器组运行过程中出现问题导致失败,系统将自动迁移任务或容器组到其他机器,使得任务继续开始运行。

    • 若选择开启,则需设置相应的重试次数。

    • 若选择关闭,任务失败后,系统不会重试。

    超时配置

    配置任务可以运行的最大时间,超过此时间,任务无论在什么状态下,都将自动取消。

    资源组

    支持用户选择公共资源池我的资源组

    • 公共资源池:共享资源池,用户可直接勾选相应的资源类型用于训练任务。任务运行完成后将根据实际使用时长进行扣费。

    • 我的资源组:用户的专属资源,可提前创建并申请资源。若选择我的资源组,需配置以下参数。

      • 资源组:平台内已创建完成的,且申请了计算资源的可用资源组。

      • 指定节点:根据所选资源组,指定相应计算节点。

      • 规格配置:支持按内置规格、自定义规格创建。内置规格支持设置 vCPU 核数、内存、系统盘大小、GPU 个数(选填)、数据盘大小(选填),自定义规格支持设置 vCPU 核数、内存、GPU 数量。

  4. 返回分布式训练任务列表页面,已创建成功的训练任务显示在列。