创建分布式训练
前提条件
- 
已经获取控制台账户和密码。 
- 
已完成个人实名认证且账户余额大于 0 元。 
操作步骤
- 
登录控制台,默认进入 AI 计算平台。 
- 
在左侧导航栏,选择分布式任务,默认进入分布式训练任务列表页面,点击创建训练任务。   
- 
在创建训练任务页面,配置各项参数,点击确定即可。 参考以下参数说明进行配置。 参数 说明 任务名称 用户自定义名称。 任务类型 支持选择 Pre-train 或 HPC。 - 
Pre-train 即分布式训练任务。 
- 
HPC:即高性能计算任务。 
 框架 训练任务所需的 ML 架构,目前支持 TensorFlow、PyTorch、MXNet、MPI、XGBoost 等。 镜像 支持选择基础镜像、自定义镜像或私有镜像地址。 - 
基础镜像:平台内的基础镜像,支持 TensorFlow、Pytorch、Jupyter 等。 
- 
自定义镜像:用户基于基础镜像或 Dockerfile 构建的镜像。 
- 
应用镜像:平台内专为个人开发者用户,如电商运营人员、绘画人员等无开发能力者,提供的现成可用的 AI 应用镜像。 
- 
外部镜像地址:公有或用户的私有镜像仓库地址,若设置有密码,则需勾选有密码并输入用户名和密码,获取相应镜像。 
 存储与数据(选填) 选择数据集所处的用户目录,以及相应的挂载目录。如训练模型所需的图库、语料库、运行代码等。 环境变量 针对当前分布式训练任务,用户自定义配置的环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考环境变量相关章节内容。 启动命令 根据用户上传到存储与数据中的代码文件,输入相应文件的运行命令,若使用平台提供的基础镜像,默认工作目录为 root。自定义镜像则根据用户设置为准。例如用户使用平台基础镜像,上传的代码文件为 main.py,可直接使用python3 /root/code/main.py命令。自动重试 当任务或容器组运行过程中出现问题导致失败,系统将自动迁移任务或容器组到其他机器,使得任务继续开始运行。 - 
若选择开启,则需设置相应的重试次数。 
- 
若选择关闭,任务失败后,系统不会重试。 
 超时配置 配置任务可以运行的最大时间,超过此时间,任务无论在什么状态下,都将自动取消。 资源组 支持用户选择公共资源池或我的资源组。 - 
公共资源池:共享资源池,用户可直接勾选相应的资源类型用于训练任务。任务运行完成后将根据实际使用时长进行扣费。 
- 
专属资源组:用户的专属资源,可提前创建并申请资源。若选择我的资源组,需指定资源组后,配置以下参数。 - 
节点配置:支持单节点或多节点。 
- 
选择单节点需指定节点并配置使用卡数,其中使用卡数为训练任务使用的 GPU 卡数,可使用 0 卡数。 
- 
若选择多节点,则需配置节点数量。 
 
- 
 
- 
- 
返回分布式训练任务列表页面,已创建成功的训练任务显示在列。