创建分布式训练
前提条件
-
已经获取基石智算控制台账户和密码。
-
已完成个人实名认证且账户余额大于 0 元。
操作步骤
-
登录基石智算控制台,进入AI 算力云服务。
-
在左侧导航栏,选择分布式训练,默认进入分布式训练任务列表页面,点击创建训练任务。
-
在创建训练任务页面,配置各项参数,点击确定即可。
参考以下参数说明进行配置。
参数 说明 任务名称
用户自定义名称。
镜像
支持选择基础镜像、自定义镜像或私有镜像地址。
-
基础镜像:平台内的基础镜像,支持 TensorFlow、Pytorch、Jupyter 等。
-
自定义镜像:用户基于基础镜像或 Dockerfile 构建的镜像。
-
镜像地址:公有或用户的私有镜像仓库地址,若设置有密码,则需勾选有密码并输入用户名和密码,获取相应镜像。
存储与数据(选填)
选择数据集所处的用户目录,以及相应的挂载目录。如训练模型所需的图库、语料库等。
代码
用户上传需要执行的代码文件。点击上传选择待使用的代码文件即可。若使用平台提供的基础镜像,则相关文件会挂载到容器中的指定目录下,默认为
/root/code
。如上传一个主代码文件为
main.py
,将自动挂载至/root/code/main.py
目录。说明 若有多个子代码文件,须同步上传。
启动命令
根据用户上传的代码文件,输入相应文件的运行命令,若使用平台提供的基础镜像,默认工作目录为
root
。自定义镜像则根据用户设置为准。
如使用平台基础镜像,上传的代码文件为main.py
,可直接使用python3 /root/code/main.py
命令。环境变量
针对当前分布式训练任务,用户自定义配置的环境变量。任务提交时,系统也会自动注入相应的系统变量,可参考环境变量相关章节内容。
TersorBoard
用户启动 TensorBoard 可查看任务结果详情,任务在运行完成后,可通过 TensorBoard 查看。
说明 开启后用户需要编写代码将日志写入环境变量
TENSORBOARD_LOG_PATH
所对应的路径。自动重试
当任务或容器组运行过程中出现问题导致失败,系统将自动迁移任务或容器组到其他机器,使得任务继续开始运行。
-
若选择开启,则需设置相应的重试次数。
-
若选择关闭,任务失败后,系统不会重试。
超时配置
配置任务可以运行的最大时间,超过此时间,任务无论在什么状态下,都将自动取消。
框架
训练任务所需的 ML 架构,目前支持 TensorFlow、PyTorch、MXNet、MPI、XGBoost 等。
资源组
支持用户选择公共资源池或专属资源组。
-
公共资源池:共享资源池,用户可直接勾选相应的资源类型用于训练任务。任务运行完成后将根据实际使用时长进行扣费。
-
专属资源组:用户的专属资源,可提前创建并申请资源。若选择专属资源组,需指定资源组后,配置以下参数。
-
节点配置:支持单节点或多节点。
-
选择单节点需指定节点并配置使用卡数,其中使用卡数为训练任务使用的 GPU 卡数,可使用 0 卡数。
-
若选择多节点,则需配置节点数量。
-
-
-
返回分布式训练任务列表页面,已创建成功的训练任务显示在列。