基于 minGPT 创建 PyTorch 分布式训练任务

更新时间：2024-11-07 06:26:01

环境准备

获取示例代码。
创建文件存储，并将上一步获取的示例代码上传至指定文件目录下。
创建 PyTorch 镜像的容器实例。
注意
容器实例的存储与数据的数据集必须选择上一步中上传有示例代码的用户目录。

容器实例的镜像必须选择 Pytorch。
使用 jupyter 登录容器实例，在 Terminal 内执行如下命令，安装环境依赖。
```
pip install -r /root/epfs/examples/distributed/minGPT-ddp/requirements.txt
```
将安装了环境依赖的容器实例，保存为自定义镜像。

注意
容器实例的存储与数据的数据集必须选择上一步中上传有示例代码的用户目录。容器实例的镜像必须选择 Pytorch。

说明
如果 PyTorch 作业以分布式运行, 其中 PyTorch 所需要的分布式参数将会以环境变量的形式自动注入到运行的环境中。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择 GPU 数量为 1 的资源类型，并设置数量为 1。点击确定，即可提交单节点单卡训练。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择 GPU 数量大于 1 的资源类型，并设置数量为 1。点击确定，即可提交单节点多卡训练。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择 GPU 数量为 1 的资源类型，并设置数量大于 1。点击确定，即可提交多节点单卡训练。

根据上述步骤配置完成相关参数，计算资源中的资源组选择公共资源池，并选择 GPU 数量大于 1 的资源类型，并设置数量大于 1。点击确定，即可提交多节点多卡训练。

最后训练任务输出的 AI 模型，会保存到用户指定的路径中，可在存储与数据服务中查看。建议用户将相应模型保存到离线存储中方便后续使用。