前提条件

已成功创建分布式训练任务。

查看基本信息

  1. 登录基石智算控制台,默认进入 AI 计算平台。

  2. 在左侧导航栏,选择分布式训练,默认进入分布式训练任务列表页面,在当前页面可查看平台内所有分布式训练任务的基本信息状态

    develop training job view 1
  3. 在任务列表页面,点击高级搜索可按照任务创建时间对列表进行筛选,

  4. 在任务列表页面,点击指定任务所在行右侧操作列中的任务详情,进入其详情页面。

  5. 在任务详情页面,选择基本信息页签,可查看任务信息任务运行信息以及计费资源信息。

查看容器组

  1. 进入任务详情页面。

  2. 选择容器组(pods)页签,可查看当前训练任务所使用的容器组信息,包括容器组名称/ID状态、容器组内节点名称、容器组创建和更新时间快捷访问详情

    1. 在指定容器组所在行,点击快捷访问中的日志,可查看当前容器组该任务运行日志内容。

      • 点击容器日志窗口右上角start darkstop dark,可启停日志打印。

      • 点击容器日志窗口右上角refresh dark,可刷新日志内容。

      • 点击容器日志窗口右上角download dark,可下载当前容器日志。

    2. 在指定容器组所在行,点击快捷访问中的终端,可直接登录容器组内相应节点的后台。若需验证当前容器组是否支持 RDMA 可参考前文内容

      develop training job pod shell
    3. 在指定容器组所在行,点击详情,可查看当前容器组的基本信息资源状态调度信息环境变量以及事件

      说明

      任务完成后,相应任务的容器组将会消失。故仅运行中的分布式任务可查看到相应的容器组信息。

查看监控信息

  1. 进入任务详情页面。

  2. 选择监控页签,可查看运行当前分布式训练任务的资源监控信息,包括 GPU 用量GPU 显存用量CPU 用量内存用量、网络的出站流量入站流量

    develop training job monitor
    • 支持查看运行历史、实时、近 1 小时、近 6 小时、近 1 天、近 2 周或自定义时间段内的监控数据。

    • 点击监控页面内refresh light,可刷新监控数据图。

    • 点击指定监控数据表download light,可下载当前监控数据。

查看日志

  1. 进入任务详情页面。

  2. 选择日志页签,可查看当前分布式训练任务的日志输出。

    develop training job log
    • 点击顶部容器组下拉框,可选择查看指定容器组或全部容器组的日志内容。

    • 在搜索框中,输入关键词,可高亮日志中的相关字段内容。

    • 若任务为运行中,点击右上角start darkstop dark,可启停日志打印。

    • 点击右上角refresh dark,可设置日志内容刷新频率,支持设置频率为 5 秒、10 秒或 15 秒。

    • 点击右上角export dark,可按照正序或倒序导出日志内容。