前提条件

已成功创建分布式任务。

查看基本信息

  1. 登录控制台,默认进入 AI 计算平台。

  2. 在左侧导航栏,选择分布式任务,进入分布式任务页面。在当前页面可查看平台内所有分布式任务的基本信息状态

    develop training job list
  3. 在任务列表页面,可按照用户创建时间名称或 ID对分布式任务进行筛选。

  4. 在任务列表页面,点击任务的任务名称/ID,进入其详情页面。

  5. 在任务详情页面,选择基本信息页签,可查看任务信息任务运行信息以及计费资源信息。

查看容器组

  1. 进入任务详情页面。

  2. 选择容器组(Pods)页签,可查看当前训练任务所使用的容器组信息,包括容器组名称/IP 地址状态、容器组内的节点名称、容器组创建和更新时间快捷访问详情

    1. 在容器组所在行,点击快捷访问中的日志,可查看当前容器组该任务运行日志内容。

      • 点击容器日志窗口右上角start darkstop dark,可启停日志打印。

      • 点击容器日志窗口右上角refresh dark,可刷新日志内容。

      • 点击容器日志窗口右上角download dark,可下载当前容器日志。

    2. 在容器组所在行,点击快捷访问中的终端,可直接登录容器组内相应节点的后台。若需验证当前容器组是否支持 RDMA 可参考前文内容

      develop training job pod shell
    3. 在容器组所在行,点击详情,可查看当前容器组的基本信息资源状态调度信息环境变量以及事件

      说明

      任务完成后,相应任务的容器组将会消失。故仅运行中的分布式任务可查看到相应的容器组信息。

查看监控信息

  1. 在任务列表页面,点击右上角的监控,查看列表中各分布式任务的 CPU 利用率内存利用率GPU 利用率GPU 显存利用率等。

  2. 进入任务详情页面。

  3. 选择监控页签,可查看运行当前分布式任务的资源监控信息,包括 GPU 用量GPU 显存用量CPU 用量内存用量、网络的出站流量入站流量

    develop training job monitor
    • 支持查看指定或自定义时间范围内的监控数据。

    • 点击监控页面右上角的自动刷新,可选择刷新时间间隔。

    • 点击监控页面右上角的refresh light,可刷新监控数据。

    • 点击监控页面右上角的custom column,可自定义页面展示的监控数据表。

    • 点击监控数据表右侧的download light,可下载当前监控数据。

查看日志

  1. 进入任务详情页面。

  2. 选择日志页签,可查看当前分布式任务的日志输出。

    develop training job log
    • 点击运行实例下拉框,可选择查看特定容器组或全部容器组的日志内容。

    • 点击选择时间范围,可查看指定或自定义时间范围内的日志数据。

    • 在搜索框中,输入关键词,可高亮日志中的相关字段内容。

    • 点击右上角start darkstop dark,可启停日志打印。

    • 点击右上角refresh dark,可设置日志内容刷新频率,支持设置频率为 5 秒、10 秒或 15 秒。

    • 点击右上角export dark,可按照正序或倒序导出日志内容。