AI 智算运维管理端上可查看所有用户在 Console 平台上创建分布式任务的信息。

前提条件

  • 以获取管理端登录账号与密码。

  • 相应 Console 用户端上已创建分布式训练任务。

查看分布式训练列表

  1. 登录 AI 智算运维管理端。

  2. 在左侧导航栏选择开发与训练 > 分布式训练,进入分布式训练任务列表页面。

    boss train job 1
  3. 在分布式训练任务列表页面,可查看各任务的基本信息。

    参数 描述

    任务名称/ID

    分布式训练任务的名称,由 Console 端用户自定义。

    ID 为系统自动生成且全局唯一。

    任务状态

    显示各任务的状态,点击状态旁的下拉框,可按照任务状态对列表进行筛选过滤。

    镜像

    各分布式训练任务运行所使用的镜像。

    创建时间

    各分布式训练任务创建的时间,点击下拉框,可选择按照时间升序降序对该列表进行排序。

    完成时间

    各分布式训练任务完成的时间,点击下拉框,可选择按照时间升序降序对该列表进行排序。

    运行时长

    各分布式训练任务运行所消耗的时间

    提交者信息

    各分布式训练任务提交者的 ID 信息,即 Console 用户端上创建当前任务的账户 ID。

  4. 在列表右上角点击 refresh 可手动刷新数据。

  5. 在列表右上角点击 cogwheel 可定制列表中显示的信息。

  6. 在列表上方点击搜索框并设置搜索条件,可按实例名称/ID状态进行搜索。

查看任务详情

  1. 进入分布式训练任务列表页面。

  2. 点击指定任务的 ID,进入其详情页面,在该页面可查看当前任务的属性基本信息以及容器组信息。

    boss train job 2