分布式训练
更新时间:2025-05-23 05:48:51
AI 智算运维管理端上可查看所有用户在 Console 平台上创建分布式任务的信息。
前提条件
-
以获取管理端登录账号与密码。
-
相应 Console 用户端上已创建分布式训练任务。
查看分布式训练列表
-
登录 AI 智算运维管理端。
-
在左侧导航栏选择开发与训练 > 分布式训练,进入分布式训练任务列表页面。
-
在分布式训练任务列表页面,可查看各任务的基本信息。
参数 描述 任务名称/ID
分布式训练任务的名称,由 Console 端用户自定义。
ID 为系统自动生成且全局唯一。
任务状态
显示各任务的状态,点击状态旁的下拉框,可按照任务状态对列表进行筛选过滤。
镜像
各分布式训练任务运行所使用的镜像。
创建时间
各分布式训练任务创建的时间,点击下拉框,可选择按照时间升序或降序对该列表进行排序。
完成时间
各分布式训练任务完成的时间,点击下拉框,可选择按照时间升序或降序对该列表进行排序。
运行时长
各分布式训练任务运行所消耗的时间
提交者信息
各分布式训练任务提交者的 ID 信息,即 Console 用户端上创建当前任务的账户 ID。
-
在列表右上角点击
可手动刷新数据。
-
在列表右上角点击
可定制列表中显示的信息。
-
在列表上方点击搜索框并设置搜索条件,可按实例名称/ID或状态进行搜索。
查看任务详情
-
进入分布式训练任务列表页面。
-
点击指定任务的 ID,进入其详情页面,在该页面可查看当前任务的属性、基本信息以及容器组信息。