查看任务详情/监控/日志
前提条件
已成功创建分布式训练任务。
查看基本信息
-
登录基石智算控制台,进入AI 算力云服务。
-
在左侧导航栏,选择分布式训练,默认进入分布式训练任务列表页面,在当前页面可查看平台内所有分布式训练任务的基本信息和状态。
-
在任务列表页面,点击高级搜索可按照任务创建时间对列表进行筛选,
-
在任务列表页面,点击指定任务所在行右侧操作列中的任务详情,进入其详情页面。
-
在任务详情页面,选择基本信息页签,可查看
任务信息
、任务运行信息
以及计费资源
信息。
查看容器组
-
进入任务详情页面。
-
选择容器组(pods)页签,可查看当前训练任务所使用的容器组信息,包括
容器组名称/ID
、状态
、容器组内节点名称
、容器组创建和更新时间
、快捷访问
和详情
。-
在指定容器组所在行,点击快捷访问中的日志,可查看当前容器组该任务运行日志内容。
-
点击容器日志窗口右上角 或 ,可启停日志打印。
-
点击容器日志窗口右上角,可刷新日志内容。
-
点击容器日志窗口右上角,可下载当前容器日志。
-
-
在指定容器组所在行,点击快捷访问中的终端,可直接登录容器组内相应节点的后台。若需验证当前容器组是否支持 RDMA 可参考前文内容。
-
在指定容器组所在行,点击详情,可查看当前容器组的
基本信息
、资源状态
、调度信息
、环境变量
以及事件
。说明 任务完成后,相应任务的容器组将会消失。故仅
运行中
的分布式任务可查看到相应的容器组信息。
-
查看监控信息
-
进入任务详情页面。
-
选择监控页签,可查看运行当前分布式训练任务的资源监控信息,包括
GPU 用量
、GPU 显存用量
、CPU 用量
、内存用量
、网络的出站流量
和入站流量
。-
支持查看运行历史、实时、近 1 小时、近 6 小时、近 1 天、近 2 周或自定义时间段内的监控数据。
-
点击监控页面内,可刷新监控数据图。
-
点击指定监控数据表,可下载当前监控数据。
-
查看日志
-
进入任务详情页面。
-
选择日志页签,可查看当前分布式训练任务的日志输出。
-
点击顶部容器组下拉框,可选择查看指定容器组或全部容器组的日志内容。
-
在搜索框中,输入关键词,可高亮日志中的相关字段内容。
-
若任务为
运行中
,点击右上角 或 ,可启停日志打印。 -
点击右上角,可设置日志内容刷新频率,支持设置频率为 5 秒、10 秒或 15 秒。
-
点击右上角,可按照正序或倒序导出日志内容。
-