故障记录
更新时间:2025-05-23 05:48:51
故障处理页面主要展示系统检测时发现节点、显卡、网卡、硬盘等发生故障后,进行执行自动修复和线下运维的记录。
运维管理人员可在当前页面查看或处理相关故障记录。
前提条件
以获取管理端登录账号与密码。
查看故障记录
-
登录 AI 智算运维管理端。
-
在左侧导航栏运维管理下选择故障记录,进入故障记录列表页面,默认显示当前平台内所有故障记录。
-
故障记录列表支持按照
未处理
或已处理
的故障状态进行统计和分类,点击相应标签即可查看对应列表。 -
在列表右上角点击
可手动刷新数据。
-
在列表右上角点击
可定制列表中显示的信息。
-
在搜索框中输入
GPU UUID
或XID
可对列表进行筛选。
故障处理
该操作仅针对故障状态为未处理
的故障记录。
-
进入故障记录列表页面,并选择
未处理
故障记录列表。 -
点击节点名称,即可进入指定节点的详情页面,可查看分析故障原因,并进行处理。
-
在故障记录列表页,点击指定故障记录所在行右侧的更多操作,选择故障处理。
-
在弹出的提示框中,输入处理方式,点击确定即可。