故障处理页面主要展示系统检测时发现节点、显卡、网卡、硬盘等发生故障后,进行执行自动修复和线下运维的记录。

运维管理人员可在当前页面查看或处理相关故障记录。

前提条件

以获取管理端登录账号与密码。

查看故障记录

  1. 登录 AI 智算运维管理端。

  2. 在左侧导航栏运维管理下选择故障记录,进入故障记录列表页面,默认显示当前平台内所有故障记录。

    boss error record 1
  3. 故障记录列表支持按照未处理已处理的故障状态进行统计和分类,点击相应标签即可查看对应列表。

    boss error record 2
  4. 在列表右上角点击 refresh 可手动刷新数据。

  5. 在列表右上角点击 cogwheel 可定制列表中显示的信息。

  6. 在搜索框中输入 GPU UUIDXID 可对列表进行筛选。

故障处理

该操作仅针对故障状态未处理的故障记录。

  1. 进入故障记录列表页面,并选择未处理故障记录列表。

  2. 点击节点名称,即可进入指定节点的详情页面,可查看分析故障原因,并进行处理。

  3. 故障记录列表页,点击指定故障记录所在行右侧的更多操作,选择故障处理

    boss error record 5
  4. 在弹出的提示框中,输入处理方式,点击确定即可。