错误码是来自显卡驱动程序的错误报告,会被打印到操作系统的内核日志或事件日志中。错误码表示显卡发生了一般性错误,最常见的原因是驱动程序对显卡的编程不正确或发送到显卡的命令被破坏。这些信息可能表示硬件问题、显卡问题或用户应用程序问题。

运维管理人员可在当前页面查看并编辑相应的错误码信息。

前提条件

以获取管理端登录账号与密码。

查看错误码列表

  1. 登录 AI 智算运维管理端。

  2. 在左侧导航栏选择运维管理 > 错误码管理,进入错误码列表页面。支持查看 GPU 错误码NPU 错误码,点击相应的页签进行切换即可。

    boss xid manage 1
  3. 在列表右上角点击 refresh 可手动刷新数据。

  4. 在列表右上角点击 cogwheel 可定制列表中显示的信息。

  5. 在搜索框中输入错误描述内的关键字段,可对列表进行筛选。

编辑错误码

  1. 进入错误码管理页面。

  2. 在错误码列表内,点击指定错误码所在行右侧的编辑。

    boss xid manage 4
  3. 在弹出的编辑错误码窗口中,可对当前错误码的错误等级故障策略错误描述以及建议与措施进行修改,点击确定即可。

    boss xid manage 5