完成监控配置以后,即可直接在监控管理菜单列中查看各监控项的相关数据。该管理端平台集成了 Grafana 可视化工具,监控数据查看方式基本相同,本文以查看 GPU 监控数据为例进行详细说明。

GPU 监控看板页面可查看各节点的 GPU 平均使用率、GPU 显存平均利用率、GPU 平均温度、GPU 平均功率等信息。

操作步骤

  1. 登录 AI 智算运维管理端。

  2. 在左侧导航栏选择监控管理 > GPU 监控(也可是其他监控项名称),即可进入 GPU 监控数据看板页面,主要包括 GPU 利用率GPU 显存利用率GPU 温度GPU 功率等监控信息。

    说明

    监控项名称是在进行监控配置操作时由用户自定义,需根据实际情况进行选择,本示例中名为 GPU 监控

    boss monitor 1
  3. 点击 refresh,在弹出的分享窗口中,可设置链接(Link) 分享或导出(Export) 数据表。

    boss ib monitor 2
  4. 点击 Hostname 的下拉框,可选择查看指定节点的相关数据。

  5. 点击 gpu 的下拉框,可选择查看所有或指定 GPU 的监控数据。

  6. 点击右上角的 refresh 的下拉框可设置看板上数据的时间范围,支持运维管理人员自定义时间段。

  7. 点击右上角的 refresh 的下拉框可设置看板上数据刷新的时间间隔。

  8. 点击指定看板标题的下拉框,可对指定数据看板进行独立查看(View)分享(Share)审阅(Inspect)等操作。

    boss monitor 2