查看监控数据
更新时间:2025-05-23 05:48:51
完成监控配置以后,即可直接在监控管理菜单列中查看各监控项的相关数据。该管理端平台集成了 Grafana 可视化工具,监控数据查看方式基本相同,本文以查看 GPU 监控数据为例进行详细说明。
GPU 监控看板页面可查看各节点的 GPU 平均使用率、GPU 显存平均利用率、GPU 平均温度、GPU 平均功率等信息。
操作步骤
-
登录 AI 智算运维管理端。
-
在左侧导航栏选择监控管理 > GPU 监控(也可是其他监控项名称),即可进入 GPU 监控数据看板页面,主要包括 GPU 利用率、GPU 显存利用率、GPU 温度、GPU 功率等监控信息。
说明 监控项名称是在进行监控配置操作时由用户自定义,需根据实际情况进行选择,本示例中名为 GPU 监控。
-
点击
,在弹出的分享窗口中,可设置链接(Link) 分享或导出(Export) 数据表。
-
点击 Hostname 的下拉框,可选择查看指定节点的相关数据。
-
点击 gpu 的下拉框,可选择查看所有或指定 GPU 的监控数据。
-
点击右上角的
的下拉框可设置看板上数据的时间范围,支持运维管理人员自定义时间段。
-
点击右上角的
的下拉框可设置看板上数据刷新的时间间隔。
-
点击指定看板标题的下拉框,可对指定数据看板进行独立查看(View)、分享(Share)、审阅(Inspect)等操作。