查看 GPU 监控
更新时间:2025-06-13 01:57:48
前提条件
以获取管理端登录账号与密码。
操作步骤
-
登录 AI 智算运维管理端(KES-AI)。
-
在左侧导航栏集群管理下选择节点管理,点击 GPU 监控页签,在当前页面可查看 GPU 的基本监控信息。
参数 描述 节点名称
各节点的主机名称,以及在子网内部的 IP 地址。
状态
节点的运行状态。
-
运行中:节点运行正常。
-
无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。
-
告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。
如果节点上存在污点,状态列还将显示节点上污点的数量。您可以将光标悬停在污点数字上查看污点的具体信息。有关更多信息,请参阅设置节点污点。
所属计算池
当前节点所属的计算池。
GPU 数量
当前节点上的 GPU 总数。
GPU UUID / 型号
当前节点上所有 GPU 的 UUID 和型号。
GPU 状态
各 GPU 的状态。
GPU 利用率
当前节点各 GPU 资源的利用率
GPU 显存利用率
显示当前节点各 GPU 的显存利用率,以及显存的使用量与总量。
命名空间
当前节点各 GPU 所属的命名空间,对应于 Console 用户端上的某一具体用户。
容器
指定 GPU 上正常运行的容器,。
pod
容器组,容器所属的容器组,可点击节点名称,进入详情页面后,选择容器组页签,查看相应 ID 的容器组的详细信息。
-
-
在右上角点击
可手动刷新数据。
-
在右上角点击
可定制列表中显示的信息。
-
在搜索框中输入关键字可对列表进行筛选。