查看 vGPU 监控 - AI 智算产品文档

前提条件

已获取管理端登录账号与密码。

在左侧导航栏点击集群管理 > 节点管理，点击 vGPU 监控页签，在当前页面可查看 vGPU 的基本监控信息。

参数	描述
节点名称	各节点的主机名称，以及在子网内部的 IP 地址。
状态	节点的运行状态。运行中：节点运行正常。无法调度：节点被用户手动设置为不可调度。如果节点处在此状态，容器组将不能被调度到该节点。告警：节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。如果节点上存在污点，状态列还将显示节点上污点的数量。您可以将光标悬停在污点数字上查看污点的具体信息。有关更多信息，请参阅设置节点污点。
所属计算池	当前节点所属的计算池。
GPU 数量	当前节点上的 GPU 总数。
GPU UUID / 型号	当前节点上所有 GPU 的 UUID 和型号。
GPU 状态	各 GPU 的状态。
vGPU 数量	相应 GPU 上对应的 vGPU 数量，点击可查看各 vGPU 的基本信息，包括已分配显存、占卡总显存、占卡总算力、所属命名空间以及 pod（容器组）。
GPU 显存使用率	显示各 GPU 的显存使用率，及 GPU 使用量与 GPU 总量的百分比。
可分配显存	显示各 GPU 上剩余可被分配的显存大小，以及显存的已使用量和总量占比。
可分配算力	显示各 GPU 上剩余可被分配的算力大小，以及算力的已使用量和总量占比。

参数

描述

节点名称

各节点的主机名称，以及在子网内部的 IP 地址。

状态

节点的运行状态。

如果节点上存在污点，状态列还将显示节点上污点的数量。您可以将光标悬停在污点数字上查看污点的具体信息。有关更多信息，请参阅设置节点污点。

所属计算池

当前节点所属的计算池。

GPU 数量

当前节点上的 GPU 总数。

GPU UUID / 型号

当前节点上所有 GPU 的 UUID 和型号。

GPU 状态

各 GPU 的状态。

vGPU 数量

相应 GPU 上对应的 vGPU 数量，点击可查看各 vGPU 的基本信息，包括已分配显存、占卡总显存、占卡总算力、所属命名空间以及 pod（容器组）。

GPU 显存使用率

显示各 GPU 的显存使用率，及 GPU 使用量与 GPU 总量的百分比。

可分配显存

显示各 GPU 上剩余可被分配的显存大小，以及显存的已使用量和总量占比。

可分配算力

显示各 GPU 上剩余可被分配的算力大小，以及算力的已使用量和总量占比。