查看 vGPU 监控
更新时间:2025-06-13 01:57:48
前提条件
以获取管理端登录账号与密码。
操作步骤
-
登录 AI 智算运维管理端(KES-AI)。
-
在左侧导航栏集群管理下选择节点管理,点击 vGPU 监控页签,在当前页面可查看 vGPU 的基本监控信息。
参数 描述 节点名称
各节点的主机名称,以及在子网内部的 IP 地址。
状态
节点的运行状态。
-
运行中:节点运行正常。
-
无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。
-
告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。
如果节点上存在污点,状态列还将显示节点上污点的数量。您可以将光标悬停在污点数字上查看污点的具体信息。有关更多信息,请参阅设置节点污点。
所属计算池
当前节点所属的计算池。
GPU 数量
当前节点上的 GPU 总数。
GPU UUID / 型号
当前节点上所有 GPU 的 UUID 和型号。
GPU 状态
各 GPU 的状态。
vGPU 数量
相应 GPU 上对应的 vGPU 数量,点击
可查看各 vGPU 的基本信息,包括已分配显存、占卡总显存、占卡总算力、所属命名空间以及 pod(容器组)。
GPU 显存使用率
显示各 GPU 的显存使用率,及 GPU 使用量与 GPU 总量的百分比。
可分配显存
显示各 GPU 上剩余可被分配的显存大小,以及显存的已使用量和总量占比。
可分配算力
显示各 GPU 上剩余可被分配的算力大小,以及算力的已使用量和总量占比。
-
-
在右上角点击
可手动刷新数据。
-
在右上角点击
可定制列表中显示的信息。
-
在搜索框中输入关键字可对列表进行筛选。