前提条件

以获取管理端登录账号与密码。

操作步骤

  1. 登录 AI 智算运维管理端(KES-AI)。

  2. 在左侧导航栏集群管理下选择节点管理,点击 GPU 监控页签,在当前页面可查看 GPU 的基本监控信息。

    参数 描述

    节点名称

    各节点的主机名称,以及在子网内部的 IP 地址。

    状态

    节点的运行状态。

    • 运行中:节点运行正常。

    • 无法调度:节点被用户手动设置为不可调度。如果节点处在此状态,容器组将不能被调度到该节点。

    • 告警:节点上存在告警。您可以在节点详情页面的运行状态 > 健康状态区域查看节点的告警类型。

    如果节点上存在污点,状态列还将显示节点上污点的数量。您可以将光标悬停在污点数字上查看污点的具体信息。有关更多信息,请参阅设置节点污点

    所属计算池

    当前节点所属的计算池。

    GPU 数量

    当前节点上的 GPU 总数。

    GPU UUID / 型号

    当前节点上所有 GPU 的 UUID 和型号。

    GPU 状态

    各 GPU 的状态。

    GPU 利用率

    当前节点各 GPU 资源的利用率

    GPU 显存利用率

    显示当前节点各 GPU 的显存利用率,以及显存的使用量与总量。

    命名空间

    当前节点各 GPU 所属的命名空间,对应于 Console 用户端上的某一具体用户。

    容器

    指定 GPU 上正常运行的容器,。

    pod

    容器组,容器所属的容器组,可点击节点名称,进入详情页面后,选择容器组页签,查看相应 ID 的容器组的详细信息

  3. 在右上角点击 refresh 可手动刷新数据。

  4. 在右上角点击 cogwheel 可定制列表中显示的信息。

  5. 在搜索框中输入关键字可对列表进行筛选。