进入节点详情页面

  1. 登录 AI 智算运维管理端(KES-AI)。

  2. 在左侧导航栏集群管理下选择节点管理,点击节点监控节点列表页签。

  3. 点击某一节点名称/ID,进入相应节点的详细信息页面。

    boss node deatils 1
  4. 在节点详情页面的左侧,可查看当前节点的属性基本信息以及配置信息。在该区域也可对当前节点进行停止或启用调度编辑标签编辑污点的操作。

查看运行状态

  1. 进入节点详情页面。

  2. 在节点详情页面右侧的运行状态页签,可查看节点的资源用量已分配资源健康状态污点

    功能区 描述

    资源用量

    显示节点的实时 CPU、内存、磁盘使用百分比、已创建的容器组数量相对可创建容器组总数的百分比,并在曲线图中显示近一小时的数据。CPU、内存、磁盘的使用百分比包含底层系统使用的资源数量。默认情况下每个节点最多允许创建 110 个容器组。

    已分配资源

    显示节点预留给容器组的 CPU 和内存资源、预留资源相对可分配资源数量的百分比,以及节点容器组的 CPU 和内存资源上限、资源上限相对可分配资源的百分比。

    节点上一部分 CPU 和内存资源已经分配给底层系统,所以可分配资源数量略小于节点实际资源总数。

    健康状态

    显示节点的网络、内存、磁盘、进程压力和就绪状态。如果显示 healthy 则表明状态正常,如果显示 unhealthy 则表明出现告警。

    • 网络可用性:节点的网络配置是否正确。

    • 内存压力:节点剩余内存是否小于阈值,默认阈值为 100 MiB。

    • 磁盘压力:节点剩余磁盘空间或 inode 数量是否小于阈值,默认磁盘空间阈值为磁盘空间总量的 10%,默认 inode 数量阈值为 inode 最大数量的 5%。

    • 进程压力:节点上可创建的进程数量是否小于阈值。新安装的 KubeSphere 企业版集群默认未设置进程数量阈值。

    • 就绪状态:节点是否已经准备好接收容器组。

    污点

    当前节点上已配置的污点。有关更多信息,请参阅编辑节点污点

查看容器组

  1. 进入节点详情页面。

  2. 在节点详情页面右侧点击容器组页签,可查看节点上运行的所有容器组。

    • 在容器组列表上方的搜索框中输入关键字,可搜索名称包含特定关健字的容器组。

    • 在容器组列表右上角点击 refresh 可刷新列表信息。

  3. 点击 refresh 可查看容器组中运行的容器的信息。

  4. 点击容器组名称,可进入容器组详情页面。

    • 在容器组详情页面左侧的属性区域查看容器组的资源属性。点击查看 YAML,可访问当前容器组的配置信息。点击删除,可对当前容器组进行删除操作。

      注意

      删除正在运行的容器组可能会导致业务中断,请谨慎执行此操作。

      参数 描述

      集群

      容器组所属的集群。

      项目

      容器组所属的项目。

      应用

      容器组所属的应用。

      状态

      容器组的状态。

      • 运行中:容器组已分配给某个节点,容器组中的所有容器都已被创建,至少有一个容器正在运行、启动或重启。

      • 等待中:容组器已被系统接受,但有至少一个容器尚未创建也未运行。此状态下,容器组可能正在等待调度,或等待容器镜像下载完成。

      • 已完成:容器组中的所有容器都成功终止(以 0 退出码终止),并且不再重启。

      • 失败:容器组中的所有容器都已终止,并且至少有一个容器以非 0 退出码终止。

      • 未知:系统无法获取容器组状态。出现这种状态通常是由于系统与容器组所在的主机通信失败。

      容器组 IP 地址

      容器组在集群内部的虚拟 IP 地址。

      节点名称

      容器组所在节点的名称。

      节点 IP 地址

      容器组所在节点的 IP 地址。

      重启次数

      容器组的重启次数。

      QoS 类型

      容器组的服务质量类型(Quality of Service),由用户设置的容器内存上限、内存请求、CPU 上限和 CPU 请求决定。

      • Guaranteed:容器组中的每个容器都具有内存上限、内存请求、CPU 上限、CPU 请求,并且内存上限等于内存请求,CPU 上限等于 CPU 请求。

      • Burstable:容器组中至少有一个容器不满足 Guaranteed 类型的要求。

      • BestEffort:容器组中的容器没有配置任何内存上限、内存请求、CPU 上限或CPU 请求。

      容器组的 QoS 类型将决定容器组运行的优先级。当系统中资源不足以运行所有容器组时,系统优先保证运行 QoS 类型为 Guaranteed 的容器组,其次保证运行 QoS 类型为 Burstable 的容器组,最后保证运行 QoS 类型为 BestEffort 的容器组。

      创建时间

      容器组的创建时间。

      创建者

      容器组的创建者。

    • 在容器组详情页面右侧点击调度信息页签查看容器组的调度结果和状态信息。

      参数 描述

      调度结果

      显示接收容器组的节点的名称。

      状态信息

      显示容器组是否成功完成所有启动步骤。如果显示success则表明容器组已完成启动步骤,如果显示error则表明尚未完成启动步骤。

      • 运行中:容器组当前的状态是否为运行中

      • 容器组调度完成:容器组是否已调度到节点。

      • 容器组初始化完成:容器组中的所有初始化容器是否已启动完成。

      • 所有容器就绪:容器组中的所有容器是否已启动完成。

      • 容器组就绪:容器组是否已就绪。

    • 在容器组详情页面右侧点击元数据页签查看容器组的标签和注解。

    • 在容器组详情页面右侧点击监控页签查看容器组的标签和注解。

    • 在容器组详情页面右侧点击环境变量页签查看容器组中的所有容器的环境变量。

    • 在容器组详情页面右侧点击事件页签查看容器组相关的事件。

查看容器

  1. 进入节点详情页面,选择容器组页签。

  2. 点击某一容器组名称,进入其详情页面。

  3. 点击容器组资源状态内某一容器名称,可进入容器的详情页面。

    • 在容器详情页面左侧的属性区域查看容器的资源属性。点击终端,可访问当前容器的后台。

      参数 描述

      集群

      容器所属的集群。

      项目

      容器所属的项目。

      应用

      容器所属的应用。

      状态

      容器的状态。

      • 等待中:容器正在进行启动前操作,例于从镜像服务拉取镜像或从保密字典读取数据。

      • 运行中:容器正在正常运行。如果容器已配置了启动后动作且状态为运行中,那么容器的启动前动作已执行完毕。

      • 已终止:容器已成功结束,或由于某种原因运行失败而结束。

      镜像

      容器使用的镜像。

      镜像 ID

      容器使用的镜像的 ID。

      端口

      容器的端口。

      命令

      容器启动时在容器内部执行的命令。

      资源预留

      系统为容器预留的 CPU 和内存资源。

      资源上限

      容器可以使用的 CPU 和内存资源上限。

      镜像拉取策略

      容器的镜像拉取策略。

      • 优先使用本地镜像:容器组创建或更新时,优先使用容器运行时存储在节点的镜像文件。

      • 每次都拉取镜像:容器组创建或更新时,每次都尝试从镜像服务拉取镜像。

      • 仅使用本地镜像:容器组创建或更新时,仅使用容器运行时存储在节点的镜像。如果本地不存在所需的镜像,容器创建将出现异常。

      重启次数

      容器的重启次数。

    • 在容器详情页面右侧的资源状态页签查看容器中挂载卷、卷的挂载路径和访问模式。

    • 在容器详情页面右侧的环境变量页签查看容器的环境变量。

    • 在容器详情页面右侧点击容器日志页签查看容器的标准输出日志。

查看元数据

  1. 进入节点详情页面。

  2. 在节点详情页面右侧点击元数据页签,可查看节点的标签和注解。

查看监控

  1. 进入节点详情页面。

  2. 在节点详情页面右侧点击监控页签,可查看节点的指定时间范围内资源使用情况。

    • 可查看 GPU 用量(%)、显存用量(%)、GPU 温度(℃)、GPU 功率(W)、显存用量 (Bytes)、CPU 用量(%)、CPU 平均负载、内存用量(Gi)、内存用量(%)、磁盘用量(%)、磁盘用量详情(%)、IOPS、磁盘吞吐(KB/s)、网络流量(Kbps)。

    • 在右上角点击 refresh 可设置数据的时间范围。

    • 在右上角点击 refresh/refresh 可开启/停止实时数据刷新。

    • 在右上角点击 refresh 可手动刷新数据。

查看事件

  1. 进入节点详情页面。

  2. 在节点详情页面右侧点击事件页签,可查看节点的事件记录,包括事件类型原因发生时间来源以及信息

    说明

    事件类型包括正常告警两种。

查看故障记录

  1. 进入节点详情页面。

  2. 在节点详情页面右侧点击故障记录页签,可查看当前节点上的所有故障记录。

    • 在右上角点击 refresh 可手动刷新数据。

    • 在右上角点击 cogwheel 可定制列表中显示的信息。

    • 在搜索框中输入 UUID 或 XID 可对列表进行筛选。

  3. 点击指定故障所在行最右侧的更多操作 more,可进行故障处理相关操作。

查看维护日志

  1. 进入节点详情页面。

  2. 在节点详情页面右侧点击维护日志页签,可查看当前节点上的所有维护日志。

    在搜索框中输入相应的记录人,可对列表进行筛选。

  3. 在当前页面,点击新建日志,运维管理人员可根据实际情况填写描述信息完成维护日志的创建。