AI 智算运维及运营管理端主要包含运维管理端(即 KES-AI)和运营管理端(即 BOSS 平台)。
为运维管理人员提供统一的运维和监控门户,其可实现算力资源运维、算力池管理、资源监控告警、可视化数据展示、容器实例和训练任务统计监管等运维管理功能以及用户管理、平台设置等管理功能。
主要功能包括但不限于:
概览
监控管理
错误码管理
故障记录
节点管理
算力池管理
用户管理
容器实例管理
分布式训练任务管理
镜像仓库管理
数据集和模型管理