AI 智算运维管理端(以下简称管理端)是 AI 计算平台的图形化管理界面,为运维管理人员提供统一的运维和监控门户,其可实现算力资源运维、算力池管理、资源监控告警、可视化数据展示、容器实例和训练任务统计监管等运维管理功能以及用户管理、平台设置等运营管理功能。
主要功能包括但不限于:
概览
监控管理
错误码管理
故障记录
节点管理
算力池管理
用户管理
容器实例管理
分布式训练任务管理
镜像仓库管理
数据集和模型管理