名词 解释

Kubernetes

简称 k8s,是一个轻便的可扩展的开源平台,用于管理容器化应用和服务​​​。通过 Kubernetes 能够进行应用的​​自动化部署​​​和​​扩缩容​​​。AI 算力云服务利用 k8s 的跨平台和容器调度能力,支持多样化计算基座。

资源与环境

AI 算力云环境使用 k8s 进行管理和调度。

  • 提供 NVIDIA 常用显卡。

  • 提供在线 IDE 环境。

  • 集成并行文件存储提供永久的存储。

  • 提供 Tensorboard 的在线图表。

  • 提供任务容错、自动重试功能。

资源组

用户的专属资源,提前创建资源组,申请物理计算节点,系统将为您预留主机,您的任务可以选择在主机上进行运行,减少排队,独占计算资源,可以按需进行添加删除节点。

镜像仓库

基于容器计算场景,平台内置常用的容器应用。

  • 常用框架内置 PyTorch、TensorFlow、Jupyter 等。

  • 提供用户自定义镜像仓库,根据基础镜像或 Dockerfile 自定义构建镜像。

  • 可将自己打包好的镜像 push 到自定义镜像仓库中。

容器实例

容器实例常用来做算法开发和模型微调,在少量训练数据的前提下可以选择单卡、或者整机 8 卡的实例申请使用,提供本地数据盘,和关联文件存储,使用 Jupyter 进行算法开发、微调,可将成果输出到挂载的共享文件存储中,使用完成后下载成果,释放容器实例。

分布式训练任务

提供快速开始多机多卡的分布式任务运行,减少用户准备环境时间,立即启动计算任务,用户选择所需规格和数量,上传训练代码,系统将自动调度所需节点进行计算,此任务面向多机多卡大型训练任务场景。

并行文件存储

高性能、可扩展的分布式文件系统,专为并行计算环境设计。