基本概念
更新时间:2024-11-07 06:26:01
名词 | 解释 |
---|---|
Kubernetes |
简称 k8s,是一个轻便的可扩展的开源平台,用于管理容器化应用和服务。通过 Kubernetes 能够进行应用的自动化部署和扩缩容。AI 计算平台利用 k8s 的跨平台和容器调度能力,支持多样化计算基座。 |
资源与环境 |
AI 算力云环境使用 k8s 进行管理和调度。
|
资源组 |
用户的专属资源,提前创建资源组,申请物理计算节点,系统将为您预留主机,您的任务可以选择在主机上进行运行,减少排队,独占计算资源,可以按需进行添加删除节点。 |
镜像仓库 |
基于容器计算场景,平台内置常用的容器应用。
|
容器实例 |
容器实例常用来做算法开发和模型微调,在少量训练数据的前提下可以选择单卡、或者整机 8 卡的实例申请使用,提供本地数据盘,和关联文件存储,使用 Jupyter 进行算法开发、微调,可将成果输出到挂载的共享文件存储中,使用完成后下载成果,释放容器实例。 |
分布式训练任务 |
提供快速开始多机多卡的分布式任务运行,减少用户准备环境时间,立即启动计算任务,用户选择所需规格和数量,上传训练代码,系统将自动调度所需节点进行计算,此任务面向多机多卡大型训练任务场景。 |
并行文件存储 |
高性能、可扩展的分布式文件系统,专为并行计算环境设计。 |