用户可在产品中心,对 AI 智算产品进行配置。如上架下架智算服务,或更新该服务的相关信息,更新该服务的各项属性配置等。

查看产品目录

产品目录管理页面,为用户提供全量的产品目录。查看产品目录的详细操作如下。

  1. 使用 Web 浏览器成功登录 AI 智算运营管理端(BOSS)。

  2. 在左侧导航栏选择运营管理 > 产品中心 > 产品管理,进入产品管理页面。

  3. 在产品管理页面,点击左侧产品目录树中各目录名称,查看当前目录下的产品列表。产品目录层级分为一级目录与子目录,子目录下列举显示各产品名。如下图所示,AI 算力云服务(AI 计算平台)产品位于计算目录下。

查看产品信息

  1. 使用 Web 浏览器成功登录 AI 智算运营管理端(BOSS)。

  2. 在左侧导航栏选择运营管理 > 产品中心 > 产品管理,进入产品管理页面。

  3. 在产品管理页面,点击左侧产品目录下产品名称,进入产品信息页面。

    boss product list 2
    说明

    如上图所示,产品信息页面,分基本信息属性配置规格项。用户根据需求,分别点击进入相应页签页面即可。

更新产品信息

  1. 进入产品信息页面,点击修改信息

  2. 弹出编辑产品对话框。用户可根据需求,修改相关参数后,点击保存

    product info update
    说明
    • 该页面参数的修改,会同步反应至 Console 页面。

    • 产品描述 用于填写产品相关的描述信息,非必填项。

  3. 修改产品信息后,需在产品信息页面,点击更新至 console,修改才能生效。

查看产品属性配置

  1. 进入产品信息页面。

  2. 选择属性配置页签,即可查看 AI 产品的属性列表,各属性设置说明如下。

    属性名称 说明 是否参与调度

    规格类型

    用户可购买的资源颗粒度配置,以及同步 KSE-AI 端算力池维护。在进行配置时,需严格使用该字段。

    属性值可设置为 only_gpu(整卡)、vGPU(vGPU)、only_cpu(CPU)、adapter(vNPU)、bm3_DPU(BM3-DPU)。

    是,与 KSE-AI 端的算力池相对应,表示该规格可调度相应算力池。

    产品范围

    控制用户端(Console 端)相应产品的可见规格,如一个规格只在容器实例提供,整机只在资源组售卖等。

    属性值可设置为 resource_group(专属计算节点)、container_instance(容器实例)、sharing_compute(共享计算)、inference_compute(推理服务)。

    否,但是确定该规格服务于那些模块,如容器实例的规格可以为 1、2、4、8卡;分布式训练任务可以仅配置 8 卡

    资源类型

    仅用于前端分类展示,展示于 Console 平台上,方便用户查找规格。

    CPU 核数

    开启超线程后 vCPU 数量,可随机器配置的不同进行定义。

    是,会检查节点剩余的 CPU 核心数是否满足此核心数需求。

    内存容量

    同 CPU 核心数匹配的内存数量,单位为 G。一般来说,需保留 30G 用作管理,其他内存大小分给相应 CPU。

    是,会检查节点剩余的内存容量是否满足此内容容量需求。

    CPU 厂商

    仅做前端显示。

    CPU 型号

    仅做前端显示,CPU 厂商涉及到的框架,用户在进行脚本运行时可能需要。

    GPU 型号

    该字段属性值与 KSE-AI 端的 GPU 节点标签相对应,若对应不上,将会无法调度 GPU,Console 端将显示相应 GPU 售罄。

    GPU 节点标签可登录 KSE-AI 端,在节点管理页,点击指定节点进入其详情页编辑标签,修改 nvidia.com/gpu.product 对应的值。

    注意

    昇腾在计算节点的标签是:servertype=Ascend910-8255

    GPU 数量

    分配的 GPU 数量,一般为 1、2、4、8 卡。vGPU 的 GPU 数量填写 1。

    是,必须指定所需的 GPU 数量,若不填写,则默认为 0,将不调度 GPU。

    GPU 显存

    GPU 切分会根据该属性值分配显存。

    视情况而定。规格类型为 vGPU 共享 GPU 时,调度此字段进行分配显存容量,单卡的不调度此字段。

    算力分配

    GPU 切分的算力切分比例,配合 GPU 显存大小使用。

    视情况而定。规格类型为 vGPU 共享 GPU 时,调度此字段进行分配显存容量,单卡的不调度此字段。

    系统盘

    容器实例的系统盘大小,整个集群固定设置一个系统盘大小为 50G。若需修改,需联系供应商。

    否,平台安装部署完成后,默认系统盘为 50G,不可更改。

    数据盘

    初始化数据盘的大小。

    是,参与调度节点的 zfs 本地盘,可指定,也可不指定,数据盘会随容器实例删除而删除,属于临时性存储。

    nvlink

    仅做前段显示,若计算节点有 nvlink,则默认提供 nvlink。

    IB 网络

    实例的高性能网卡数量,不包含管理网卡(25G),仅包括 IB 网卡和 roce 网卡,如 8 个 400G 的 IB 网卡,2*200G 的存储网卡,此字段值为 10

    注意

    一个网卡只能分配给一个实例,建议大规格(8 卡)分配全部网卡,小规格(1,2,4 卡)不分配高性能网卡。

    是,与计算节点的高性能网卡数量对应。

    高速网络描述

    Console 端网络形式描述的字段,纯文案,为用户说明当前规格的网络情况。一般描述高性能计算网络。

修改产品属性配置

  1. 进入产品信息页面。

  2. 选择属性配置页签,查看属性列表。

  3. 点击待修改属性条目后的更多操作 > 编辑

    product attri modify
  4. 在弹出编辑属性对话框中,用户根据页面信息,修改相关参数后,点击保存

    product_attri_update
    说明

    支持新增和删减属性值,以及属性名称的修改。

  5. 修改产品属性后,需在产品信息页面,点击更新至 console,修改才能生效。