仅限于未终止的作业。

基本信息

Action:/qai/aicp/trains/namespaces/{namespace}/endpoints/{endpoint}/train

Method: GET

Content-Type:application/json

请求参数

参数 类型 描述 是否必须

endpoint

string

任务类型,用户可通过调用 GetEndpoints API 获取任务类型。

yes

uuid

string

任务唯一标识。

yes

namespace

string

命名空间名称。

yes

响应参数

此接口包含的公共响应参数,可参见前文内容,其他参数介绍如下:

参数名称 类型 描述

data.user_name

string

用户名。

data.email

string

用户邮箱。

data.kuid

string (UUID)

Kubernetes 资源的唯一标识符。

data.status

string

任务当前状态(如 PendingRunningFailed 等)。

data.user_id

string

任务所属用户的 ID。

data.root_user_id

string

根用户 ID。

data.created_at

string

任务创建时间。

data.updated_at

string

任务最后更新时间。

data.uuid

string

唯一标识。

data.name

string

任务名称。

data.endpoint

string

任务类型,此处为 tfjobs(TensorFlow任务)。

data.namespace

string

命名空间。

data.command

string

容器启动后执行的命令(如 python /home/xxxxxx/tfjob.py)。

data.image

string

任务使用的容器镜像地址。

data.image_type

string

镜像类型,如 official,user,custom。

data.priority

string

作业优先级。

data.restart_policy

string

重启策略,如 Never,OnFailure,Always。

data.backoff_limit

integer

作业失败后重试次数,默认为 0。

data.ttl_seconds_after_finished

integer

任务完成后自动删除的延迟时间(秒,此处为 60)。

data.active_deadline_seconds

integer

作业最长执行时间,默认为 84000s。

data.envs

array

环境变量列表(空数组表示未设置额外环境变量)。

data.code_path_uuid

string

代码路径,上传代码时获取的 UUID。

data.project_category

string

作业项目类别。

data.project_category_key

string

作业项目类别,注入 env,自动转换。

data.job_type

string

作业类型。

data.running_at

string

作业开始运行的时间。

data.ended_at

string

作业结束的时间。

data.volume_specs

array<object>

挂载配置列表。

data.replica_specs

array<object>

作业副本配置。

data.running_time

integer

作业运行的时间,单位秒。

data.train_K8s_object

object

作业 K8s 原始数据。

data.gpu_card_time

integer

训练任务占用的 GPU 卡总时长,单位秒。

data.cpu_time

integer

训练任务占用的 CPU 卡总时长,单位秒。

请求示例

curl -X 'GET' \
  'https://ai.coreshub.cn/qai/aicp/trains/namespaces/usr-jaswGjDn/endpoints/tfjobs/train?uuid=xxxxxxxxx' \
  -H 'accept: application/json'

响应示例

{
  "ret_code": 0,
  "message": "success",
  "meta": {
    "X_REQUEST_ID": "string",
    "X_REQUEST_USER": "string"
  },
  "data": {
    "kuid": "48b20965-36e3-4b40-b910-a3df326539d2",
    "status": "Pending",
    "user_id": "usr-jaswGjDn",
    "created_at": "2023-12-26T10:17:33.150323",
    "updated_at": "2023-12-26T10:17:33.150323",
    "uuid": "eb1bc81c-a656-470d-85a7-13e1b25eb7f7",
    "name": "tf-job-example",
    "endpoint": "tfjobs",
    "namespace": "usr-jaswgjdn",
    "command": "python /var/tf_mnist/mnist_with_summaries.py",
    "image": "kubeflow/tf-mnist-with-summaries:latest",
    "image_type": "user",
    "restart_policy": "Never",
    "ttl_seconds_after_finished": 0,
    "replica_specs": [
      {
        "replicas": 2,
        "specs": "",
        "replica_type": "Worker"
      }
    ],
    "envs": [
      {
        "name": "env1",
        "value": "value1"
      }
    ]
  }
}