获取训练作业详情(GetTrain)
仅限于未终止的作业。
基本信息
Action:/qai/aicp/trains/namespaces/{namespace}/endpoints/{endpoint}/train
Method: GET
Content-Type:application/json
请求参数
参数 | 类型 | 描述 | 是否必须 |
---|---|---|---|
endpoint |
string |
任务类型,用户可通过调用 GetEndpoints API 获取任务类型。 |
yes |
uuid |
string |
任务唯一标识。 |
yes |
namespace |
string |
命名空间名称。 |
yes |
响应参数
此接口包含的公共响应参数,可参见前文内容,其他参数介绍如下:
参数名称 | 类型 | 描述 |
---|---|---|
data.user_name |
string |
用户名。 |
data.email |
string |
用户邮箱。 |
data.kuid |
string (UUID) |
Kubernetes 资源的唯一标识符。 |
data.status |
string |
任务当前状态(如 |
data.user_id |
string |
任务所属用户的 ID。 |
data.root_user_id |
string |
根用户 ID。 |
data.created_at |
string |
任务创建时间。 |
data.updated_at |
string |
任务最后更新时间。 |
data.uuid |
string |
唯一标识。 |
data.name |
string |
任务名称。 |
data.endpoint |
string |
任务类型,此处为 tfjobs(TensorFlow任务)。 |
data.namespace |
string |
命名空间。 |
data.command |
string |
容器启动后执行的命令(如 |
data.image |
string |
任务使用的容器镜像地址。 |
data.image_type |
string |
镜像类型,如 official,user,custom。 |
data.priority |
string |
作业优先级。 |
data.restart_policy |
string |
重启策略,如 Never,OnFailure,Always。 |
data.backoff_limit |
integer |
作业失败后重试次数,默认为 0。 |
data.ttl_seconds_after_finished |
integer |
任务完成后自动删除的延迟时间(秒,此处为 |
data.active_deadline_seconds |
integer |
作业最长执行时间,默认为 84000s。 |
data.envs |
array |
环境变量列表(空数组表示未设置额外环境变量)。 |
data.code_path_uuid |
string |
代码路径,上传代码时获取的 UUID。 |
data.project_category |
string |
作业项目类别。 |
data.project_category_key |
string |
作业项目类别,注入 env,自动转换。 |
data.job_type |
string |
作业类型。 |
data.running_at |
string |
作业开始运行的时间。 |
data.ended_at |
string |
作业结束的时间。 |
data.volume_specs |
array<object> |
挂载配置列表。 |
data.replica_specs |
array<object> |
作业副本配置。 |
data.running_time |
integer |
作业运行的时间,单位秒。 |
data.train_K8s_object |
object |
作业 K8s 原始数据。 |
data.gpu_card_time |
integer |
训练任务占用的 GPU 卡总时长,单位秒。 |
data.cpu_time |
integer |
训练任务占用的 CPU 卡总时长,单位秒。 |
请求示例
curl -X 'GET' \
'https://ai.coreshub.cn/qai/aicp/trains/namespaces/usr-jaswGjDn/endpoints/tfjobs/train?uuid=xxxxxxxxx' \
-H 'accept: application/json'
响应示例
{
"ret_code": 0,
"message": "success",
"meta": {
"X_REQUEST_ID": "string",
"X_REQUEST_USER": "string"
},
"data": {
"kuid": "48b20965-36e3-4b40-b910-a3df326539d2",
"status": "Pending",
"user_id": "usr-jaswGjDn",
"created_at": "2023-12-26T10:17:33.150323",
"updated_at": "2023-12-26T10:17:33.150323",
"uuid": "eb1bc81c-a656-470d-85a7-13e1b25eb7f7",
"name": "tf-job-example",
"endpoint": "tfjobs",
"namespace": "usr-jaswgjdn",
"command": "python /var/tf_mnist/mnist_with_summaries.py",
"image": "kubeflow/tf-mnist-with-summaries:latest",
"image_type": "user",
"restart_policy": "Never",
"ttl_seconds_after_finished": 0,
"replica_specs": [
{
"replicas": 2,
"specs": "",
"replica_type": "Worker"
}
],
"envs": [
{
"name": "env1",
"value": "value1"
}
]
}
}