仅限于未终止的作业。

基本信息

Action:/qai/aicp/trains/namespaces/{namespace}/endpoints/{endpoint}/trains/{train_name}/pods

Method: GET

Content-Type:application/json

请求参数

参数 类型 描述 是否必须

endpoint

string

任务类型,如 tfjobspythorchjobsmpijobs deepseekjobs

yes

train_name

string

任务名称

yes

namespace

string

命名空间名称。

yes

响应参数

此接口包含的公共响应参数,可参见前文内容,其他参数说明如下:

参数路径 类型 含义

data.metadata.name

string

Pod 名称

data.metadata.namespace

string

Kubernetes 命名空间

data.metadata.labels

object

标签集合 (key-value)

data.metadata.annotations

object

注解集合 (key-value)

data.status.phase

string

Pod 生命周期阶段 (Running 等)

data.status.hostIP

string

宿主机 IP 地址

data.status.podIP

string

Pod 分配的内网 IP

data.status.qosClass

string

服务质量等级 (Guaranteed 等)

data.status.containerStatuses

array<object>

容器状态集合

data.status.containerStatuses.name

string

容器名称

data.status.containerStatuses.image

string

容器镜像地址

data.status.containerStatuses.state.running.startedAt

string

容器启动时间

data.spec.nodeName

string

调度到的节点名称

data.spec.containers

array<object>

容器定义集合

data.spec.containers.resources

object

资源请求/限制配置

data.spec.containers.env

array<object>

容器环境变量

data.spec.volumes

array<object>

存储卷配置

data.spec.nodeSelector

object

节点选择器 (label 匹配)

data.spec.tolerations

array<object>

污点容忍配置

data.spec.affinity

object

亲和性调度策略

data.kind

string

资源类型 (固定 Pod)

data.apiVersion

string

Kubernetes API 版本

请求示例

curl -X 'GET' \
  'https://ai.coreshub.cn/qai/aicp/trains/namespaces/usr-5HY8cxxx/endpoints/tfjobs/trains/%E8%AE%A1%E7%AE%97%E4%BB%BB%E5%8A%A1/pods' \
  -H 'accept: application/json'

响应示例

{
    "message": "success",
    "meta": {
        "X_REQUEST_ID": "a38f5805",
        "X_REQUEST_USER": "usr-5HY8cBJF"
    },
    "data": [
        {
            "status": {
                "hostIP": "10.24.7.31",
                "podIP": "10.233.137.64",
                "phase": "Running",
                "containerStatuses": [
                    {
                        "name": "pytorch",
                        "image": "xb3-dockerhub.coreshub.cn/aicp/public/llama2-train:pytorch-2.1.2-cuda12.1-cudnn8-with-model",
                        "state": {
                            "running": {
                                "startedAt": "2025-04-17T05:52:47Z"
                            }
                        }
                    }
                ]
            },
            "spec": {
                "nodeName": "gpu-013",
                "containers": [
                    {
                        "name": "pytorch",
                        "resources": {
                            "limits": {
                                "cpu": "12",
                                "nvidia.com/gpu": "1",
                                "memory": "52Gi"
                            }
                        }
                    }
                ],
                "nodeSelector": {
                    "nvidia.com/gpu.product": "NVIDIA-GeForce-RTX-4090-D"
                }
            },
            "metadata": {
                "name": "tn-ej5nvanu1iww-master-0",
                "labels": {
                    "training.kubeflow.org/job-name": "tn-ej5nvanu1iww",
                    "user": "usr-5HY8cBJF"
                }
            }
        }
    ],
    "counts": 1,
    "ret_code": 0
}