获取训练作业的 Pod(GetTrainsPods)
仅限于未终止的作业。
基本信息
Action:/qai/aicp/trains/namespaces/{namespace}/endpoints/{endpoint}/trains/{train_name}/pods
Method: GET
Content-Type:application/json
请求参数
参数 | 类型 | 描述 | 是否必须 |
---|---|---|---|
endpoint |
string |
任务类型,如 |
yes |
train_name |
string |
任务名称 |
yes |
namespace |
string |
命名空间名称。 |
yes |
响应参数
此接口包含的公共响应参数,可参见前文内容,其他参数说明如下:
参数路径 | 类型 | 含义 |
---|---|---|
data.metadata.name |
string |
Pod 名称 |
data.metadata.namespace |
string |
Kubernetes 命名空间 |
data.metadata.labels |
object |
标签集合 (key-value) |
data.metadata.annotations |
object |
注解集合 (key-value) |
data.status.phase |
string |
Pod 生命周期阶段 (Running 等) |
data.status.hostIP |
string |
宿主机 IP 地址 |
data.status.podIP |
string |
Pod 分配的内网 IP |
data.status.qosClass |
string |
服务质量等级 (Guaranteed 等) |
data.status.containerStatuses |
array<object> |
容器状态集合 |
data.status.containerStatuses.name |
string |
容器名称 |
data.status.containerStatuses.image |
string |
容器镜像地址 |
data.status.containerStatuses.state.running.startedAt |
string |
容器启动时间 |
data.spec.nodeName |
string |
调度到的节点名称 |
data.spec.containers |
array<object> |
容器定义集合 |
data.spec.containers.resources |
object |
资源请求/限制配置 |
data.spec.containers.env |
array<object> |
容器环境变量 |
data.spec.volumes |
array<object> |
存储卷配置 |
data.spec.nodeSelector |
object |
节点选择器 (label 匹配) |
data.spec.tolerations |
array<object> |
污点容忍配置 |
data.spec.affinity |
object |
亲和性调度策略 |
data.kind |
string |
资源类型 (固定 |
data.apiVersion |
string |
Kubernetes API 版本 |
请求示例
curl -X 'GET' \
'https://ai.coreshub.cn/qai/aicp/trains/namespaces/usr-5HY8cxxx/endpoints/tfjobs/trains/%E8%AE%A1%E7%AE%97%E4%BB%BB%E5%8A%A1/pods' \
-H 'accept: application/json'
响应示例
{
"message": "success",
"meta": {
"X_REQUEST_ID": "a38f5805",
"X_REQUEST_USER": "usr-5HY8cBJF"
},
"data": [
{
"status": {
"hostIP": "10.24.7.31",
"podIP": "10.233.137.64",
"phase": "Running",
"containerStatuses": [
{
"name": "pytorch",
"image": "xb3-dockerhub.coreshub.cn/aicp/public/llama2-train:pytorch-2.1.2-cuda12.1-cudnn8-with-model",
"state": {
"running": {
"startedAt": "2025-04-17T05:52:47Z"
}
}
}
]
},
"spec": {
"nodeName": "gpu-013",
"containers": [
{
"name": "pytorch",
"resources": {
"limits": {
"cpu": "12",
"nvidia.com/gpu": "1",
"memory": "52Gi"
}
}
}
],
"nodeSelector": {
"nvidia.com/gpu.product": "NVIDIA-GeForce-RTX-4090-D"
}
},
"metadata": {
"name": "tn-ej5nvanu1iww-master-0",
"labels": {
"training.kubeflow.org/job-name": "tn-ej5nvanu1iww",
"user": "usr-5HY8cBJF"
}
}
}
],
"counts": 1,
"ret_code": 0
}