公共环境变量

类型 环境变量 说明 示例

平台相关

ENV_PLAT_HOST

平台域名

xb3.coreshub.com.cn

模型相关

ENV_MODEL_ID

模型 ID

md-xxxxxxxx

ENV_MODEL_NAME

模型名称

QwQ-32B

ENV_MODEL_PATH

模型挂载目录

/model/QwQ/QwQ-32B

资源规格相关

ENV_SPEC_GPU_COUNT

GPU 卡数(规格)

1

ENV_SPEC_GPU_NAME

GPU 型号

NVIDIA 4090

ENV_SPEC_GPU_MEMORY

GPU显存(单位 G)

24

ENV_SPEC_CPU

CPU 个数

16

ENV_SPEC_MEMORY

内存大小(单位 G)

32

推理服务相关

ENV_INSTANCE_GPU_COUNT

单个实例 GPU 数(规格 * 节点数)

2

ENV_TOTAL_GPU_COUNT

总 GPU 数量(规格 * 实例数 * 节点数)

4

ENV_SERVER_PORT

服务端口

8000

ENV_INSTANCE_NUM

实例数

2

ENV_NODE_NUM

每个实例节点数

2

ENV_EXTERNAL_SERVER_PATH

推理服务公网路径前缀

/xb3/inference/usr-xxxxxxxx/inf-xxxxxxxx/

LWS_LEADER_ADDRESS

lws leader 容器 IP,默认 127.0.0.1 (适用多节点部署)

-

LWS_GROUP_SIZE

lws 节点个数,默认 1(适用多节点部署)

-

LWS_WORKER_INDEX

lws 容器序号,默认 0(适用多节点部署)

-

自定义环境变量

用户可根据实际需要,在创建模型和推理服务时自行设置,如 max-model-len=32768

注意

注意在设置自定义环境变量时,避免与公共环境变量冲突。

使用环境变量

用户可在创建模型和推理服务时,使用 {} 占位符引用变量,如:

python3 -m vllm.entrypoints.openai.api_server --trust-remote-code --model {ENV_MODEL_PATH} -tp {ENV_SPEC_GPU_COUNT} --pp {ENV_NODE_NUM} --port {ENV_SERVER_PORT} --served-model-name {ENV_MODEL_NAME} --max-model-len {max-model-len}