预置环境变量
公共环境变量
类型 | 环境变量 | 说明 | 示例 |
---|---|---|---|
平台相关 |
ENV_PLAT_HOST |
平台域名 |
xb3.coreshub.com.cn |
模型相关 |
ENV_MODEL_ID |
模型 ID |
md-xxxxxxxx |
ENV_MODEL_NAME |
模型名称 |
QwQ-32B |
|
ENV_MODEL_PATH |
模型挂载目录 |
/model/QwQ/QwQ-32B |
|
资源规格相关 |
ENV_SPEC_GPU_COUNT |
GPU 卡数(规格) |
1 |
ENV_SPEC_GPU_NAME |
GPU 型号 |
NVIDIA 4090 |
|
ENV_SPEC_GPU_MEMORY |
GPU显存(单位 G) |
24 |
|
ENV_SPEC_CPU |
CPU 个数 |
16 |
|
ENV_SPEC_MEMORY |
内存大小(单位 G) |
32 |
|
推理服务相关 |
ENV_INSTANCE_GPU_COUNT |
单个实例 GPU 数(规格 * 节点数) |
2 |
ENV_TOTAL_GPU_COUNT |
总 GPU 数量(规格 * 实例数 * 节点数) |
4 |
|
ENV_SERVER_PORT |
服务端口 |
8000 |
|
ENV_INSTANCE_NUM |
实例数 |
2 |
|
ENV_NODE_NUM |
每个实例节点数 |
2 |
|
ENV_EXTERNAL_SERVER_PATH |
推理服务公网路径前缀 |
/xb3/inference/usr-xxxxxxxx/inf-xxxxxxxx/ |
|
LWS_LEADER_ADDRESS |
lws leader 容器 IP,默认 127.0.0.1 (适用多节点部署) |
- |
|
LWS_GROUP_SIZE |
lws 节点个数,默认 1(适用多节点部署) |
- |
|
LWS_WORKER_INDEX |
lws 容器序号,默认 0(适用多节点部署) |
- |
自定义环境变量
用户可根据实际需要,在创建模型和推理服务时自行设置,如 max-model-len=32768
。
注意 |
---|
注意在设置自定义环境变量时,避免与公共环境变量冲突。 |
使用环境变量
用户可在创建模型和推理服务时,使用 {}
占位符引用变量,如:
python3 -m vllm.entrypoints.openai.api_server --trust-remote-code --model {ENV_MODEL_PATH} -tp {ENV_SPEC_GPU_COUNT} --pp {ENV_NODE_NUM} --port {ENV_SERVER_PORT} --served-model-name {ENV_MODEL_NAME} --max-model-len {max-model-len}