在容器实例中使用 vLLM 部署模型

更新时间：2025-06-24 11:00:25

本实践旨在介绍如何使用 vLLM 镜像，在容器实例中部署并调用平台预置的大语言模型。本文以部署 Baichuan2-7B-chat 模型为例。

前提条件

已经获取基石智算控制台账户和密码。
已完成实名认证且账户余额大于 0 元。

操作步骤

创建容器实例，按照如下要求配置参数。
- 资源类型：本实践将部署 Baichuan2-7B-chat 模型，故选择 1 卡 GPU 资源即可，其他模型用户可根据实际情况选择合适资源。
- 镜像：选择基础镜像中的 vllm：xb3-dockerhub.coreshub.cn/aicp/public/vllm/vllm-openai:v0.8.5。
- 其他参数：根据实际情况设定即可。
点击创建，等待容器实例状态为运行中。
在指定实例所在行，点击更多访问 > Web 连接。
平台预置的模型文件均在 /root/public 目录下。在弹出的 Web 连接窗口中，执行如下命令，查找 Baichuan2-7B-chat 模型的存储路径。
```
find /root/public -name "Baichuan2-7B-chat" 2>/dev/null
```
说明

若使用其他模型，用户可自行在 /root/public 目录下查找相应文件。

说明
若使用其他模型，用户可自行在 `/root/public` 目录下查找相应文件。

执行如下命令，启动模型推理，并开启模型推理服务。

python3 -m vllm.entrypoints.openai.api_server \
    --model /root/public/baichuan-inc/Baichuan2-7B-chat \
    --host 0.0.0.0 \
    --port 8080 \
    --dtype auto \
    --trust-remote-code

--model 用于指定模型所在路径，需根据上一步返回结果进行修改。

上一步命令回显如下，则说明模型推理服务启动成功。

用户可重新开启 Web 连接，执行如下命令，调用模型。

curl http://localhost:8080/v1/completions \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "你认为物理和数学有什么不同？",
    "max_tokens": 512
  }'