本实践旨在介绍如何使用 vLLM 镜像,在容器实例中部署并调用平台预置的大语言模型。本文以部署 Baichuan2-7B-chat 模型为例。

前提条件

  • 已经获取基石智算控制台账户和密码。

  • 已完成实名认证且账户余额大于 0 元。

操作步骤

  1. 创建容器实例,按照如下要求配置参数。

    • 资源类型:本实践将部署 Baichuan2-7B-chat 模型,故选择 1 卡 GPU 资源即可,其他模型用户可根据实际情况选择合适资源。

    • 镜像:选择基础镜像中的 vllm:xb3-dockerhub.coreshub.cn/aicp/public/vllm/vllm-openai:v0.8.5

    • 其他参数:根据实际情况设定即可。

  2. 点击创建,等待容器实例状态为运行中

  3. 在指定实例所在行,点击更多访问 > Web 连接

    bp vllm 1
  4. 平台预置的模型文件均在 /root/public 目录下。在弹出的 Web 连接窗口中,执行如下命令,查找 Baichuan2-7B-chat 模型的存储路径。

    find /root/public -name "Baichuan2-7B-chat" 2>/dev/null
    说明

    若使用其他模型,用户可自行在 /root/public 目录下查找相应文件。

  5. 执行如下命令,启动模型推理,并开启模型推理服务。

    python3 -m vllm.entrypoints.openai.api_server \
        --model /root/public/baichuan-inc/Baichuan2-7B-chat \
        --host 0.0.0.0 \
        --port 8080 \
        --dtype auto \
        --trust-remote-code
    • --model 用于指定模型所在路径,需根据上一步返回结果进行修改。

  6. 上一步命令回显如下,则说明模型推理服务启动成功。

    bp vllm 2
  7. 用户可重新开启 Web 连接,执行如下命令,调用模型。

    curl http://localhost:8080/v1/completions \
      -H "Content-Type: application/json" \
      -d '{
        "prompt": "你认为物理和数学有什么不同?",
        "max_tokens": 512
      }'
    bp vllm 3