本文主要介绍如何在模型广场一键快速完成大语言模型的部署,并完成推理服务的接口调用。本文以 Baichuan2-7B-chat 为例进行介绍。

前提条件

  • 已经获取基石智算控制台账户和密码。

  • 已完成实名认证且账户余额大于 0 元。

模型部署

  1. 登录基石智算控制台,默认进入 AI 计算平台。

  2. 模型广场页面,选择 Baichuan2-7B-chat 模型完成部署,具体操作可参考前文内容

    说明

    大语言模型目前统一使用 vllm 框架运行推理,同时支持流式和非流式接口。

  3. 进入推理服务详情页面,在服务信息页签内,获取外网访问地址API 密钥。用户点击相应信息右侧的复制按钮copy即可。

    bp model inference 1

手动调用

方式一:直接使用 curl 调用

  1. 模型部署完成后,用户可打开本地电脑终端。

  2. 执行如下命令,直接发送 HTTP POST 请求。

    curl -X POST \
       -H "Content-Type:application/json" \
       -H "Authorization:Bearer sk-n14LqHPDJRiTQpSSMwz8e2svn1kDsaoz8isPWUwInnU7J0QC" \
       -d \
    '{"model": "baichuan2", "do_sample": false, "stream": false, "messages": [{"role": "system", "content": "You are a helpful assistent."}, {"role": "user", "content": "你好"}]}' \
     'https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions'

    回显示例:

    bp model inference 3

方式二:使用客户端工具

本示例直接使用 Talend API Tester 浏览器扩展工具为例,其他工具如 Postman 使用方法类似,用户可自行选择。

  1. 完成模型部署。

  2. 打开浏览器,开启 Talend API Tester 插件。

  3. 配置 AIP 调用的各项参数。

    bp model inference 4
    • METHOD:选择 POST 方法发送请求,并填写 URL,即推理服务的外网访问地址和相应的接口信息,本示例为 `https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions 其中,https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/ 为推理服务的外网访问地址,在服务信息中复制得到,需根据实际情况进行修改。

    • HEADERS:请求头需选择 Content-Typeapplication/json。新增 AuthorizationBearer sk-n14LqHPDJRiTQpSSMwz8e2svn1kDsaoz8isPWUwInnU7J0QC 是模型部署完成后,在服务信息中复制得到的 API 密钥,需根据实际情况进行修改。

    • BODY:即请求的正文内容,本示例为 {"model": "baichuan2", "do_sample": false, "stream": false, "messages": [{"role": "system", "content": "You are a helpful assistent."}, {"role": "user", "content": "你好"}]} 用户可自行修改。

  4. 点击 Send,API 调用响应如下。

    bp model inference 5

集成架构的方式调用

  1. 完成模型部署。

  2. 开启第三方工具,配置相应参数,检查连通性。

    说明

    本文档以使用 OpenAI 为例,其他工具请用户自行参考相应的官方说明。

    bp model inference 7

    API 代理地址:为推理服务的外网访问链接,本示例为 https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions,用户需根据相应服务生成的外网链接自行修改。

  3. API 连通性检查完毕后,即可实现回话功能。

    bp model inference 8

临时调用

推理服务的外网访问链接生成后,可直接通过修改外网链接的方式,使用浏览器使用大语言模型。

  1. 完成模型部署,获取外网访问链接。

  2. 将外网访问链接中的 inference 字段修改为 inference-web。

    例如,外网连接为:

    https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/

    修改为:

    https://ai.coreshub.cn/tjzs1/inference-web/usr-gejp8uea/inf-xfybm4k4/
  3. 在浏览器中输入修改后的外网链接,即可直接使用。

    bp model inference 6