大模型的部署及使用 - AI 算力云产品文档

本文主要介绍如何在模型广场一键快速完成大语言模型的部署，并完成推理服务的接口调用。本文以 Baichuan2-7B-chat 为例进行介绍。

前提条件

登录基石智算控制台，进入AI 算力云服务。
在模型广场页面，选择 Baichuan2-7B-chat 模型完成部署，具体操作可参考前文内容。

说明

大语言模型目前统一使用 vllm 框架运行推理，同时支持流式和非流式接口。
进入推理服务详情页面，在服务信息页签内，获取外网访问地址和 API 密钥。用户点击相应信息右侧的复制按钮即可。

说明
大语言模型目前统一使用 vllm 框架运行推理，同时支持流式和非流式接口。

本示例直接使用 Talend API Tester 浏览器扩展工具为例，其他工具如 Postman 使用方法类似，用户可自行选择。

完成模型部署。
打开浏览器，开启 Talend API Tester 插件。
配置 AIP 调用的各项参数。
- METHOD：选择 POST 方法发送请求，并填写 URL，即推理服务的外网访问地址和相应的接口信息，本示例为 `https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions 其中，https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/ 为推理服务的外网访问地址，在服务信息中复制得到，需根据实际情况进行修改。
- HEADERS：请求头需选择 Content-Type 为 application/json。新增 Authorization 为 Bearer sk-n14LqHPDJRiTQpSSMwz8e2svn1kDsaoz8isPWUwInnU7J0QC 是模型部署完成后，在服务信息中复制得到的 API 密钥，需根据实际情况进行修改。
- BODY：即请求的正文内容，本示例为 {"model": "baichuan2", "do_sample": false, "stream": false, "messages": [{"role": "system", "content": "You are a helpful assistent."}, {"role": "user", "content": "你好"}]} 用户可自行修改。
点击 Send，API 调用响应如下。

说明
本文档以使用 OpenAI 为例，其他工具请用户自行参考相应的官方说明。

推理服务的外网访问链接生成后，可直接通过修改外网链接的方式，使用浏览器使用大语言模型。

将外网访问链接中的 inference 字段修改为 inference-web。

例如，外网连接为：

https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/

修改为：

https://ai.coreshub.cn/tjzs1/inference-web/usr-gejp8uea/inf-xfybm4k4/