大模型的部署及使用
本文主要介绍如何在模型广场一键快速完成大语言模型的部署,并完成推理服务的接口调用。本文以 Baichuan2-7B-chat 为例进行介绍。
前提条件
-
已经获取基石智算控制台账户和密码。
-
已完成实名认证且账户余额大于 0 元。
模型部署
-
登录基石智算控制台,进入AI 算力云服务。
-
在模型广场页面,选择
Baichuan2-7B-chat
模型完成部署,具体操作可参考前文内容。说明 大语言模型目前统一使用 vllm 框架运行推理,同时支持流式和非流式接口。
-
进入推理服务详情页面,在服务信息页签内,获取外网访问地址和 API 密钥。用户点击相应信息右侧的复制按钮即可。
手动调用
方式一:直接使用 curl 调用
-
模型部署完成后,用户可打开本地电脑终端。
-
执行如下命令,直接发送 HTTP POST 请求。
curl -X POST \ -H "Content-Type:application/json" \ -H "Authentication:Bearer sk-n14LqHPDJRiTQpSSMwz8e2svn1kDsaoz8isPWUwInnU7J0QC" \ -d \ '{"model": "baichuan2", "do_sample": false, "stream": false, "messages": [{"role": "system", "content": "You are a helpful assistent."}, {"role": "user", "content": "你好"}]}' \ 'https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions'
回显示例:
-
sk-n14LqHPDJRiTQpSSMwz8e2svn1kDsaoz8isPWUwInnU7J0QC
是模型部署完成后,在服务信息中复制得到的 API 密钥,需根据实际情况进行修改。 -
-d
用于指定 POST 请求的正文内容,用户可自行修改。 -
https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions
其中,https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/
为推理服务的外网访问地址,在服务信息中复制得到,需根据实际情况进行修改。
-
方式二:使用客户端工具
本示例直接使用 Talend API Tester 浏览器扩展工具为例,其他工具如 Postman 使用方法类似,用户可自行选择。
-
完成模型部署。
-
打开浏览器,开启 Talend API Tester 插件。
-
配置 AIP 调用的各项参数。
-
METHOD:选择
POST
方法发送请求,并填写 URL,即推理服务的外网访问地址和相应的接口信息,本示例为`https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions
其中,https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/
为推理服务的外网访问地址,在服务信息中复制得到,需根据实际情况进行修改。 -
HEADERS:请求头需选择
Content-Type
为application/json
。新增Authorization
为Bearer sk-n14LqHPDJRiTQpSSMwz8e2svn1kDsaoz8isPWUwInnU7J0QC
是模型部署完成后,在服务信息中复制得到的 API 密钥,需根据实际情况进行修改。 -
BODY:即请求的正文内容,本示例为
{"model": "baichuan2", "do_sample": false, "stream": false, "messages": [{"role": "system", "content": "You are a helpful assistent."}, {"role": "user", "content": "你好"}]}
用户可自行修改。
-
-
点击 Send,API 调用响应如下。
集成架构的方式调用
-
完成模型部署。
-
开启第三方工具,配置相应参数,检查连通性。
说明 本文档以使用 OpenAI 为例,其他工具请用户自行参考相应的官方说明。
API 代理地址:为推理服务的外网访问链接,本示例为
https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/v1/chat/completions
,用户需根据相应服务生成的外网链接自行修改。 -
API 连通性检查完毕后,即可实现回话功能。
临时调用
推理服务的外网访问链接生成后,可直接通过修改外网链接的方式,使用浏览器使用大语言模型。
-
完成模型部署,获取外网访问链接。
-
将外网访问链接中的 inference 字段修改为 inference-web。
例如,外网连接为:
https://ai.coreshub.cn/tjzs1/inference/usr-gejp8uea/inf-xfybm4k4/
修改为:
https://ai.coreshub.cn/tjzs1/inference-web/usr-gejp8uea/inf-xfybm4k4/
-
在浏览器中输入修改后的外网链接,即可直接使用。