在线推理服务 - AI 算力云产品文档

在线推理服务

更新时间：2024-11-07 06:26:01

功能简介

基石智算的在线推理服务为用户提供了大模型体验、开发以及应用功能。其兼容 OpenAI 接口规范，用户可直接调用相应模型的 API 进行开发任务。例如，在本地终端调用 Qwen2-0.5B-Instruct 模型：

curl -i -X POST \
   -H "Content-Type:application/json" \
   -H "Authorization:Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \
   -d \
'{"model": "Qwen2-0.5B-Instruct", "stream": true, "messages": [{"role": "system", "content": "You are a helpful assistent."}, {"role": "user", "content": "你好"}]}' \
 'https://openapi.coreshub.cn/v1/chat/completions'

模型列表

模型名称	描述	调用示例	费用
Qwen2-0.5B-Instruct	Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构，并采用 SwiGLU 激活函数、注意力 QKV 偏置（attention QKV bias）、群组查询注意力（group query attention）、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。	参考大语言模型对话 API 手册。	限时免费
SenseVoiceSmall	SenseVoice 专注于高精度的多语言语音识别、情感识别和音频事件检测，具备极低的延迟，支持超过 50 种语言。	参考音频转文字 API 手册。	限时免费
CosyVoice-300M	CosyVoice 是通义实验室依托大规模预训练语言模型，深度融合文本理解和语音生成的新一代生成式语音合成大模型，支持文本至语音的实时流式合成。	参考文本生成音频及文本生成音频拓展 API 手册。	限时免费

模型名称

描述

调用示例

费用

Qwen2-0.5B-Instruct

Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构，并采用 SwiGLU 激活函数、注意力 QKV 偏置（attention QKV bias）、群组查询注意力（group query attention）、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。

参考大语言模型对话 API 手册。

限时免费

SenseVoiceSmall

SenseVoice 专注于高精度的多语言语音识别、情感识别和音频事件检测，具备极低的延迟，支持超过 50 种语言。

参考音频转文字 API 手册。

限时免费

CosyVoice-300M

CosyVoice 是通义实验室依托大规模预训练语言模型，深度融合文本理解和语音生成的新一代生成式语音合成大模型，支持文本至语音的实时流式合成。

参考文本生成音频及文本生成音频拓展 API 手册。

限时免费

功能使用

在线推理服务通过 API 调用大模型，基本流程如下：

创建和获取 API 密钥。
发起 API 请求。

计费说明

使用在线推理服务，调用平台内预置模型实现文本生成、语音转换以及图片生成等任务时，会产生相应的模型推理费用。用户点击某一具体模型卡片页内的查看费率按钮，可查询指定模型的计费信息。此外，用户也可在平台右侧的导航栏中，选择模型费率，查看当前平台内所有模型的计费信息。