模型服务介绍 - AI 智算产品文档

功能简介

智算的大模型服务平台上线语音类模型应用，该平台为用户提供了大模型体验、开发以及应用功能。其兼容 OpenAI 接口规范，用户可直接调用相应模型的 API 进行开发任务。例如，在本地终端调用 Qwen2-0.5B-Instruct 模型：

curl -i -X POST \
   -H "Content-Type:application/json" \
   -H "Authorization:Bearer sk-xxxxxxxxxxxxxxxxxxxxxxxxxxxxx" \
   -d \
'{"model": "Qwen2-0.5B-Instruct", "stream": true, "messages": [{"role": "system", "content": "You are a helpful assistent."}, {"role": "user", "content": "你好"}]}' \
 'https://openapi.coreshub.cn/v1/chat/completions'

模型列表

下表罗列了平台内主要的模型，若需查看全部模型信息，用户可直接登录平台，查看在线推理服务相关内容。

模型名称	描述	调用示例	费用
QwQ-32B 模型	QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比，QwQ 具备思考和推理的能力，可以实现显著增强的性能，尤其是在解决难题方面。	-	输入价格：￥0.001 / 千 tokens 输出价格：￥0.004 / 千 tokens
全系列 DeepSeek 模型	DeepSeek 系列模型无论是处理复杂文本任务，还是高精度图像处理，均能够为用户提供可靠且高效的支持。用户可参看 DeepSeek 模型选择相关内容，选择适合各自业务场景的模型进行使用。	参考在第三方应用中使用	各 DeepSeek 模型价格不尽相同，可参看 DeepSeek 模型选择。
Qwen2-0.5B-Instruct	Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构，并采用 SwiGLU 激活函数、注意力 QKV 偏置（attention QKV bias）、群组查询注意力（group query attention）、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。	参考大语言模型对话 API 手册。	限时免费
SenseVoiceSmall	SenseVoice 专注于高精度的多语言语音识别、情感识别和音频事件检测，具备极低的延迟，支持超过 50 种语言。	参考音频转文字 API 手册。	限时免费
CosyVoice-300M	CosyVoice 是通义实验室依托大规模预训练语言模型，深度融合文本理解和语音生成的新一代生成式语音合成大模型，支持文本至语音的实时流式合成。	参考文本生成音频及文本生成音频拓展 API 手册。	限时免费
bce-embedding-base_v1	bce-embedding-base_v1 是由网易有道开发的一款多语言支持的 embedding 模型，适用于多种文本分析和挖掘任务。	参考文本向量化 API 手册。	限时免费
bce-reranker-base_v1	bce-reranker-base 是由网易有道开发的跨语种语义表征算法模型，擅长优化语义搜索结果和语义相关顺序精排，支持中英日韩四门语言，覆盖常见业务领域。	参考语义相关性排序 API 手册。	限时免费

模型名称

描述

调用示例

费用

QwQ-32B 模型

QwQ 是 Qwen 系列的推理模型。与传统的指令调优模型相比，QwQ 具备思考和推理的能力，可以实现显著增强的性能，尤其是在解决难题方面。

输入价格：￥0.001 / 千 tokens
输出价格：￥0.004 / 千 tokens

全系列 DeepSeek 模型

DeepSeek 系列模型无论是处理复杂文本任务，还是高精度图像处理，均能够为用户提供可靠且高效的支持。用户可参看 DeepSeek 模型选择相关内容，选择适合各自业务场景的模型进行使用。

参考在第三方应用中使用

各 DeepSeek 模型价格不尽相同，可参看 DeepSeek 模型选择。

Qwen2-0.5B-Instruct

Qwen2 是 Qwen 团队推出的新一代大型语言模型系列。它基于 Transformer 架构，并采用 SwiGLU 激活函数、注意力 QKV 偏置（attention QKV bias）、群组查询注意力（group query attention）、滑动窗口注意力(mixture of sliding window attention)与全注意力的混合等技术。

参考大语言模型对话 API 手册。

限时免费

SenseVoiceSmall

SenseVoice 专注于高精度的多语言语音识别、情感识别和音频事件检测，具备极低的延迟，支持超过 50 种语言。

参考音频转文字 API 手册。

限时免费

CosyVoice-300M

CosyVoice 是通义实验室依托大规模预训练语言模型，深度融合文本理解和语音生成的新一代生成式语音合成大模型，支持文本至语音的实时流式合成。

参考文本生成音频及文本生成音频拓展 API 手册。

限时免费

bce-embedding-base_v1

bce-embedding-base_v1 是由网易有道开发的一款多语言支持的 embedding 模型，适用于多种文本分析和挖掘任务。

参考文本向量化 API 手册。

限时免费

bce-reranker-base_v1

bce-reranker-base 是由网易有道开发的跨语种语义表征算法模型，擅长优化语义搜索结果和语义相关顺序精排，支持中英日韩四门语言，覆盖常见业务领域。

参考语义相关性排序 API 手册。

限时免费

功能使用

在线推理服务通过 API 调用大模型，基本流程如下：

计费说明

使用在线推理服务，调用平台内预置模型实现文本生成、语音转换以及图片生成等任务时，会产生相应的模型推理费用。用户点击某一具体模型卡片页，可查看指定模型的计费信息。此外，用户也可在平台右侧的导航栏中，选择模型费率，查看当前平台内所有模型的计费信息。

平台提供专属资源部署模型，可按需或包年包月计费，用户可点击模型部署查看。