文本生成音频（TTS） - AI 智算产品文档

基本信息

Action：/audio/speech

Method： POST

Content-Type：application/json

Authorization：需提前在 API 密钥管理中创建和获取。

计费方式：output token 音频文件秒数。

请求参数

参数类型说明是否必须示例备注

参数	类型	说明	是否必须	示例	备注
model	字符串	要使用的模型，可选择 `CosyVoice-300M` 或 `Step-Audio-TTS-3B`	是	CosyVoice-300M	-
input	字符串	待转换为音频的文本内容	是	床前明月光，疑似地上霜	-
voice	字符串	输出音频的声音特点。针对不同模型可输入的值不一样，具体如下： `CosyVoice-300M` 模型：仅支持音色维度，可输入：`中文女`、`中文男`、`日语男`、`粤语女`、`英文女`或`英文男` `Step-Audio-TTS-3B` 模型：支持情绪、语言、语速以及模式 4 种维度，可输入值如下：情绪：`高兴1`、`高兴2`、`生气1`、`生气2`、`悲伤1`、`撒娇1` 语言：`中文`、`英文`、`韩语`、`日语`、`四川话`、`粤语`、`广东话` 语速：`慢速1`、`慢速2`、`快速1`、`快速2` 模式：`RAP`、`哼唱`（仅在非克隆模式下有效）	否	仅指定一个维度时：中文女指定多个维度时：高兴2\|英文\|RAP	用户需根据所使用的模型选择相应的输入值。若模型输出声音支持多个维度，则每个维度支持选择 0 或 1 个值，指定多个维度参数值时，需使用 `\|` 符号分隔。
speed	浮点型	输出音频的语速，默认值 `1.0`，可取范围 `0.5~2.0`	否	1.0	-

model

字符串

要使用的模型，可选择 CosyVoice-300M 或 Step-Audio-TTS-3B

是

CosyVoice-300M

input

字符串

待转换为音频的文本内容

是

床前明月光，疑似地上霜

voice

字符串

输出音频的声音特点。针对不同模型可输入的值不一样，具体如下：

CosyVoice-300M 模型：仅支持音色维度，可输入：中文女、中文男、日语男、粤语女、英文女或英文男
Step-Audio-TTS-3B 模型：支持情绪、语言、语速以及模式 4 种维度，可输入值如下：
- 情绪：高兴1、高兴2、生气1、生气2、悲伤1、撒娇1
- 语言：中文、英文、韩语、日语、四川话、粤语、广东话
- 语速：慢速1、慢速2、快速1、快速2
- 模式：RAP、哼唱（仅在非克隆模式下有效）

否

仅指定一个维度时：中文女
指定多个维度时：高兴2|英文|RAP

用户需根据所使用的模型选择相应的输入值。
若模型输出声音支持多个维度，则每个维度支持选择 0 或 1 个值，指定多个维度参数值时，需使用 | 符号分隔。

speed

浮点型

输出音频的语速，默认值 1.0，可取范围 0.5~2.0

否

1.0

响应参数

音频文件。

请求示例

Curl

curl -X POST \
   -H "Authorization:Bearer sk-jJR1LZb0b0L3s27aaPo5tFafb4T97ZPkrFBzHmoE8hmNQ4Oc" \
   -H "Content-Type:application/json" \
   -d \
'{
  "model":"CosyVoice-300M",
  "input":"床前明月光，疑似地上霜",
  "voice":"中文男"
}' \
 'https://hpc-ai.qingcloud.com/imaas/v1/audio/speech' \
--output test.wav

Python

from openai import OpenAI

client = OpenAI(api_key='sk-xxxxxxxxxxxxxxxx', base_url='https://openapi.coreshub.cn/v1')

response = client.audio.speech.create(
    model='CosyVoice-300M',
    voice='中文女',
    input='床前明月光，疑似地上霜',
)

response.stream_to_file('speech.wav')

响应示例

音频文件。