基本信息

Action:/audio/speech

Method: POST

Content-Type:application/json

Authorization:需提前在 API 密钥管理中创建和获取

计费方式:output token 音频文件秒数。

请求参数

参数 类型 说明 是否必须 示例 备注

model

字符串

要使用的模型,可选择 CosyVoice-300MStep-Audio-TTS-3B

CosyVoice-300M

-

input

字符串

待转换为音频的文本内容

床前明月光,疑似地上霜

-

voice

字符串

输出音频的声音特点。针对不同模型可输入的值不一样,具体如下:

  • CosyVoice-300M 模型:仅支持音色维度,可输入:中文女中文男日语男粤语女英文女英文男

  • Step-Audio-TTS-3B 模型:支持情绪、语言、语速以及模式 4 种维度,可输入值如下:

    • 情绪:高兴1高兴2生气1生气2悲伤1撒娇1

    • 语言:中文英文韩语日语四川话粤语广东话

    • 语速:慢速1慢速2快速1快速2

    • 模式:RAP哼唱(仅在非克隆模式下有效)

  • 仅指定一个维度时: 中文女

  • 指定多个维度时:高兴2|英文|RAP

  • 用户需根据所使用的模型选择相应的输入值。

  • 若模型输出声音支持多个维度,则每个维度支持选择 0 或 1 个值,指定多个维度参数值时,需使用 | 符号分隔。

speed

浮点型

输出音频的语速,默认值 1.0,可取范围 0.5~2.0

1.0

-

响应参数

音频文件。

请求示例

Curl

curl -X POST \
   -H "Authorization:Bearer sk-jJR1LZb0b0L3s27aaPo5tFafb4T97ZPkrFBzHmoE8hmNQ4Oc" \
   -H "Content-Type:application/json" \
   -d \
'{
  "model":"CosyVoice-300M",
  "input":"床前明月光,疑似地上霜",
  "voice":"中文男"
}' \
 'https://hpc-ai.qingcloud.com/imaas/v1/audio/speech' \
--output test.wav

Python

from openai import OpenAI

client = OpenAI(api_key='sk-xxxxxxxxxxxxxxxx', base_url='https://openapi.coreshub.cn/v1')

response = client.audio.speech.create(
    model='CosyVoice-300M',
    voice='中文女',
    input='床前明月光,疑似地上霜',
)

response.stream_to_file('speech.wav')

响应示例

音频文件。