Speech API Console
把 MiniMax 语音 API 放进网页里请求
填写全局 API Key 后,每个模块会按 MiniMax 文档构造请求体、发起请求、展示响应,并生成可复制的 curl。语音二进制字段如果以 hex 返回,页面会尝试转换为音频播放和下载。
同步语音合成 HTTP
短文本直接生成音频。常用 endpoint:/v1/t2a_v2。
使用说明
用于短文本即时生成语音,适合按钮试听、实时播报、对话式回复。
voice_id可填系统音色、音色复刻结果或音色设计结果。- 返回的音频可能是 hex 字符串或临时 URL,页面会自动生成播放器和下载按钮。
- 如果浏览器提示 CORS,点击“复制 curl”到终端测试,或把 API Base 改成本地代理地址。
参数和值说明
| model | speech-2.8-turbo 偏速度和实时性;speech-2.8-hd 偏音质和表现力;speech-2.6-*、speech-02-*、speech-01-* 可作为兼容选择。 |
|---|---|
| voice_id | 填系统音色 ID、复刻音色 ID 或音色设计 ID。默认示例 male-qn-qingse 仅用于快速试跑。 |
| text | 要合成的文本。同步接口适合短文本,过长内容建议改用异步合成。 |
| speed / vol / pitch | speed 控制语速,vol 控制音量,pitch 控制音高;默认值分别是 1、1、0。 |
| emotion | 为空表示不指定情绪;可选 happy、sad、angry、fearful、disgusted、surprised、calm、fluent。 |
| format | mp3 体积小、兼容好;wav、flac 便于高质量后处理;pcm 适合底层音频管线。 |
| sample_rate / bitrate / channel | 采样率和码率越高音质越好、文件越大;channel=1 为单声道,2 为双声道。 |
| language_boost | 用于增强指定语言识别和发音表现。中文可填 Chinese,粤语填 Chinese,Yue,英文填 English,不确定可用 auto 或留空。 |
| output_format | 非流式可选 hex 或 url;URL 有效期按官方接口返回规则处理。流式场景只支持 hex。 |
| 返回音频 | hex 返回时页面会转成浏览器 Blob 播放和下载;url 返回时页面会直接使用链接播放,并提供下载/打开链接按钮。 |
| 高级开关 | subtitle_enable 请求字幕;stream 请求流式返回;timestamp_enable 请求时间戳;text_normalization 改善中英文数字读法;latex_read 读取 LaTeX 公式;force_cbr 仅流式 MP3 生效;aigc_watermark 控制是否添加音频水印。 |
等待请求...
同步语音合成 WebSocket
MiniMax WebSocket 文档要求握手时携带 Authorization 请求头;浏览器原生 WebSocket 不能设置自定义请求头,所以这里生成 start / continue / finish 消息和 curl 示例。实际网页直连需要你自己的 WS 代理注入鉴权头。
使用说明
用于流式语音合成,适合边生成边播放的实时体验。
- 浏览器原生 WebSocket 不能设置
Authorization请求头,所以本页只生成消息和命令。 - 真实网页接入时建议加一个后端 WS 代理,由代理把鉴权头转发给 MiniMax。
- 消息顺序一般是开始任务、连续发送文本、结束任务,再按返回包拼接音频。
参数和值说明
| WebSocket URL | 默认 wss://api.minimaxi.com/ws/v1/t2a_v2。如果你有自己的代理,填代理的 WS 地址。 |
|---|---|
| model | 实时播放优先选 speech-2.8-turbo;更重视音质可选 speech-2.8-hd,也可按兼容需要使用 2.6 / 02 / 01 系列。 |
| voice_id | 与 HTTP 合成一致,填系统音色、复刻音色或设计音色的 ID。 |
| format | mp3 适合浏览器播放;pcm 适合自定义播放器或底层音频流;flac 适合高质量流式保存。 |
| language_boost | 与 HTTP 合成一致,可填 auto、Chinese、Chinese,Yue、English 等。 |
| text | 页面生成 task_continue 消息中的文本。真实流式场景可以分段发送多条文本。 |
| Authorization | MiniMax 需要握手请求头;浏览器不能直接设置,需由后端代理补上 Bearer API_KEY。 |
如果接入自己的代理,可让代理接收浏览器 WS 后转发到 MiniMax,并在转发握手中添加 Authorization: Bearer API_KEY。
浏览器原生 WebSocket 无法设置 Authorization 请求头,未直接连接。
异步长文本语音合成:创建任务
适合长文本、批量有声内容。endpoint:/v1/t2a_async_v2。
使用说明
用于长文本后台合成,适合课程、有声书、批量旁白等不需要立即返回音频的任务。
- 短长文本可直接填
text;更长内容先用上传文件接口上传t2a_async_input,再填text_file_id。 - 创建成功后复制或自动带出的
task_id,到“异步任务查询”里轮询状态。 - 查询结果里若出现输出文件 ID,可到“文件管理”下载;若直接返回音频 URL,页面会自动显示播放器。
参数和值说明
| model | 长文本批量任务一般选 speech-2.8-turbo 控制速度和成本;精品内容可选 speech-2.8-hd;兼容项目可选 2.6 / 02 / 01 系列。 |
|---|---|
| voice_id | 目标音色 ID,和同步合成相同。复刻或设计完成后可把返回 ID 填到这里。 |
| text | 直接提交的长文本。若同时填写 text_file_id,页面会优先使用文件 ID 并移除 text。 |
| text_file_id | 通过文件上传接口以 purpose=t2a_async_input 上传文本后得到的文件 ID。 |
| format | mp3 适合分发和在线播放;wav、flac 适合剪辑或后期处理;pcm 适合底层音频管线。 |
| speed / vol / pitch | 与同步合成一致,用于控制整段输出的语速、音量和音高。 |
| sample_rate / bitrate / channel | 决定输出音频规格。长文本建议先用默认值验证,再按文件体积和音质要求调整。 |
| language_boost | 目标语言增强,例如中文填 Chinese,粤语填 Chinese,Yue。多语言文本可用 auto 或按主语言填写。 |
| aigc_watermark / continuous_sound | aigc_watermark 控制是否添加音频水印;continuous_sound 用于更连续的长文本音频输出。 |
等待请求...
异步长文本语音合成:查询任务
用创建任务返回的 task_id 查询状态和结果文件 ID。endpoint:/v1/query/t2a_async_query_v2。
使用说明
用创建任务返回的 task_id 查询异步合成是否完成。
- 创建任务成功后,本页会尝试自动把
task_id填到这里。 - 未完成时等待几秒后再查;完成后查看响应中的输出文件 ID。
- 拿到输出文件 ID 后,在文件下载接口中填写
file_id下载结果音频。
参数和值说明
| task_id | 创建异步任务返回的任务 ID。只用于查询任务状态,不能当作文件 ID 下载。 |
|---|---|
| 成功状态 | 响应中若显示任务完成,继续找输出音频的 file_id 或类似结果字段。 |
| 返回音频 | 异步任务通常返回输出文件 ID;如果响应中直接包含 audio_url、download_url、url 或类似音频链接,页面会自动显示播放和下载按钮。 |
| 失败状态 | 查看响应里的错误码、错误信息和原请求 JSON,通常和文本过长、voice_id 无效、参数格式有关。 |
等待请求...
上传语音相关文件
用于音色复刻音频、试听音频,或异步语音合成长文本文件。endpoint:/v1/files/upload。
使用说明
上传语音 API 需要的文件,并拿到后续接口使用的 file_id。
voice_clone:上传待复刻的人声音频,用于音色快速复刻。prompt_audio:上传参考试听音频,用于辅助复刻效果,时长需小于 8 秒。t2a_async_input:上传长文本文件,用于异步长文本语音合成。
参数和值说明
| purpose=voice_clone | 上传待复刻人声音频。用于后续 /v1/voice_clone 的 file_id。 |
|---|---|
| purpose=prompt_audio | 上传参考音频,配合 prompt_text 作为复刻提示,可选。官方要求时长小于 8 秒。 |
| purpose=t2a_async_input | 上传长文本文件,返回的 file_id 填到异步创建任务的 text_file_id。 |
| file | voice_clone 主复刻音频需 10 秒到 5 分钟;prompt_audio 示例音频需小于 8 秒;音频格式通常用 mp3、m4a、wav。 |
| 返回值 | 重点看 file_id。页面会按 purpose 自动回填到复刻、参考音频、异步文本或文件查询区域。 |
等待请求...
文件管理
辅助异步合成结果下载,也可查看或删除文件。包含 list / retrieve / retrieve_content / delete。
使用说明
管理文件资产,并下载异步任务生成的音频文件。
- “列出文件”按
purpose查看文件,官方文档要求传入具体 purpose。 - “查询文件”用于确认某个
file_id的元数据。 - “下载文件”会把返回内容转成下载链接;如果响应是音频类型,会显示播放器。
- “删除文件”按官方示例使用 JSON,请求体包含当前
purpose和file_id。
参数和值说明
| purpose | 筛选或删除文件类型。常用值为 voice_clone、prompt_audio、t2a_async_input;删除接口还支持官方列出的 t2a_async、video_generation。 |
|---|---|
| file_id | 查询或下载指定文件时必填。异步合成完成后拿到的输出文件 ID 应填在这里。 |
| 列出文件 | 用于找文件 ID 或核对文件类型,不下载文件内容。 |
| 查询文件 | 用于查看单个文件元数据,例如用途、大小、状态。 |
| 下载文件 | 用于获取文件二进制内容;音频类型会显示播放器和下载按钮。如果接口返回的是可访问 URL,也会直接展示链接播放器。 |
| 删除文件 | 用于删除上传或生成的文件。页面会二次确认,避免误删。 |
等待请求...
音色快速复刻
用上传后的音频 file_id 生成可用于合成的 Voice ID。endpoint:/v1/voice_clone。
使用说明
用一段人声音频复刻出可复用的自定义音色。
- 先在“上传文件”选择
voice_clone上传音频,成功后把file_id填到这里。 voice_id为必填自定义 ID,便于后续合成和删除。- 复刻成功后,返回的 Voice ID 可直接用于同步、异步语音合成。
参数和值说明
| file_id | 必填 int64。先用上传接口以 purpose=voice_clone 上传人声音频,拿返回的 file_id。 |
|---|---|
| voice_id | 必填自定义音色 ID。官方要求 8-256 位、首字符为英文字母,只能包含数字/字母/-/_,且不能以 - 或 _ 结尾。 |
| model | 传 text 生成试听音频时必填。快速验证选 speech-2.8-turbo,质量优先选 speech-2.8-hd;也可选 2.6 / 02 / 01 系列。 |
| language_boost | 音频主要语言。中文填 Chinese,粤语填 Chinese,Yue,英文填 English,不确定可用 auto。 |
| prompt_audio | 可选参考音频文件 ID。需要先用上传接口选择 prompt_audio 上传,官方要求示例音频时长小于 8 秒;若使用 clone_prompt,prompt_audio 和 prompt_text 要同时填写。 |
| prompt_text | 参考音频对应文本。使用 prompt_audio 时建议填写,帮助对齐发音内容。 |
| text | 复刻完成后生成试听音频的文本,不是复刻训练文本。 |
| 返回音频 | 复刻成功后的试听音频可能以 hex 或 URL 形式返回。页面会识别 audio、audio_file、trial_audio、audio_url、download_url 等字段。 |
| noise / volume | need_noise_reduction 降噪;need_volume_normalization 音量归一。官方默认都是 false,录音质量不稳定时再开启。 |
| aigc_watermark | 中文官方文档列出该字段;页面默认不勾选,按 false 发送。 |
等待请求...
音色设计
通过文本描述生成音色和试听音频。endpoint:/v1/voice_design。
使用说明
通过文字描述创建新音色,适合没有录音素材但需要角色化声音的场景。
prompt写声音特征,例如年龄、性别、语气、情绪、用途。preview_text是试听内容,建议用真实业务句子检查效果。- 生成成功后保存返回的 Voice ID,后续在合成接口的
voice_id中使用。
参数和值说明
| voice_id | 可选自定义音色 ID。填写时建议用业务前缀,避免和已有 ID 冲突;规则与复刻音色 ID 一致。 |
|---|---|
| prompt | 音色描述。建议包含性别、年龄、语言、情绪、语速、使用场景,例如“年轻女性、中文、亲切、客服播报”。 |
| preview_text | 试听文本,官方限制 500 字符内。用真实业务句子更容易判断音色是否适合。 |
| aigc_watermark | 中文官方文档列出该字段;页面默认不勾选,按 false 发送。 |
| 返回值 | 重点看 Voice ID 和试听音频。试听音频可能是 hex 或 URL,页面会自动播放并提供下载;满意后把 Voice ID 填到合成接口的 voice_id。 |
等待请求...
查询可用音色
查询系统音色、快速复刻音色、文生音色或全部音色。endpoint:/v1/get_voice。
使用说明
查询当前账号可用的音色 ID,适合在合成前确认音色是否存在。
system查平台系统音色;voice_cloning查复刻音色。voice_generation查音色设计生成的音色;all查全部。- 把返回的音色 ID 复制到同步或异步合成接口的
voice_id字段。
参数和值说明
| system | 查询平台预设系统音色。适合先选一个默认音色快速接入合成。 |
|---|---|
| voice_cloning | 查询快速复刻生成的音色。 |
| voice_generation | 查询音色设计生成的音色。 |
| all | 查询全部可用音色。音色很多时建议再按业务记录筛选。 |
| 返回值 | 重点看音色 ID、音色类型和名称。把 ID 复制到合成、删除或资产管理场景。 |
等待请求...
删除音色
删除快速复刻或文本生成音色。删除后对应 Voice ID 无法继续使用。endpoint:/v1/delete_voice。
使用说明
删除不再使用的复刻音色或文本生成音色。
- 只删除自定义资产,不用于删除系统音色。
- 删除前先用“查询可用音色”确认
voice_type和voice_id。 - 点击删除会二次确认,删除后对应 Voice ID 不应再用于合成。
参数和值说明
| voice_type | 只能删除自定义音色类型:voice_cloning 或 voice_generation。不要填 system。 |
|---|---|
| voice_id | 要删除的音色 ID。建议先用“查询可用音色”确认它存在且类型正确。 |
| 删除后 | 该 Voice ID 不应继续用于同步或异步合成;已有业务配置需要同步替换。 |
| 安全检查 | 页面点击删除时会弹出二次确认;curl 调用时请自己确认参数,避免删错音色。 |
等待请求...