Speech API Console

把 MiniMax 语音 API 放进网页里请求

填写全局 API Key 后，每个模块会按 MiniMax 文档构造请求体、发起请求、展示响应，并生成可复制的 curl。语音二进制字段如果以 hex 返回，页面会尝试转换为音频播放和下载。

注意：纯前端页面会把 API Key 暴露在浏览器运行时，只适合本机调试。若 MiniMax 接口未开放浏览器 CORS，需要用自己的后端或本地代理转发请求；页面仍会显示完整 curl 方便复现。

1 填写鉴权 在顶部填 API Base 和 API Key。Key 只保存在当前浏览器会话中。

2 选择接口 左侧按语音合成、文件、音色三个流程组织，可直接跳到目标接口。

3 检查预览 表单变更会实时刷新请求 JSON、URL 和 curl 参数，发送前先确认字段。

4 查看结果 响应区显示原始返回；音频字段会尽量转成播放器和下载按钮。

同步语音合成 HTTP

短文本直接生成音频。常用 endpoint：/v1/t2a_v2。

POST

使用说明

用于短文本即时生成语音，适合按钮试听、实时播报、对话式回复。

voice_id 可填系统音色、音色复刻结果或音色设计结果。
返回的音频可能是 hex 字符串或临时 URL，页面会自动生成播放器和下载按钮。
如果浏览器提示 CORS，点击“复制 curl”到终端测试，或把 API Base 改成本地代理地址。

参数和值说明

model	`speech-2.8-turbo` 偏速度和实时性；`speech-2.8-hd` 偏音质和表现力；`speech-2.6-`、`speech-02-`、`speech-01-*` 可作为兼容选择。
voice_id	填系统音色 ID、复刻音色 ID 或音色设计 ID。默认示例 `male-qn-qingse` 仅用于快速试跑。
text	要合成的文本。同步接口适合短文本，过长内容建议改用异步合成。
speed / vol / pitch	`speed` 控制语速，`vol` 控制音量，`pitch` 控制音高；默认值分别是 `1`、`1`、`0`。
emotion	为空表示不指定情绪；可选 `happy`、`sad`、`angry`、`fearful`、`disgusted`、`surprised`、`calm`、`fluent`。
format	`mp3` 体积小、兼容好；`wav`、`flac` 便于高质量后处理；`pcm` 适合底层音频管线。
sample_rate / bitrate / channel	采样率和码率越高音质越好、文件越大；`channel=1` 为单声道，`2` 为双声道。
language_boost	用于增强指定语言识别和发音表现。中文可填 `Chinese`，粤语填 `Chinese,Yue`，英文填 `English`，不确定可用 `auto` 或留空。
output_format	非流式可选 `hex` 或 `url`；URL 有效期按官方接口返回规则处理。流式场景只支持 `hex`。
返回音频	`hex` 返回时页面会转成浏览器 Blob 播放和下载；`url` 返回时页面会直接使用链接播放，并提供下载/打开链接按钮。
高级开关	`subtitle_enable` 请求字幕；`stream` 请求流式返回；`timestamp_enable` 请求时间戳；`text_normalization` 改善中英文数字读法；`latex_read` 读取 LaTeX 公式；`force_cbr` 仅流式 MP3 生效；`aigc_watermark` 控制是否添加音频水印。

model voice_id text

speed vol pitch emotion format output_format sample_rate bitrate channel language_boost

subtitle_enable stream include timestamp text_normalization latex_read force_cbr aigc_watermark

等待请求...

同步语音合成 WebSocket

MiniMax WebSocket 文档要求握手时携带 Authorization 请求头；浏览器原生 WebSocket 不能设置自定义请求头，所以这里生成 start / continue / finish 消息和 curl 示例。实际网页直连需要你自己的 WS 代理注入鉴权头。

使用说明

用于流式语音合成，适合边生成边播放的实时体验。

浏览器原生 WebSocket 不能设置 Authorization 请求头，所以本页只生成消息和命令。
真实网页接入时建议加一个后端 WS 代理，由代理把鉴权头转发给 MiniMax。
消息顺序一般是开始任务、连续发送文本、结束任务，再按返回包拼接音频。

参数和值说明

WebSocket URL	默认 `wss://api.minimaxi.com/ws/v1/t2a_v2`。如果你有自己的代理，填代理的 WS 地址。
model	实时播放优先选 `speech-2.8-turbo`；更重视音质可选 `speech-2.8-hd`，也可按兼容需要使用 2.6 / 02 / 01 系列。
voice_id	与 HTTP 合成一致，填系统音色、复刻音色或设计音色的 ID。
format	`mp3` 适合浏览器播放；`pcm` 适合自定义播放器或底层音频流；`flac` 适合高质量流式保存。
language_boost	与 HTTP 合成一致，可填 `auto`、`Chinese`、`Chinese,Yue`、`English` 等。
text	页面生成 `task_continue` 消息中的文本。真实流式场景可以分段发送多条文本。
Authorization	MiniMax 需要握手请求头；浏览器不能直接设置，需由后端代理补上 `Bearer API_KEY`。

WebSocket URL model voice_id format language_boost text

如果接入自己的代理，可让代理接收浏览器 WS 后转发到 MiniMax，并在转发握手中添加 Authorization: Bearer API_KEY。

浏览器原生 WebSocket 无法设置 Authorization 请求头，未直接连接。

异步长文本语音合成：创建任务

适合长文本、批量有声内容。endpoint：/v1/t2a_async_v2。

POST

使用说明

用于长文本后台合成，适合课程、有声书、批量旁白等不需要立即返回音频的任务。

短长文本可直接填 text；更长内容先用上传文件接口上传 t2a_async_input，再填 text_file_id。
创建成功后复制或自动带出的 task_id，到“异步任务查询”里轮询状态。
查询结果里若出现输出文件 ID，可到“文件管理”下载；若直接返回音频 URL，页面会自动显示播放器。

参数和值说明

model	长文本批量任务一般选 `speech-2.8-turbo` 控制速度和成本；精品内容可选 `speech-2.8-hd`；兼容项目可选 2.6 / 02 / 01 系列。
voice_id	目标音色 ID，和同步合成相同。复刻或设计完成后可把返回 ID 填到这里。
text	直接提交的长文本。若同时填写 `text_file_id`，页面会优先使用文件 ID 并移除 text。
text_file_id	通过文件上传接口以 `purpose=t2a_async_input` 上传文本后得到的文件 ID。
format	`mp3` 适合分发和在线播放；`wav`、`flac` 适合剪辑或后期处理；`pcm` 适合底层音频管线。
speed / vol / pitch	与同步合成一致，用于控制整段输出的语速、音量和音高。
sample_rate / bitrate / channel	决定输出音频规格。长文本建议先用默认值验证，再按文件体积和音质要求调整。
language_boost	目标语言增强，例如中文填 `Chinese`，粤语填 `Chinese,Yue`。多语言文本可用 `auto` 或按主语言填写。
aigc_watermark / continuous_sound	`aigc_watermark` 控制是否添加音频水印；`continuous_sound` 用于更连续的长文本音频输出。

model voice_id text_file_id format text

speed vol pitch sample_rate bitrate channel language_boost

aigc_watermark continuous_sound

等待请求...

异步长文本语音合成：查询任务

用创建任务返回的 task_id 查询状态和结果文件 ID。endpoint：/v1/query/t2a_async_query_v2。

GET

使用说明

用创建任务返回的 task_id 查询异步合成是否完成。

创建任务成功后，本页会尝试自动把 task_id 填到这里。
未完成时等待几秒后再查；完成后查看响应中的输出文件 ID。
拿到输出文件 ID 后，在文件下载接口中填写 file_id 下载结果音频。

参数和值说明

task_id	创建异步任务返回的任务 ID。只用于查询任务状态，不能当作文件 ID 下载。
成功状态	响应中若显示任务完成，继续找输出音频的 `file_id` 或类似结果字段。
返回音频	异步任务通常返回输出文件 ID；如果响应中直接包含 `audio_url`、`download_url`、`url` 或类似音频链接，页面会自动显示播放和下载按钮。
失败状态	查看响应里的错误码、错误信息和原请求 JSON，通常和文本过长、voice_id 无效、参数格式有关。

task_id

等待请求...

上传语音相关文件

用于音色复刻音频、试听音频，或异步语音合成长文本文件。endpoint：/v1/files/upload。

POST

使用说明

上传语音 API 需要的文件，并拿到后续接口使用的 file_id。

voice_clone：上传待复刻的人声音频，用于音色快速复刻。
prompt_audio：上传参考试听音频，用于辅助复刻效果，时长需小于 8 秒。
t2a_async_input：上传长文本文件，用于异步长文本语音合成。

参数和值说明

purpose=voice_clone	上传待复刻人声音频。用于后续 `/v1/voice_clone` 的 `file_id`。
purpose=prompt_audio	上传参考音频，配合 `prompt_text` 作为复刻提示，可选。官方要求时长小于 8 秒。
purpose=t2a_async_input	上传长文本文件，返回的 `file_id` 填到异步创建任务的 `text_file_id`。
file	`voice_clone` 主复刻音频需 10 秒到 5 分钟；`prompt_audio` 示例音频需小于 8 秒；音频格式通常用 `mp3`、`m4a`、`wav`。
返回值	重点看 `file_id`。页面会按 purpose 自动回填到复刻、参考音频、异步文本或文件查询区域。

purpose file

等待请求...

文件管理

辅助异步合成结果下载，也可查看或删除文件。包含 list / retrieve / retrieve_content / delete。

GET/POST

使用说明

管理文件资产，并下载异步任务生成的音频文件。

“列出文件”按 purpose 查看文件，官方文档要求传入具体 purpose。
“查询文件”用于确认某个 file_id 的元数据。
“下载文件”会把返回内容转成下载链接；如果响应是音频类型，会显示播放器。
“删除文件”按官方示例使用 JSON，请求体包含当前 purpose 和 file_id。

参数和值说明

purpose	筛选或删除文件类型。常用值为 `voice_clone`、`prompt_audio`、`t2a_async_input`；删除接口还支持官方列出的 `t2a_async`、`video_generation`。
file_id	查询或下载指定文件时必填。异步合成完成后拿到的输出文件 ID 应填在这里。
列出文件	用于找文件 ID 或核对文件类型，不下载文件内容。
查询文件	用于查看单个文件元数据，例如用途、大小、状态。
下载文件	用于获取文件二进制内容；音频类型会显示播放器和下载按钮。如果接口返回的是可访问 URL，也会直接展示链接播放器。
删除文件	用于删除上传或生成的文件。页面会二次确认，避免误删。

purpose file_id

等待请求...

音色快速复刻

用上传后的音频 file_id 生成可用于合成的 Voice ID。endpoint：/v1/voice_clone。

POST

使用说明

用一段人声音频复刻出可复用的自定义音色。

先在“上传文件”选择 voice_clone 上传音频，成功后把 file_id 填到这里。
voice_id 为必填自定义 ID，便于后续合成和删除。
复刻成功后，返回的 Voice ID 可直接用于同步、异步语音合成。

参数和值说明

file_id	必填 int64。先用上传接口以 `purpose=voice_clone` 上传人声音频，拿返回的 `file_id`。
voice_id	必填自定义音色 ID。官方要求 8-256 位、首字符为英文字母，只能包含数字/字母/`-`/`_`，且不能以 `-` 或 `_` 结尾。
model	传 `text` 生成试听音频时必填。快速验证选 `speech-2.8-turbo`，质量优先选 `speech-2.8-hd`；也可选 2.6 / 02 / 01 系列。
language_boost	音频主要语言。中文填 `Chinese`，粤语填 `Chinese,Yue`，英文填 `English`，不确定可用 `auto`。
prompt_audio	可选参考音频文件 ID。需要先用上传接口选择 `prompt_audio` 上传，官方要求示例音频时长小于 8 秒；若使用 `clone_prompt`，`prompt_audio` 和 `prompt_text` 要同时填写。
prompt_text	参考音频对应文本。使用 `prompt_audio` 时建议填写，帮助对齐发音内容。
text	复刻完成后生成试听音频的文本，不是复刻训练文本。
返回音频	复刻成功后的试听音频可能以 hex 或 URL 形式返回。页面会识别 `audio`、`audio_file`、`trial_audio`、`audio_url`、`download_url` 等字段。
noise / volume	`need_noise_reduction` 降噪；`need_volume_normalization` 音量归一。官方默认都是 `false`，录音质量不稳定时再开启。
aigc_watermark	中文官方文档列出该字段；页面默认不勾选，按 `false` 发送。

file_id voice_id model language prompt_audio file_id prompt_text 试听文本 text

need_noise_reduction need_volume_normalization aigc_watermark

等待请求...

音色设计

通过文本描述生成音色和试听音频。endpoint：/v1/voice_design。

POST

使用说明

通过文字描述创建新音色，适合没有录音素材但需要角色化声音的场景。

prompt 写声音特征，例如年龄、性别、语气、情绪、用途。
preview_text 是试听内容，建议用真实业务句子检查效果。
生成成功后保存返回的 Voice ID，后续在合成接口的 voice_id 中使用。

参数和值说明

voice_id	可选自定义音色 ID。填写时建议用业务前缀，避免和已有 ID 冲突；规则与复刻音色 ID 一致。
prompt	音色描述。建议包含性别、年龄、语言、情绪、语速、使用场景，例如“年轻女性、中文、亲切、客服播报”。
preview_text	试听文本，官方限制 500 字符内。用真实业务句子更容易判断音色是否适合。
aigc_watermark	中文官方文档列出该字段；页面默认不勾选，按 `false` 发送。
返回值	重点看 Voice ID 和试听音频。试听音频可能是 hex 或 URL，页面会自动播放并提供下载；满意后把 Voice ID 填到合成接口的 `voice_id`。

voice_id prompt preview_text

aigc_watermark

等待请求...

查询可用音色

查询系统音色、快速复刻音色、文生音色或全部音色。endpoint：/v1/get_voice。

POST

使用说明

查询当前账号可用的音色 ID，适合在合成前确认音色是否存在。

system 查平台系统音色；voice_cloning 查复刻音色。
voice_generation 查音色设计生成的音色；all 查全部。
把返回的音色 ID 复制到同步或异步合成接口的 voice_id 字段。

参数和值说明

system	查询平台预设系统音色。适合先选一个默认音色快速接入合成。
voice_cloning	查询快速复刻生成的音色。
voice_generation	查询音色设计生成的音色。
all	查询全部可用音色。音色很多时建议再按业务记录筛选。
返回值	重点看音色 ID、音色类型和名称。把 ID 复制到合成、删除或资产管理场景。

voice_type

等待请求...

删除音色

删除快速复刻或文本生成音色。删除后对应 Voice ID 无法继续使用。endpoint：/v1/delete_voice。

POST

使用说明

删除不再使用的复刻音色或文本生成音色。

只删除自定义资产，不用于删除系统音色。
删除前先用“查询可用音色”确认 voice_type 和 voice_id。
点击删除会二次确认，删除后对应 Voice ID 不应再用于合成。

参数和值说明

voice_type	只能删除自定义音色类型：`voice_cloning` 或 `voice_generation`。不要填 `system`。
voice_id	要删除的音色 ID。建议先用“查询可用音色”确认它存在且类型正确。
删除后	该 Voice ID 不应继续用于同步或异步合成；已有业务配置需要同步替换。
安全检查	页面点击删除时会弹出二次确认；curl 调用时请自己确认参数，避免删错音色。

voice_type voice_id

等待请求...