M
MiniMax 语音 API 请求工作台 HTTP 接口可直接发起请求,WebSocket 提供浏览器限制说明和消息生成

Speech API Console

把 MiniMax 语音 API 放进网页里请求

填写全局 API Key 后,每个模块会按 MiniMax 文档构造请求体、发起请求、展示响应,并生成可复制的 curl。语音二进制字段如果以 hex 返回,页面会尝试转换为音频播放和下载。

注意:纯前端页面会把 API Key 暴露在浏览器运行时,只适合本机调试。若 MiniMax 接口未开放浏览器 CORS,需要用自己的后端或本地代理转发请求;页面仍会显示完整 curl 方便复现。
1 填写鉴权 在顶部填 API Base 和 API Key。Key 只保存在当前浏览器会话中。
2 选择接口 左侧按语音合成、文件、音色三个流程组织,可直接跳到目标接口。
3 检查预览 表单变更会实时刷新请求 JSON、URL 和 curl 参数,发送前先确认字段。
4 查看结果 响应区显示原始返回;音频字段会尽量转成播放器和下载按钮。

同步语音合成 HTTP

短文本直接生成音频。常用 endpoint:/v1/t2a_v2

POST

使用说明

用于短文本即时生成语音,适合按钮试听、实时播报、对话式回复。

  • voice_id 可填系统音色、音色复刻结果或音色设计结果。
  • 返回的音频可能是 hex 字符串或临时 URL,页面会自动生成播放器和下载按钮。
  • 如果浏览器提示 CORS,点击“复制 curl”到终端测试,或把 API Base 改成本地代理地址。
参数和值说明
modelspeech-2.8-turbo 偏速度和实时性;speech-2.8-hd 偏音质和表现力;speech-2.6-*speech-02-*speech-01-* 可作为兼容选择。
voice_id填系统音色 ID、复刻音色 ID 或音色设计 ID。默认示例 male-qn-qingse 仅用于快速试跑。
text要合成的文本。同步接口适合短文本,过长内容建议改用异步合成。
speed / vol / pitchspeed 控制语速,vol 控制音量,pitch 控制音高;默认值分别是 110
emotion为空表示不指定情绪;可选 happysadangryfearfuldisgustedsurprisedcalmfluent
formatmp3 体积小、兼容好;wavflac 便于高质量后处理;pcm 适合底层音频管线。
sample_rate / bitrate / channel采样率和码率越高音质越好、文件越大;channel=1 为单声道,2 为双声道。
language_boost用于增强指定语言识别和发音表现。中文可填 Chinese,粤语填 Chinese,Yue,英文填 English,不确定可用 auto 或留空。
output_format非流式可选 hexurl;URL 有效期按官方接口返回规则处理。流式场景只支持 hex
返回音频hex 返回时页面会转成浏览器 Blob 播放和下载;url 返回时页面会直接使用链接播放,并提供下载/打开链接按钮。
高级开关subtitle_enable 请求字幕;stream 请求流式返回;timestamp_enable 请求时间戳;text_normalization 改善中英文数字读法;latex_read 读取 LaTeX 公式;force_cbr 仅流式 MP3 生效;aigc_watermark 控制是否添加音频水印。

            
等待请求...

同步语音合成 WebSocket

MiniMax WebSocket 文档要求握手时携带 Authorization 请求头;浏览器原生 WebSocket 不能设置自定义请求头,所以这里生成 start / continue / finish 消息和 curl 示例。实际网页直连需要你自己的 WS 代理注入鉴权头。

WS

使用说明

用于流式语音合成,适合边生成边播放的实时体验。

  • 浏览器原生 WebSocket 不能设置 Authorization 请求头,所以本页只生成消息和命令。
  • 真实网页接入时建议加一个后端 WS 代理,由代理把鉴权头转发给 MiniMax。
  • 消息顺序一般是开始任务、连续发送文本、结束任务,再按返回包拼接音频。
参数和值说明
WebSocket URL默认 wss://api.minimaxi.com/ws/v1/t2a_v2。如果你有自己的代理,填代理的 WS 地址。
model实时播放优先选 speech-2.8-turbo;更重视音质可选 speech-2.8-hd,也可按兼容需要使用 2.6 / 02 / 01 系列。
voice_id与 HTTP 合成一致,填系统音色、复刻音色或设计音色的 ID。
formatmp3 适合浏览器播放;pcm 适合自定义播放器或底层音频流;flac 适合高质量流式保存。
language_boost与 HTTP 合成一致,可填 autoChineseChinese,YueEnglish 等。
text页面生成 task_continue 消息中的文本。真实流式场景可以分段发送多条文本。
AuthorizationMiniMax 需要握手请求头;浏览器不能直接设置,需由后端代理补上 Bearer API_KEY

如果接入自己的代理,可让代理接收浏览器 WS 后转发到 MiniMax,并在转发握手中添加 Authorization: Bearer API_KEY


            
浏览器原生 WebSocket 无法设置 Authorization 请求头,未直接连接。

异步长文本语音合成:创建任务

适合长文本、批量有声内容。endpoint:/v1/t2a_async_v2

POST

使用说明

用于长文本后台合成,适合课程、有声书、批量旁白等不需要立即返回音频的任务。

  • 短长文本可直接填 text;更长内容先用上传文件接口上传 t2a_async_input,再填 text_file_id
  • 创建成功后复制或自动带出的 task_id,到“异步任务查询”里轮询状态。
  • 查询结果里若出现输出文件 ID,可到“文件管理”下载;若直接返回音频 URL,页面会自动显示播放器。
参数和值说明
model长文本批量任务一般选 speech-2.8-turbo 控制速度和成本;精品内容可选 speech-2.8-hd;兼容项目可选 2.6 / 02 / 01 系列。
voice_id目标音色 ID,和同步合成相同。复刻或设计完成后可把返回 ID 填到这里。
text直接提交的长文本。若同时填写 text_file_id,页面会优先使用文件 ID 并移除 text。
text_file_id通过文件上传接口以 purpose=t2a_async_input 上传文本后得到的文件 ID。
formatmp3 适合分发和在线播放;wavflac 适合剪辑或后期处理;pcm 适合底层音频管线。
speed / vol / pitch与同步合成一致,用于控制整段输出的语速、音量和音高。
sample_rate / bitrate / channel决定输出音频规格。长文本建议先用默认值验证,再按文件体积和音质要求调整。
language_boost目标语言增强,例如中文填 Chinese,粤语填 Chinese,Yue。多语言文本可用 auto 或按主语言填写。
aigc_watermark / continuous_soundaigc_watermark 控制是否添加音频水印;continuous_sound 用于更连续的长文本音频输出。

            
等待请求...

异步长文本语音合成:查询任务

用创建任务返回的 task_id 查询状态和结果文件 ID。endpoint:/v1/query/t2a_async_query_v2

GET

使用说明

用创建任务返回的 task_id 查询异步合成是否完成。

  • 创建任务成功后,本页会尝试自动把 task_id 填到这里。
  • 未完成时等待几秒后再查;完成后查看响应中的输出文件 ID。
  • 拿到输出文件 ID 后,在文件下载接口中填写 file_id 下载结果音频。
参数和值说明
task_id创建异步任务返回的任务 ID。只用于查询任务状态,不能当作文件 ID 下载。
成功状态响应中若显示任务完成,继续找输出音频的 file_id 或类似结果字段。
返回音频异步任务通常返回输出文件 ID;如果响应中直接包含 audio_urldownload_urlurl 或类似音频链接,页面会自动显示播放和下载按钮。
失败状态查看响应里的错误码、错误信息和原请求 JSON,通常和文本过长、voice_id 无效、参数格式有关。

            
等待请求...

上传语音相关文件

用于音色复刻音频、试听音频,或异步语音合成长文本文件。endpoint:/v1/files/upload

POST

使用说明

上传语音 API 需要的文件,并拿到后续接口使用的 file_id

  • voice_clone:上传待复刻的人声音频,用于音色快速复刻。
  • prompt_audio:上传参考试听音频,用于辅助复刻效果,时长需小于 8 秒。
  • t2a_async_input:上传长文本文件,用于异步长文本语音合成。
参数和值说明
purpose=voice_clone上传待复刻人声音频。用于后续 /v1/voice_clonefile_id
purpose=prompt_audio上传参考音频,配合 prompt_text 作为复刻提示,可选。官方要求时长小于 8 秒。
purpose=t2a_async_input上传长文本文件,返回的 file_id 填到异步创建任务的 text_file_id
filevoice_clone 主复刻音频需 10 秒到 5 分钟;prompt_audio 示例音频需小于 8 秒;音频格式通常用 mp3m4awav
返回值重点看 file_id。页面会按 purpose 自动回填到复刻、参考音频、异步文本或文件查询区域。

            
等待请求...

文件管理

辅助异步合成结果下载,也可查看或删除文件。包含 list / retrieve / retrieve_content / delete。

GET/POST

使用说明

管理文件资产,并下载异步任务生成的音频文件。

  • “列出文件”按 purpose 查看文件,官方文档要求传入具体 purpose。
  • “查询文件”用于确认某个 file_id 的元数据。
  • “下载文件”会把返回内容转成下载链接;如果响应是音频类型,会显示播放器。
  • “删除文件”按官方示例使用 JSON,请求体包含当前 purposefile_id
参数和值说明
purpose筛选或删除文件类型。常用值为 voice_cloneprompt_audiot2a_async_input;删除接口还支持官方列出的 t2a_asyncvideo_generation
file_id查询或下载指定文件时必填。异步合成完成后拿到的输出文件 ID 应填在这里。
列出文件用于找文件 ID 或核对文件类型,不下载文件内容。
查询文件用于查看单个文件元数据,例如用途、大小、状态。
下载文件用于获取文件二进制内容;音频类型会显示播放器和下载按钮。如果接口返回的是可访问 URL,也会直接展示链接播放器。
删除文件用于删除上传或生成的文件。页面会二次确认,避免误删。

            
等待请求...

音色快速复刻

用上传后的音频 file_id 生成可用于合成的 Voice ID。endpoint:/v1/voice_clone

POST

使用说明

用一段人声音频复刻出可复用的自定义音色。

  • 先在“上传文件”选择 voice_clone 上传音频,成功后把 file_id 填到这里。
  • voice_id 为必填自定义 ID,便于后续合成和删除。
  • 复刻成功后,返回的 Voice ID 可直接用于同步、异步语音合成。
参数和值说明
file_id必填 int64。先用上传接口以 purpose=voice_clone 上传人声音频,拿返回的 file_id
voice_id必填自定义音色 ID。官方要求 8-256 位、首字符为英文字母,只能包含数字/字母/-/_,且不能以 -_ 结尾。
modeltext 生成试听音频时必填。快速验证选 speech-2.8-turbo,质量优先选 speech-2.8-hd;也可选 2.6 / 02 / 01 系列。
language_boost音频主要语言。中文填 Chinese,粤语填 Chinese,Yue,英文填 English,不确定可用 auto
prompt_audio可选参考音频文件 ID。需要先用上传接口选择 prompt_audio 上传,官方要求示例音频时长小于 8 秒;若使用 clone_promptprompt_audioprompt_text 要同时填写。
prompt_text参考音频对应文本。使用 prompt_audio 时建议填写,帮助对齐发音内容。
text复刻完成后生成试听音频的文本,不是复刻训练文本。
返回音频复刻成功后的试听音频可能以 hex 或 URL 形式返回。页面会识别 audioaudio_filetrial_audioaudio_urldownload_url 等字段。
noise / volumeneed_noise_reduction 降噪;need_volume_normalization 音量归一。官方默认都是 false,录音质量不稳定时再开启。
aigc_watermark中文官方文档列出该字段;页面默认不勾选,按 false 发送。

            
等待请求...

音色设计

通过文本描述生成音色和试听音频。endpoint:/v1/voice_design

POST

使用说明

通过文字描述创建新音色,适合没有录音素材但需要角色化声音的场景。

  • prompt 写声音特征,例如年龄、性别、语气、情绪、用途。
  • preview_text 是试听内容,建议用真实业务句子检查效果。
  • 生成成功后保存返回的 Voice ID,后续在合成接口的 voice_id 中使用。
参数和值说明
voice_id可选自定义音色 ID。填写时建议用业务前缀,避免和已有 ID 冲突;规则与复刻音色 ID 一致。
prompt音色描述。建议包含性别、年龄、语言、情绪、语速、使用场景,例如“年轻女性、中文、亲切、客服播报”。
preview_text试听文本,官方限制 500 字符内。用真实业务句子更容易判断音色是否适合。
aigc_watermark中文官方文档列出该字段;页面默认不勾选,按 false 发送。
返回值重点看 Voice ID 和试听音频。试听音频可能是 hex 或 URL,页面会自动播放并提供下载;满意后把 Voice ID 填到合成接口的 voice_id

            
等待请求...

查询可用音色

查询系统音色、快速复刻音色、文生音色或全部音色。endpoint:/v1/get_voice

POST

使用说明

查询当前账号可用的音色 ID,适合在合成前确认音色是否存在。

  • system 查平台系统音色;voice_cloning 查复刻音色。
  • voice_generation 查音色设计生成的音色;all 查全部。
  • 把返回的音色 ID 复制到同步或异步合成接口的 voice_id 字段。
参数和值说明
system查询平台预设系统音色。适合先选一个默认音色快速接入合成。
voice_cloning查询快速复刻生成的音色。
voice_generation查询音色设计生成的音色。
all查询全部可用音色。音色很多时建议再按业务记录筛选。
返回值重点看音色 ID、音色类型和名称。把 ID 复制到合成、删除或资产管理场景。

            
等待请求...

删除音色

删除快速复刻或文本生成音色。删除后对应 Voice ID 无法继续使用。endpoint:/v1/delete_voice

POST

使用说明

删除不再使用的复刻音色或文本生成音色。

  • 只删除自定义资产,不用于删除系统音色。
  • 删除前先用“查询可用音色”确认 voice_typevoice_id
  • 点击删除会二次确认,删除后对应 Voice ID 不应再用于合成。
参数和值说明
voice_type只能删除自定义音色类型:voice_cloningvoice_generation。不要填 system
voice_id要删除的音色 ID。建议先用“查询可用音色”确认它存在且类型正确。
删除后该 Voice ID 不应继续用于同步或异步合成;已有业务配置需要同步替换。
安全检查页面点击删除时会弹出二次确认;curl 调用时请自己确认参数,避免删错音色。

            
等待请求...