筛选：

Qwen3-TTS - 阿里开源最强语音合成模型

10语言全覆盖、97ms流式延迟、3秒声音克隆，中文TTS天花板，Apache 2.0商用免费

Qwen3-TTS — 阿里通义实验室开源语音合成大模型

当前开源 TTS 天花板。10 种语言全覆盖，中文效果 SOTA，支持声音克隆、音色定制、自然语言描述生成声音。

三个版本一览

模型	能力	适用场景
Base	3 秒音频快速声音克隆	给一段参考音频，直接克隆说话
CustomVoice	9 种内置精品音色 + 自然语言指令控制风格	无需参考音频，直接选音色/情绪/语速
VoiceDesign	用自然语言描述你想要的声音	"一个温柔的年轻女性，带点俏皮"直接生成

核心技术亮点

Dual-Track 混合流式架构：单模型同时支持流式和非流式生成，输入一个字符即可出第一个音频包，端到端延迟低至 97ms
离散多码本 LM 架构：彻底绕开传统 LM+DiT 级联方案的瓶颈，生成效率和质量上限大幅提升
Qwen3-TTS-Tokenizer-12Hz：自研声学压缩器，完整保留副语言信息（情绪、语速、口音等）
深度语义理解：模型理解文本语义后自适应调整语气、节奏、情感，"你想听什么就生成什么"

语言支持

中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 + 多种方言口音

社区评价

"Not even a competition" — 开源 TTS 领域没有对手

中文 TTS 效果碾压所有同类开源方案，英文效果也接近商业级。

快速上手

pip install -U qwen-tts

# Python 调用
from qwen_tts import QwenTTS

tts = QwenTTS("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice")
audio = tts.synthesize("你好，欢迎使用语音合成")

MLX 版（Apple Silicon）

mlx-community 已转换全部三个 bf16 版本，M 系列 Mac 可直接用：

mlx-community/Qwen3-TTS-12Hz-1.7B-Base-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-CustomVoice-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16

License

Apache 2.0 — 完全免费，商用无忧

2300举报0

Xiao.Xi•10天前

点击获取 ^_^

被收录：

开源 Qwen3 TTS

暂无评论