
10语言全覆盖、97ms流式延迟、3秒声音克隆,中文TTS天花板,Apache 2.0商用免费
Qwen3-TTS — 阿里通义实验室开源语音合成大模型
当前开源 TTS 天花板。10 种语言全覆盖,中文效果 SOTA,支持声音克隆、音色定制、自然语言描述生成声音。
三个版本一览
| 模型 | 能力 | 适用场景 |
|---|---|---|
| Base | 3 秒音频快速声音克隆 | 给一段参考音频,直接克隆说话 |
| CustomVoice | 9 种内置精品音色 + 自然语言指令控制风格 | 无需参考音频,直接选音色/情绪/语速 |
| VoiceDesign | 用自然语言描述你想要的声音 | "一个温柔的年轻女性,带点俏皮"直接生成 |
核心技术亮点
- Dual-Track 混合流式架构:单模型同时支持流式和非流式生成,输入一个字符即可出第一个音频包,端到端延迟低至 97ms
- 离散多码本 LM 架构:彻底绕开传统 LM+DiT 级联方案的瓶颈,生成效率和质量上限大幅提升
- Qwen3-TTS-Tokenizer-12Hz:自研声学压缩器,完整保留副语言信息(情绪、语速、口音等)
- 深度语义理解:模型理解文本语义后自适应调整语气、节奏、情感,"你想听什么就生成什么"
语言支持
中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 + 多种方言口音
社区评价
"Not even a competition" — 开源 TTS 领域没有对手
中文 TTS 效果碾压所有同类开源方案,英文效果也接近商业级。
快速上手
pip install -U qwen-tts
# Python 调用
from qwen_tts import QwenTTS
tts = QwenTTS("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice")
audio = tts.synthesize("你好,欢迎使用语音合成")
MLX 版(Apple Silicon)
mlx-community 已转换全部三个 bf16 版本,M 系列 Mac 可直接用:
mlx-community/Qwen3-TTS-12Hz-1.7B-Base-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-CustomVoice-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16
License
Apache 2.0 — 完全免费,商用无忧
暂无评论
