Qwen3-TTS - 阿里开源最强语音合成模型

Qwen3-TTS - 阿里开源最强语音合成模型


10语言全覆盖、97ms流式延迟、3秒声音克隆,中文TTS天花板,Apache 2.0商用免费

Qwen3-TTS — 阿里通义实验室开源语音合成大模型

当前开源 TTS 天花板。10 种语言全覆盖,中文效果 SOTA,支持声音克隆、音色定制、自然语言描述生成声音。

三个版本一览

模型能力适用场景
Base3 秒音频快速声音克隆给一段参考音频,直接克隆说话
CustomVoice9 种内置精品音色 + 自然语言指令控制风格无需参考音频,直接选音色/情绪/语速
VoiceDesign用自然语言描述你想要的声音"一个温柔的年轻女性,带点俏皮"直接生成

核心技术亮点

  • Dual-Track 混合流式架构:单模型同时支持流式和非流式生成,输入一个字符即可出第一个音频包,端到端延迟低至 97ms
  • 离散多码本 LM 架构:彻底绕开传统 LM+DiT 级联方案的瓶颈,生成效率和质量上限大幅提升
  • Qwen3-TTS-Tokenizer-12Hz:自研声学压缩器,完整保留副语言信息(情绪、语速、口音等)
  • 深度语义理解:模型理解文本语义后自适应调整语气、节奏、情感,"你想听什么就生成什么"

语言支持

中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 + 多种方言口音

社区评价

"Not even a competition" — 开源 TTS 领域没有对手

中文 TTS 效果碾压所有同类开源方案,英文效果也接近商业级。

快速上手

pip install -U qwen-tts

# Python 调用
from qwen_tts import QwenTTS

tts = QwenTTS("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice")
audio = tts.synthesize("你好,欢迎使用语音合成")

MLX 版(Apple Silicon)

mlx-community 已转换全部三个 bf16 版本,M 系列 Mac 可直接用:

mlx-community/Qwen3-TTS-12Hz-1.7B-Base-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-CustomVoice-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16

License

Apache 2.0 — 完全免费,商用无忧

2300举报0Xiao.Xi10天前
点击获取 ^_^
被收录:

暂无评论