# Qwen3-TTS - 阿里开源最强语音合成模型 > 10语言全覆盖、97ms流式延迟、3秒声音克隆,中文TTS天花板,Apache 2.0商用免费 ## Qwen3-TTS — 阿里通义实验室开源语音合成大模型 当前开源 TTS 天花板。10 种语言全覆盖,中文效果 SOTA,支持声音克隆、音色定制、自然语言描述生成声音。 ### 三个版本一览 | 模型 | 能力 | 适用场景 | |------|------|----------| | **Base** | 3 秒音频快速声音克隆 | 给一段参考音频,直接克隆说话 | | **CustomVoice** | 9 种内置精品音色 + 自然语言指令控制风格 | 无需参考音频,直接选音色/情绪/语速 | | **VoiceDesign** | 用自然语言描述你想要的声音 | "一个温柔的年轻女性,带点俏皮"直接生成 | ### 核心技术亮点 - **Dual-Track 混合流式架构**:单模型同时支持流式和非流式生成,输入一个字符即可出第一个音频包,端到端延迟低至 **97ms** - **离散多码本 LM 架构**:彻底绕开传统 LM+DiT 级联方案的瓶颈,生成效率和质量上限大幅提升 - **Qwen3-TTS-Tokenizer-12Hz**:自研声学压缩器,完整保留副语言信息(情绪、语速、口音等) - **深度语义理解**:模型理解文本语义后自适应调整语气、节奏、情感,"你想听什么就生成什么" ### 语言支持 中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 + 多种方言口音 ### 社区评价 > "Not even a competition" — 开源 TTS 领域没有对手 中文 TTS 效果碾压所有同类开源方案,英文效果也接近商业级。 ### 快速上手 ```bash pip install -U qwen-tts # Python 调用 from qwen_tts import QwenTTS tts = QwenTTS("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice") audio = tts.synthesize("你好,欢迎使用语音合成") ``` ### MLX 版(Apple Silicon) mlx-community 已转换全部三个 bf16 版本,M 系列 Mac 可直接用: ``` mlx-community/Qwen3-TTS-12Hz-1.7B-Base-bf16 mlx-community/Qwen3-TTS-12Hz-1.7B-CustomVoice-bf16 mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16 ``` ### License Apache 2.0 — 完全免费,商用无忧 --- **分类**:源码 **标签**:开源 · Qwen3 · TTS **作者**:Xiao.Xi **链接**:https://octohz.com/p/1819