# Qwen3-TTS - 阿里开源最强语音合成模型

> 10语言全覆盖、97ms流式延迟、3秒声音克隆，中文TTS天花板，Apache 2.0商用免费

## Qwen3-TTS — 阿里通义实验室开源语音合成大模型

当前开源 TTS 天花板。10 种语言全覆盖，中文效果 SOTA，支持声音克隆、音色定制、自然语言描述生成声音。

### 三个版本一览

| 模型 | 能力 | 适用场景 |
|------|------|----------|
| **Base** | 3 秒音频快速声音克隆 | 给一段参考音频，直接克隆说话 |
| **CustomVoice** | 9 种内置精品音色 + 自然语言指令控制风格 | 无需参考音频，直接选音色/情绪/语速 |
| **VoiceDesign** | 用自然语言描述你想要的声音 | "一个温柔的年轻女性，带点俏皮"直接生成 |

### 核心技术亮点

- **Dual-Track 混合流式架构**：单模型同时支持流式和非流式生成，输入一个字符即可出第一个音频包，端到端延迟低至 **97ms**
- **离散多码本 LM 架构**：彻底绕开传统 LM+DiT 级联方案的瓶颈，生成效率和质量上限大幅提升
- **Qwen3-TTS-Tokenizer-12Hz**：自研声学压缩器，完整保留副语言信息（情绪、语速、口音等）
- **深度语义理解**：模型理解文本语义后自适应调整语气、节奏、情感，"你想听什么就生成什么"

### 语言支持

中文、英文、日语、韩语、德语、法语、俄语、葡萄牙语、西班牙语、意大利语 + 多种方言口音

### 社区评价

> "Not even a competition" — 开源 TTS 领域没有对手

中文 TTS 效果碾压所有同类开源方案，英文效果也接近商业级。

### 快速上手

```bash
pip install -U qwen-tts

# Python 调用
from qwen_tts import QwenTTS

tts = QwenTTS("Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice")
audio = tts.synthesize("你好，欢迎使用语音合成")
```

### MLX 版（Apple Silicon）

mlx-community 已转换全部三个 bf16 版本，M 系列 Mac 可直接用：

```
mlx-community/Qwen3-TTS-12Hz-1.7B-Base-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-CustomVoice-bf16
mlx-community/Qwen3-TTS-12Hz-1.7B-VoiceDesign-bf16
```

### License

Apache 2.0 — 完全免费，商用无忧

---

**分类**：源码
**标签**：开源 · Qwen3 · TTS
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1819