# VoxCPM2 - 开源无分词器 TTS 模型，30 语言语音合成与声音克隆

> OpenBMB 开源的 2B 参数文本转语音模型，支持 30 语言、Voice Design 声音设计、可控声音克隆，48kHz 输出，Apache-2.0 可商业使用

## 核心特性

- **无分词器架构**：直接生成连续语音表示，绕过离散 token 化，合成更自然、更富表达力
- **30 语言多语种**：支持英、中、日、韩、德、法、西班牙等 30 种语言，无需语言标签，输入即合成
- **Voice Design 声音设计**：仅用自然语言描述（性别、年龄、音色、情绪、节奏）即可创建全新声音，无需参考音频
- **可控声音克隆**：用短音频克隆任意声音，支持风格引导（情绪、节奏、表达），保留原有音色
- **终极克隆**：提供参考音频及其转写文本，模型从参考音频无缝延续，完美复刻音色、节奏、情感和风格
- **48kHz 室内音质**：接受 16kHz 参考音频，直接输出 48kHz 高品质音频，内置超分辨率，无需外部上采样器
- **实时流式合成**：RTF 低至 ~0.3（RTX 4090），通过 Nano-vLLM 或 vLLM-Omni 加速可达 ~0.13

## 三种合成模式

| 模式 | 输入 | 用途 |
|------|------|------|
| Text-to-Speech | 文本 | 多语言标准合成 |
| Voice Design | 文本 + 声音描述 | 创造全新声音 |
| Voice Cloning | 文本 + 参考音频 | 克隆任意声音 |

## 技术架构

- **模型规模**：2B 参数
- **基座模型**：MiniCPM-4
- **架构**：扩散自回归（Diffusion Autoregressive）
- **训练数据**：超过 200 万小时多语种语音数据
- **授权**：Apache-2.0，可商业使用

## 快速使用

```python
from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
```

## 资源

- HuggingFace Demo: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
- 文档: https://voxcpm.readthedocs.io
- 音频样本: https://openbmb.github.io/voxcpm2-demopage/
- 技术报告: https://arxiv.org/abs/2509.24650

---

**分类**：源码
**标签**：声音 · 语言 · 音频
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1605