
OpenBMB 开源的 2B 参数文本转语音模型,支持 30 语言、Voice Design 声音设计、可控声音克隆,48kHz 输出,Apache-2.0 可商业使用
核心特性
- 无分词器架构:直接生成连续语音表示,绕过离散 token 化,合成更自然、更富表达力
- 30 语言多语种:支持英、中、日、韩、德、法、西班牙等 30 种语言,无需语言标签,输入即合成
- Voice Design 声音设计:仅用自然语言描述(性别、年龄、音色、情绪、节奏)即可创建全新声音,无需参考音频
- 可控声音克隆:用短音频克隆任意声音,支持风格引导(情绪、节奏、表达),保留原有音色
- 终极克隆:提供参考音频及其转写文本,模型从参考音频无缝延续,完美复刻音色、节奏、情感和风格
- 48kHz 室内音质:接受 16kHz 参考音频,直接输出 48kHz 高品质音频,内置超分辨率,无需外部上采样器
- 实时流式合成:RTF 低至 ~0.3(RTX 4090),通过 Nano-vLLM 或 vLLM-Omni 加速可达 ~0.13
三种合成模式
| 模式 | 输入 | 用途 |
|---|---|---|
| Text-to-Speech | 文本 | 多语言标准合成 |
| Voice Design | 文本 + 声音描述 | 创造全新声音 |
| Voice Cloning | 文本 + 参考音频 | 克隆任意声音 |
技术架构
- 模型规模:2B 参数
- 基座模型:MiniCPM-4
- 架构:扩散自回归(Diffusion Autoregressive)
- 训练数据:超过 200 万小时多语种语音数据
- 授权:Apache-2.0,可商业使用
快速使用
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(
text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
cfg_value=2.0,
inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)
资源
暂无评论
