# VoxCPM2 - 开源无分词器 TTS 模型,30 语言语音合成与声音克隆 > OpenBMB 开源的 2B 参数文本转语音模型,支持 30 语言、Voice Design 声音设计、可控声音克隆,48kHz 输出,Apache-2.0 可商业使用 ## 核心特性 - **无分词器架构**:直接生成连续语音表示,绕过离散 token 化,合成更自然、更富表达力 - **30 语言多语种**:支持英、中、日、韩、德、法、西班牙等 30 种语言,无需语言标签,输入即合成 - **Voice Design 声音设计**:仅用自然语言描述(性别、年龄、音色、情绪、节奏)即可创建全新声音,无需参考音频 - **可控声音克隆**:用短音频克隆任意声音,支持风格引导(情绪、节奏、表达),保留原有音色 - **终极克隆**:提供参考音频及其转写文本,模型从参考音频无缝延续,完美复刻音色、节奏、情感和风格 - **48kHz 室内音质**:接受 16kHz 参考音频,直接输出 48kHz 高品质音频,内置超分辨率,无需外部上采样器 - **实时流式合成**:RTF 低至 ~0.3(RTX 4090),通过 Nano-vLLM 或 vLLM-Omni 加速可达 ~0.13 ## 三种合成模式 | 模式 | 输入 | 用途 | |------|------|------| | Text-to-Speech | 文本 | 多语言标准合成 | | Voice Design | 文本 + 声音描述 | 创造全新声音 | | Voice Cloning | 文本 + 参考音频 | 克隆任意声音 | ## 技术架构 - **模型规模**:2B 参数 - **基座模型**:MiniCPM-4 - **架构**:扩散自回归(Diffusion Autoregressive) - **训练数据**:超过 200 万小时多语种语音数据 - **授权**:Apache-2.0,可商业使用 ## 快速使用 ```python from voxcpm import VoxCPM import soundfile as sf model = VoxCPM.from_pretrained("openbmb/VoxCPM2") wav = model.generate( text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!", cfg_value=2.0, inference_timesteps=10, ) sf.write("demo.wav", wav, model.tts_model.sample_rate) ``` ## 资源 - HuggingFace Demo: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo - 文档: https://voxcpm.readthedocs.io - 音频样本: https://openbmb.github.io/voxcpm2-demopage/ - 技术报告: https://arxiv.org/abs/2509.24650 --- **分类**:源码 **标签**:声音 · 语言 · 音频 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1605