筛选：

VoxCPM2 - 开源无分词器 TTS 模型，30 语言语音合成与声音克隆

OpenBMB 开源的 2B 参数文本转语音模型，支持 30 语言、Voice Design 声音设计、可控声音克隆，48kHz 输出，Apache-2.0 可商业使用

核心特性

无分词器架构：直接生成连续语音表示，绕过离散 token 化，合成更自然、更富表达力
30 语言多语种：支持英、中、日、韩、德、法、西班牙等 30 种语言，无需语言标签，输入即合成
Voice Design 声音设计：仅用自然语言描述（性别、年龄、音色、情绪、节奏）即可创建全新声音，无需参考音频
可控声音克隆：用短音频克隆任意声音，支持风格引导（情绪、节奏、表达），保留原有音色
终极克隆：提供参考音频及其转写文本，模型从参考音频无缝延续，完美复刻音色、节奏、情感和风格
48kHz 室内音质：接受 16kHz 参考音频，直接输出 48kHz 高品质音频，内置超分辨率，无需外部上采样器
实时流式合成：RTF 低至 ~0.3（RTX 4090），通过 Nano-vLLM 或 vLLM-Omni 加速可达 ~0.13

三种合成模式

模式	输入	用途
Text-to-Speech	文本	多语言标准合成
Voice Design	文本 + 声音描述	创造全新声音
Voice Cloning	文本 + 参考音频	克隆任意声音

技术架构

模型规模：2B 参数
基座模型：MiniCPM-4
架构：扩散自回归（Diffusion Autoregressive）
训练数据：超过 200 万小时多语种语音数据
授权：Apache-2.0，可商业使用

快速使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

资源

HuggingFace Demo: https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
文档: https://voxcpm.readthedocs.io
音频样本: https://openbmb.github.io/voxcpm2-demopage/
技术报告: https://arxiv.org/abs/2509.24650

8000举报0

Xiao.Xi•1个月前

点击获取 ^_^

被收录：

声音语言音频

暂无评论