VoxCPM2 - 开源无分词器 TTS 模型,30 语言语音合成与声音克隆

VoxCPM2 - 开源无分词器 TTS 模型,30 语言语音合成与声音克隆


OpenBMB 开源的 2B 参数文本转语音模型,支持 30 语言、Voice Design 声音设计、可控声音克隆,48kHz 输出,Apache-2.0 可商业使用

核心特性

  • 无分词器架构:直接生成连续语音表示,绕过离散 token 化,合成更自然、更富表达力
  • 30 语言多语种:支持英、中、日、韩、德、法、西班牙等 30 种语言,无需语言标签,输入即合成
  • Voice Design 声音设计:仅用自然语言描述(性别、年龄、音色、情绪、节奏)即可创建全新声音,无需参考音频
  • 可控声音克隆:用短音频克隆任意声音,支持风格引导(情绪、节奏、表达),保留原有音色
  • 终极克隆:提供参考音频及其转写文本,模型从参考音频无缝延续,完美复刻音色、节奏、情感和风格
  • 48kHz 室内音质:接受 16kHz 参考音频,直接输出 48kHz 高品质音频,内置超分辨率,无需外部上采样器
  • 实时流式合成:RTF 低至 ~0.3(RTX 4090),通过 Nano-vLLM 或 vLLM-Omni 加速可达 ~0.13

三种合成模式

模式输入用途
Text-to-Speech文本多语言标准合成
Voice Design文本 + 声音描述创造全新声音
Voice Cloning文本 + 参考音频克隆任意声音

技术架构

  • 模型规模:2B 参数
  • 基座模型:MiniCPM-4
  • 架构:扩散自回归(Diffusion Autoregressive)
  • 训练数据:超过 200 万小时多语种语音数据
  • 授权:Apache-2.0,可商业使用

快速使用

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
    cfg_value=2.0,
    inference_timesteps=10,
)
sf.write("demo.wav", wav, model.tts_model.sample_rate)

资源

2700举报0Xiao.Xi12天前
点击获取 ^_^
被收录:

暂无评论