vibevoice-mlx - VibeVoice TTS MLX 推理实现(Mac Studio 部署指南)

vibevoice-mlx - VibeVoice TTS MLX 推理实现(Mac Studio 部署指南)


微软删除官方推理代码后,社区补上的完整 MLX 实现。支持 1.5B/7B 语音合成、零样本语音克隆、量化加速。

背景

2025 年9 月,微软以"负责任 AI 使用"为由删除了 VibeVoice-TTS 的官方推理代码。Hugging Face 上的模型权重仍在,但没有人能跑起来。

这个社区项目补上了完整的 TTS 推理管道。

技术栈

组件说明
generate.py自回归 token 生成 + DPM-Solver++ 2M diffusion
e2e_pipeline.py端到端管道(文本 → 音频),含语音克隆
model.pyQwen2.5 backbone + diffusion head + KV Cache
streaming_vae.pyVAE decoder(latents → 波形)
vae_encoder.py参考音频编码(用于 voice cloning)

支持的模型

模型大小来源
vibevoice-1.5b-mlx4.7 GBmicrosoft/VibeVoice-1.5B
vibevoice-7b-mlx18 GBvibevoice/VibeVoice-7B

快速开始

git clone https://github.com/gafiatulin/vibevoice-mlx && cd vibevoice-mlx
uv sync

# 基础合成
uv run vibevoice-mlx --text "Hello, world!" --output hello.wav

# 语音克隆
uv run vibevoice-mlx   --ref-audio speaker.wav   --text "Clone this voice"   --output cloned.wav

# 量化加速
uv run vibevoice-mlx --quantize 8 --text "Test"

性能(M4 Max 64GB)

配置RTF峰值内存
fp161.85x6.7 GB
int82.63x5.4 GB
int42.72x4.6 GB

RTF > 1 意味着比实时更快。1.5B 在 Mac Studio 上完全毫无压力。

关键特性

  • 零样本语音克隆:只需 10 秒参考音频
  • 多说话人:支持多个参考音频切换
  • 纯 MLX:无 PyTorch 依赖,Apple Silicon 专用
  • 语音嵌入可缓存:先 encode 语音,后续反复使用

链接

2600举报0Xiao.Xi16天前
点击获取 ^_^
被收录:

暂无评论