# vibevoice-mlx - VibeVoice TTS MLX 推理实现(Mac Studio 部署指南) > 微软删除官方推理代码后,社区补上的完整 MLX 实现。支持 1.5B/7B 语音合成、零样本语音克隆、量化加速。 ## 背景 2025 年9 月,微软以"负责任 AI 使用"为由删除了 VibeVoice-TTS 的官方推理代码。Hugging Face 上的模型权重仍在,但没有人能跑起来。 这个社区项目补上了完整的 TTS 推理管道。 ## 技术栈 | 组件 | 说明 | |------|------| | `generate.py` | 自回归 token 生成 + DPM-Solver++ 2M diffusion | | `e2e_pipeline.py` | 端到端管道(文本 → 音频),含语音克隆 | | `model.py` | Qwen2.5 backbone + diffusion head + KV Cache | | `streaming_vae.py` | VAE decoder(latents → 波形) | | `vae_encoder.py` | 参考音频编码(用于 voice cloning) | ## 支持的模型 | 模型 | 大小 | 来源 | |------|------|------| | vibevoice-1.5b-mlx | 4.7 GB | microsoft/VibeVoice-1.5B | | vibevoice-7b-mlx | 18 GB | vibevoice/VibeVoice-7B | ## 快速开始 ```bash git clone https://github.com/gafiatulin/vibevoice-mlx && cd vibevoice-mlx uv sync # 基础合成 uv run vibevoice-mlx --text "Hello, world!" --output hello.wav # 语音克隆 uv run vibevoice-mlx --ref-audio speaker.wav --text "Clone this voice" --output cloned.wav # 量化加速 uv run vibevoice-mlx --quantize 8 --text "Test" ``` ## 性能(M4 Max 64GB) | 配置 | RTF | 峰值内存 | |------|-----|----------| | fp16 | 1.85x | 6.7 GB | | int8 | 2.63x | 5.4 GB | | int4 | 2.72x | 4.6 GB | RTF > 1 意味着比实时更快。1.5B 在 Mac Studio 上完全毫无压力。 ## 关键特性 - 零样本语音克隆:只需 10 秒参考音频 - 多说话人:支持多个参考音频切换 - 纯 MLX:无 PyTorch 依赖,Apple Silicon 专用 - 语音嵌入可缓存:先 encode 语音,后续反复使用 ## 链接 - GitHub: https://github.com/gafiatulin/vibevoice-mlx - MLX 权重: https://huggingface.co/gafiatulin/vibevoice-1.5b-mlx --- **分类**:教程 **标签**:语音 · mlx · vibevoice **作者**:Xiao.Xi **链接**:https://octohz.com/p/1592