# VibeVoice - 微软开源语音AI

> 微软开源的前沿语音AI模型，支持60分钟长音频识别和90分钟多说话人语音合成

## 介绍

VibeVoice 是微软开源的前沿语音 AI 模型系列，包括文本转语音（TTS）和自动语音识别（ASR）模型。

## 核心模型

### VibeVoice-ASR-7B
- **60分钟单遍处理** - 单次处理长达60分钟的音频，保持全局上下文
- **自定义热词** - 支持特定名称、技术术语等自定义热词
- **丰富转录** - 同时输出说话人、时间戳和内容（Who/When/What）
- **50+语言支持** - 原生多语言，支持超过50种语言

### VibeVoice-TTS-1.5B
- **90分钟长文本生成** - 单次生成长达90分钟的对话语音
- **多说话人支持** - 单段对话支持多达4个不同说话人
- **富有表现力的语音** - 捕捉对话动态和情感细微差别
- **跨语言支持** - 支持中英文等多种语言

### VibeVoice-Realtime-0.5B
- **实时TTS** - 约300毫秒首音延迟
- **流式文本输入** - 支持流式输入
- **轻量级** - 0.5B参数，适合部署
- **10分钟长文本** - 稳健的长文本生成能力

## 技术特点

- **连续语音Tokenizer** - 7.5 Hz超低帧率，高效保留音频保真度
- **Next-Token Diffusion** - 使用LLM理解文本上下文，扩散头生成高保真声学细节
- **vLLM推理支持** - 更快的推理速度

GitHub: https://github.com/microsoft/VibeVoice

---

**分类**：源码
**标签**：分钟 · 语音 · VibeVoice
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1462