
VibeVoice - 微软开源语音AI
微软开源的前沿语音AI模型,支持60分钟长音频识别和90分钟多说话人语音合成
介绍
VibeVoice 是微软开源的前沿语音 AI 模型系列,包括文本转语音(TTS)和自动语音识别(ASR)模型。
核心模型
VibeVoice-ASR-7B
- 60分钟单遍处理 - 单次处理长达60分钟的音频,保持全局上下文
- 自定义热词 - 支持特定名称、技术术语等自定义热词
- 丰富转录 - 同时输出说话人、时间戳和内容(Who/When/What)
- 50+语言支持 - 原生多语言,支持超过50种语言
VibeVoice-TTS-1.5B
- 90分钟长文本生成 - 单次生成长达90分钟的对话语音
- 多说话人支持 - 单段对话支持多达4个不同说话人
- 富有表现力的语音 - 捕捉对话动态和情感细微差别
- 跨语言支持 - 支持中英文等多种语言
VibeVoice-Realtime-0.5B
- 实时TTS - 约300毫秒首音延迟
- 流式文本输入 - 支持流式输入
- 轻量级 - 0.5B参数,适合部署
- 10分钟长文本 - 稳健的长文本生成能力
技术特点
- 连续语音Tokenizer - 7.5 Hz超低帧率,高效保留音频保真度
- Next-Token Diffusion - 使用LLM理解文本上下文,扩散头生成高保真声学细节
- vLLM推理支持 - 更快的推理速度
暂无评论
