VibeVoice - 微软开源语音AI

VibeVoice - 微软开源语音AI


微软开源的前沿语音AI模型,支持60分钟长音频识别和90分钟多说话人语音合成

介绍

VibeVoice 是微软开源的前沿语音 AI 模型系列,包括文本转语音(TTS)和自动语音识别(ASR)模型。

核心模型

VibeVoice-ASR-7B

  • 60分钟单遍处理 - 单次处理长达60分钟的音频,保持全局上下文
  • 自定义热词 - 支持特定名称、技术术语等自定义热词
  • 丰富转录 - 同时输出说话人、时间戳和内容(Who/When/What)
  • 50+语言支持 - 原生多语言,支持超过50种语言

VibeVoice-TTS-1.5B

  • 90分钟长文本生成 - 单次生成长达90分钟的对话语音
  • 多说话人支持 - 单段对话支持多达4个不同说话人
  • 富有表现力的语音 - 捕捉对话动态和情感细微差别
  • 跨语言支持 - 支持中英文等多种语言

VibeVoice-Realtime-0.5B

  • 实时TTS - 约300毫秒首音延迟
  • 流式文本输入 - 支持流式输入
  • 轻量级 - 0.5B参数,适合部署
  • 10分钟长文本 - 稳健的长文本生成能力

技术特点

  • 连续语音Tokenizer - 7.5 Hz超低帧率,高效保留音频保真度
  • Next-Token Diffusion - 使用LLM理解文本上下文,扩散头生成高保真声学细节
  • vLLM推理支持 - 更快的推理速度

GitHub: https://github.com/microsoft/VibeVoice

1900举报0Xiao.Xi15天前
点击获取 ^_^

暂无评论