# VibeVoice - 微软开源语音AI > 微软开源的前沿语音AI模型,支持60分钟长音频识别和90分钟多说话人语音合成 ## 介绍 VibeVoice 是微软开源的前沿语音 AI 模型系列,包括文本转语音(TTS)和自动语音识别(ASR)模型。 ## 核心模型 ### VibeVoice-ASR-7B - **60分钟单遍处理** - 单次处理长达60分钟的音频,保持全局上下文 - **自定义热词** - 支持特定名称、技术术语等自定义热词 - **丰富转录** - 同时输出说话人、时间戳和内容(Who/When/What) - **50+语言支持** - 原生多语言,支持超过50种语言 ### VibeVoice-TTS-1.5B - **90分钟长文本生成** - 单次生成长达90分钟的对话语音 - **多说话人支持** - 单段对话支持多达4个不同说话人 - **富有表现力的语音** - 捕捉对话动态和情感细微差别 - **跨语言支持** - 支持中英文等多种语言 ### VibeVoice-Realtime-0.5B - **实时TTS** - 约300毫秒首音延迟 - **流式文本输入** - 支持流式输入 - **轻量级** - 0.5B参数,适合部署 - **10分钟长文本** - 稳健的长文本生成能力 ## 技术特点 - **连续语音Tokenizer** - 7.5 Hz超低帧率,高效保留音频保真度 - **Next-Token Diffusion** - 使用LLM理解文本上下文,扩散头生成高保真声学细节 - **vLLM推理支持** - 更快的推理速度 GitHub: https://github.com/microsoft/VibeVoice --- **分类**:源码 **标签**:分钟 · 语音 · VibeVoice **作者**:Xiao.Xi **链接**:https://octohz.com/p/1462