筛选：

商品影音软件系统源码 Skills 游戏酷站新闻教程其它随笔

VibeVoice - 微软开源语音AI

VibeVoice - 微软开源语音AI

微软开源的前沿语音AI模型，支持60分钟长音频识别和90分钟多说话人语音合成

介绍

VibeVoice 是微软开源的前沿语音 AI 模型系列，包括文本转语音（TTS）和自动语音识别（ASR）模型。

核心模型

VibeVoice-ASR-7B

60分钟单遍处理 - 单次处理长达60分钟的音频，保持全局上下文
自定义热词 - 支持特定名称、技术术语等自定义热词
丰富转录 - 同时输出说话人、时间戳和内容（Who/When/What）
50+语言支持 - 原生多语言，支持超过50种语言

VibeVoice-TTS-1.5B

90分钟长文本生成 - 单次生成长达90分钟的对话语音
多说话人支持 - 单段对话支持多达4个不同说话人
富有表现力的语音 - 捕捉对话动态和情感细微差别
跨语言支持 - 支持中英文等多种语言

VibeVoice-Realtime-0.5B

实时TTS - 约300毫秒首音延迟
流式文本输入 - 支持流式输入
轻量级 - 0.5B参数，适合部署
10分钟长文本 - 稳健的长文本生成能力

技术特点

连续语音Tokenizer - 7.5 Hz超低帧率，高效保留音频保真度
Next-Token Diffusion - 使用LLM理解文本上下文，扩散头生成高保真声学细节
vLLM推理支持 - 更快的推理速度

GitHub: https://github.com/microsoft/VibeVoice

5900举报0

Xiao.Xi•2个月前

点击获取 ^_^

被收录：

分钟语音 VibeVoice

暂无评论