
7 引擎 TTS + 语音克隆 + 全局语音输入,本地运行零隐私泄露
项目简介
Voicebox 是一个本地优先的 AI 语音工作室,开源免费,一站式替代 ElevenLabs(语音合成)和 WisprFlow(语音输入)。支持语音克隆、多引擎 TTS、全局语音输入,以及通过 MCP 给任意 AI Agent 赋予自定义声音。
核心功能
| 模块 | 说明 |
|---|---|
| 多引擎 TTS | 7 个引擎可选:Qwen3-TTS、LuxTTS、Chatterbox、HumeAI TADA、Kokoro 等 |
| 语音克隆 | 零样本克隆,仅需几秒参考音频;支持多采样提升质量 |
| 23 种语言 | 覆盖英、日、阿、印地、斯瓦希里语等 |
| 情感标签 | Chatterbox Turbo 支持 [laugh]、[sigh]、[gasp] 等副语言标签 |
| 后处理效果 | 音高、混响、延迟、合唱、压缩、高低通滤波等 8 种效果 |
| 无限长度 | 自动分块 + 交叉淡入淡出,支持最长 5 万字 |
| Stories 编辑器 | 多轨道时间线,制作对话、播客、叙事音频 |
| 全局语音输入 | 系统级热键语音转文字,macOS 支持自动粘贴到焦点输入框 |
| Agent 语音输出 | MCP 工具调用 voicebox.speak,Claude Code / Cursor / Cline 都能说话 |
| 本地运行 | 模型和数据不出本机,Tauri(Rust)构建,非 Electron |
技术栈
| 技术 | 说明 |
|---|---|
| Tauri (Rust) | 原生桌面应用框架,轻量高性能 |
| TypeScript | 前端与 API 层 |
| MLX/Metal | macOS Apple Silicon 加速 |
| CUDA / ROCm | Windows / Linux GPU 加速 |
| MCP Server | 内置 MCP 服务,Agent 可直接调用 |
适用场景
- 需要隐私保护的本地语音合成与克隆
- 为 AI Agent(Claude Code、Cursor、Cline)添加个性化语音
- 播客/有声书多角色制作
- 跨语言内容创作与翻译配音
Stars
27,735 Stars,TypeScript,MIT License
暂无评论
