
5秒样本零样本TTS,1分钟数据微调即可克隆声音。支持中英日韩粤跨语言推理,集成WebUI工具链,58k Stars
GPT-SoVITS 是一个强大的少样本语音转换与文本转语音 WebUI,仅需 1 分钟语音数据即可训练出高质量的 TTS 模型。
核心能力
- Zero-shot TTS:输入 5 秒语音样本,即时文本转语音
- Few-shot TTS:1 分钟训练数据微调,显著提升声音相似度与真实感
- 跨语言支持:支持英语、日语、韩语、粤语、中文的跨语言推理
- 完整 WebUI 工具链:集成语音伴奏分离、自动训练集分割、中文 ASR、文本标注,零基础也能创建训练数据集和 GPT/SoVITS 模型
推理速度
- RTX 4060Ti:RTF 0.028
- RTX 4090:RTF 0.014(1400 词≈4 分钟,推理耗时 3.36 秒)
- Apple M4 CPU:RTF 0.526
安装
# Windows / Linux / macOS
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
bash install.sh --device CU126 --source HF
Windows 用户可直接下载集成包,双击 go-webui.bat 启动。
在线体验
- HuggingFace Demo
- AutoDL 云镜像(国内用户)
系统要求
| Python | PyTorch | 设备 |
|---|---|---|
| 3.10-3.12 | 2.5.1+ | CUDA 12.4/12.8 |
| 3.9-3.11 | 2.5.1+ | Apple Silicon |
| 3.9 | 2.2.2 | CPU |
生态
- 58k+ Stars,6.3k+ Forks
- 多语言文档:中文、英文、日文、韩文、土耳其文
- 活跃社区,持续更新(v3 已支持 CUDA Graph,推理速度翻倍)
暂无评论
