GPT-SoVITS - 1分钟数据训练高质量TTS模型

GPT-SoVITS - 1分钟数据训练高质量TTS模型


5秒样本零样本TTS,1分钟数据微调即可克隆声音。支持中英日韩粤跨语言推理,集成WebUI工具链,58k Stars

GPT-SoVITS 是一个强大的少样本语音转换与文本转语音 WebUI,仅需 1 分钟语音数据即可训练出高质量的 TTS 模型。

核心能力

  • Zero-shot TTS:输入 5 秒语音样本,即时文本转语音
  • Few-shot TTS:1 分钟训练数据微调,显著提升声音相似度与真实感
  • 跨语言支持:支持英语、日语、韩语、粤语、中文的跨语言推理
  • 完整 WebUI 工具链:集成语音伴奏分离、自动训练集分割、中文 ASR、文本标注,零基础也能创建训练数据集和 GPT/SoVITS 模型

推理速度

  • RTX 4060Ti:RTF 0.028
  • RTX 4090:RTF 0.014(1400 词≈4 分钟,推理耗时 3.36 秒)
  • Apple M4 CPU:RTF 0.526

安装

# Windows / Linux / macOS
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
bash install.sh --device CU126 --source HF

Windows 用户可直接下载集成包,双击 go-webui.bat 启动。

在线体验

系统要求

PythonPyTorch设备
3.10-3.122.5.1+CUDA 12.4/12.8
3.9-3.112.5.1+Apple Silicon
3.92.2.2CPU

生态

  • 58k+ Stars,6.3k+ Forks
  • 多语言文档:中文、英文、日文、韩文、土耳其文
  • 活跃社区,持续更新(v3 已支持 CUDA Graph,推理速度翻倍)
4400举报0Xiao.Xi1个月前
点击获取 ^_^
被收录:

暂无评论