筛选：

商品影音软件系统源码 Skills 游戏酷站新闻教程其它随笔

GPT-SoVITS - 1分钟数据训练高质量TTS模型

GPT-SoVITS - 1分钟数据训练高质量TTS模型

5秒样本零样本TTS，1分钟数据微调即可克隆声音。支持中英日韩粤跨语言推理，集成WebUI工具链，58k Stars

GPT-SoVITS 是一个强大的少样本语音转换与文本转语音 WebUI，仅需 1 分钟语音数据即可训练出高质量的 TTS 模型。

核心能力

Zero-shot TTS：输入 5 秒语音样本，即时文本转语音
Few-shot TTS：1 分钟训练数据微调，显著提升声音相似度与真实感
跨语言支持：支持英语、日语、韩语、粤语、中文的跨语言推理
完整 WebUI 工具链：集成语音伴奏分离、自动训练集分割、中文 ASR、文本标注，零基础也能创建训练数据集和 GPT/SoVITS 模型

推理速度

RTX 4060Ti：RTF 0.028
RTX 4090：RTF 0.014（1400 词≈4 分钟，推理耗时 3.36 秒）
Apple M4 CPU：RTF 0.526

安装

# Windows / Linux / macOS
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
bash install.sh --device CU126 --source HF

Windows 用户可直接下载集成包，双击 go-webui.bat 启动。

在线体验

HuggingFace Demo
AutoDL 云镜像（国内用户）

系统要求

Python	PyTorch	设备
3.10-3.12	2.5.1+	CUDA 12.4/12.8
3.9-3.11	2.5.1+	Apple Silicon
3.9	2.2.2	CPU

生态

58k+ Stars，6.3k+ Forks
多语言文档：中文、英文、日文、韩文、土耳其文
活跃社区，持续更新（v3 已支持 CUDA Graph，推理速度翻倍）

4400举报0

Xiao.Xi•1个月前

点击获取 ^_^

被收录：

语音 GPT SoVITS

暂无评论