# SadTalker - 单图+音频生成说话人脸动画

> CVPR 2023 论文项目，一张照片+一段音频即可生成逼真的数字人/虚拟主播视频，支持口型同步和表情控制

## SadTalker - 单张照片驱动说话人脸动画

CVPR 2023 论文项目，只需一张人脸照片 + 一段音频，即可生成逼真的说话视频。

## 核心特性

- **单图驱动**：只需一张人脸照片，自动生成匹配音频的说话动画
- **3D 运动系数**：学习真实的 3D 面部运动系数，嘴型、头部运动自然逼真
- **音频驱动**：语音内容自动映射到面部表情和口型（lip-sync）
- **风格化支持**：支持写实/卡通等多种风格的人脸图像
- **全身/半身**：支持仅面部、半身、全身等多种模式
- **表情控制**：可调整表情强度、头部姿态等参数

## 技术原理

```
音频 → ExpNet（表情系数）+ PoseExpNet（姿态系数）
    → 3DMM 面部模型
    → Face Renderer（渲染生成视频帧）
```

- 使用 3DMM（3D Morphable Model）建模面部运动
- 独立学习表情和姿态系数，避免运动耦合
- Map-to-Face 模块将 3D 系数映射到 2D 面部渲染

## 使用方式

```bash
# 安装
pip install -r requirements.txt

# 基础推理
python inference.py --driven_audio audio.wav \
                    --source_image face.png \
                    --result_dir output/

# Gradio WebUI
python app_sadtalker.py
```

**在线体验（免安装）：**
- Hugging Face Spaces（免费在线 Demo）
- Google Colab（一键运行）
- Replicate（API 调用）

## 使用场景

1. **数字人/虚拟主播**：生成虚拟形象说话视频，做自媒体内容
2. **视频配音/翻译**：配合 VideoLingo，实现多语言口型同步
3. **教育/培训**：历史人物/卡通形象讲课视频
4. **短视频创作**：静态人物照片变活人，社交媒体内容生产
5. **无障碍辅助**：为听障人士生成手语/口型视频

## 项目数据

| 指标 | 数据 |
|------|------|
| Stars | 13.8k+ |
| 论文 | CVPR 2023 |
| 许可证 | MIT |
| 框架 | PyTorch |

## 注意事项

- 需要较好的 GPU（推荐 8GB+ 显存）
- 生成质量受源图质量影响较大，建议正面清晰人脸照
- 请注意合规使用，尊重他人肖像权
- 可集成到 Stable Diffusion WebUI 作为插件使用

---

**分类**：软件
**标签**：视频 · 生成 · 人脸
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1739