
CVPR 2023 论文项目,一张照片+一段音频即可生成逼真的数字人/虚拟主播视频,支持口型同步和表情控制
SadTalker - 单张照片驱动说话人脸动画
CVPR 2023 论文项目,只需一张人脸照片 + 一段音频,即可生成逼真的说话视频。
核心特性
- 单图驱动:只需一张人脸照片,自动生成匹配音频的说话动画
- 3D 运动系数:学习真实的 3D 面部运动系数,嘴型、头部运动自然逼真
- 音频驱动:语音内容自动映射到面部表情和口型(lip-sync)
- 风格化支持:支持写实/卡通等多种风格的人脸图像
- 全身/半身:支持仅面部、半身、全身等多种模式
- 表情控制:可调整表情强度、头部姿态等参数
技术原理
音频 → ExpNet(表情系数)+ PoseExpNet(姿态系数)
→ 3DMM 面部模型
→ Face Renderer(渲染生成视频帧)
- 使用 3DMM(3D Morphable Model)建模面部运动
- 独立学习表情和姿态系数,避免运动耦合
- Map-to-Face 模块将 3D 系数映射到 2D 面部渲染
使用方式
# 安装
pip install -r requirements.txt
# 基础推理
python inference.py --driven_audio audio.wav \
--source_image face.png \
--result_dir output/
# Gradio WebUI
python app_sadtalker.py
在线体验(免安装):
- Hugging Face Spaces(免费在线 Demo)
- Google Colab(一键运行)
- Replicate(API 调用)
使用场景
- 数字人/虚拟主播:生成虚拟形象说话视频,做自媒体内容
- 视频配音/翻译:配合 VideoLingo,实现多语言口型同步
- 教育/培训:历史人物/卡通形象讲课视频
- 短视频创作:静态人物照片变活人,社交媒体内容生产
- 无障碍辅助:为听障人士生成手语/口型视频
项目数据
| 指标 | 数据 |
|---|---|
| Stars | 13.8k+ |
| 论文 | CVPR 2023 |
| 许可证 | MIT |
| 框架 | PyTorch |
注意事项
- 需要较好的 GPU(推荐 8GB+ 显存)
- 生成质量受源图质量影响较大,建议正面清晰人脸照
- 请注意合规使用,尊重他人肖像权
- 可集成到 Stable Diffusion WebUI 作为插件使用
暂无评论
