SadTalker - 单图+音频生成说话人脸动画

SadTalker - 单图+音频生成说话人脸动画


CVPR 2023 论文项目,一张照片+一段音频即可生成逼真的数字人/虚拟主播视频,支持口型同步和表情控制

SadTalker - 单张照片驱动说话人脸动画

CVPR 2023 论文项目,只需一张人脸照片 + 一段音频,即可生成逼真的说话视频。

核心特性

  • 单图驱动:只需一张人脸照片,自动生成匹配音频的说话动画
  • 3D 运动系数:学习真实的 3D 面部运动系数,嘴型、头部运动自然逼真
  • 音频驱动:语音内容自动映射到面部表情和口型(lip-sync)
  • 风格化支持:支持写实/卡通等多种风格的人脸图像
  • 全身/半身:支持仅面部、半身、全身等多种模式
  • 表情控制:可调整表情强度、头部姿态等参数

技术原理

音频 → ExpNet(表情系数)+ PoseExpNet(姿态系数)
    → 3DMM 面部模型
    → Face Renderer(渲染生成视频帧)
  • 使用 3DMM(3D Morphable Model)建模面部运动
  • 独立学习表情和姿态系数,避免运动耦合
  • Map-to-Face 模块将 3D 系数映射到 2D 面部渲染

使用方式

# 安装
pip install -r requirements.txt

# 基础推理
python inference.py --driven_audio audio.wav \
                    --source_image face.png \
                    --result_dir output/

# Gradio WebUI
python app_sadtalker.py

在线体验(免安装):

  • Hugging Face Spaces(免费在线 Demo)
  • Google Colab(一键运行)
  • Replicate(API 调用)

使用场景

  1. 数字人/虚拟主播:生成虚拟形象说话视频,做自媒体内容
  2. 视频配音/翻译:配合 VideoLingo,实现多语言口型同步
  3. 教育/培训:历史人物/卡通形象讲课视频
  4. 短视频创作:静态人物照片变活人,社交媒体内容生产
  5. 无障碍辅助:为听障人士生成手语/口型视频

项目数据

指标数据
Stars13.8k+
论文CVPR 2023
许可证MIT
框架PyTorch

注意事项

  • 需要较好的 GPU(推荐 8GB+ 显存)
  • 生成质量受源图质量影响较大,建议正面清晰人脸照
  • 请注意合规使用,尊重他人肖像权
  • 可集成到 Stable Diffusion WebUI 作为插件使用
4100举报0Xiao.Xi1个月前
点击获取 ^_^
被收录:

暂无评论