SadTalker - 单图+音频生成说话人脸动画

CVPR 2023 论文项目，一张照片+一段音频即可生成逼真的数字人/虚拟主播视频，支持口型同步和表情控制

SadTalker - 单张照片驱动说话人脸动画

CVPR 2023 论文项目，只需一张人脸照片 + 一段音频，即可生成逼真的说话视频。

核心特性

单图驱动：只需一张人脸照片，自动生成匹配音频的说话动画
3D 运动系数：学习真实的 3D 面部运动系数，嘴型、头部运动自然逼真
音频驱动：语音内容自动映射到面部表情和口型（lip-sync）
风格化支持：支持写实/卡通等多种风格的人脸图像
全身/半身：支持仅面部、半身、全身等多种模式
表情控制：可调整表情强度、头部姿态等参数

技术原理

音频 → ExpNet（表情系数）+ PoseExpNet（姿态系数）
    → 3DMM 面部模型
    → Face Renderer（渲染生成视频帧）

使用 3DMM（3D Morphable Model）建模面部运动
独立学习表情和姿态系数，避免运动耦合
Map-to-Face 模块将 3D 系数映射到 2D 面部渲染

使用方式

# 安装
pip install -r requirements.txt

# 基础推理
python inference.py --driven_audio audio.wav \
                    --source_image face.png \
                    --result_dir output/

# Gradio WebUI
python app_sadtalker.py

在线体验（免安装）：

Hugging Face Spaces（免费在线 Demo）
Google Colab（一键运行）
Replicate（API 调用）

使用场景

数字人/虚拟主播：生成虚拟形象说话视频，做自媒体内容
视频配音/翻译：配合 VideoLingo，实现多语言口型同步
教育/培训：历史人物/卡通形象讲课视频
短视频创作：静态人物照片变活人，社交媒体内容生产
无障碍辅助：为听障人士生成手语/口型视频

项目数据

指标	数据
Stars	13.8k+
论文	CVPR 2023
许可证	MIT
框架	PyTorch

注意事项

需要较好的 GPU（推荐 8GB+ 显存）
生成质量受源图质量影响较大，建议正面清晰人脸照
请注意合规使用，尊重他人肖像权
可集成到 Stable Diffusion WebUI 作为插件使用

4100举报0

Xiao.Xi•1个月前

点击获取 ^_^

被收录：

视频生成人脸

暂无评论