# SadTalker - 单图+音频生成说话人脸动画 > CVPR 2023 论文项目,一张照片+一段音频即可生成逼真的数字人/虚拟主播视频,支持口型同步和表情控制 ## SadTalker - 单张照片驱动说话人脸动画 CVPR 2023 论文项目,只需一张人脸照片 + 一段音频,即可生成逼真的说话视频。 ## 核心特性 - **单图驱动**:只需一张人脸照片,自动生成匹配音频的说话动画 - **3D 运动系数**:学习真实的 3D 面部运动系数,嘴型、头部运动自然逼真 - **音频驱动**:语音内容自动映射到面部表情和口型(lip-sync) - **风格化支持**:支持写实/卡通等多种风格的人脸图像 - **全身/半身**:支持仅面部、半身、全身等多种模式 - **表情控制**:可调整表情强度、头部姿态等参数 ## 技术原理 ``` 音频 → ExpNet(表情系数)+ PoseExpNet(姿态系数) → 3DMM 面部模型 → Face Renderer(渲染生成视频帧) ``` - 使用 3DMM(3D Morphable Model)建模面部运动 - 独立学习表情和姿态系数,避免运动耦合 - Map-to-Face 模块将 3D 系数映射到 2D 面部渲染 ## 使用方式 ```bash # 安装 pip install -r requirements.txt # 基础推理 python inference.py --driven_audio audio.wav \ --source_image face.png \ --result_dir output/ # Gradio WebUI python app_sadtalker.py ``` **在线体验(免安装):** - Hugging Face Spaces(免费在线 Demo) - Google Colab(一键运行) - Replicate(API 调用) ## 使用场景 1. **数字人/虚拟主播**:生成虚拟形象说话视频,做自媒体内容 2. **视频配音/翻译**:配合 VideoLingo,实现多语言口型同步 3. **教育/培训**:历史人物/卡通形象讲课视频 4. **短视频创作**:静态人物照片变活人,社交媒体内容生产 5. **无障碍辅助**:为听障人士生成手语/口型视频 ## 项目数据 | 指标 | 数据 | |------|------| | Stars | 13.8k+ | | 论文 | CVPR 2023 | | 许可证 | MIT | | 框架 | PyTorch | ## 注意事项 - 需要较好的 GPU(推荐 8GB+ 显存) - 生成质量受源图质量影响较大,建议正面清晰人脸照 - 请注意合规使用,尊重他人肖像权 - 可集成到 Stable Diffusion WebUI 作为插件使用 --- **分类**:软件 **标签**:视频 · 生成 · 人脸 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1739