
Lightricks出品22B DiT模型,单一模型同时生成同步视频+音频,支持图生视频/文生视频,蒸馏版8步出片
LTX-2.3 — 开源视频+音频联合生成模型
Lightricks 出品的 DiT 架构音视频基础模型,22B 参数,能在单一模型中同时生成同步的视频和音频。HuggingFace 下载量 192万+,是目前最热门的开源视频生成模型之一。
核心亮点
- 音视频一体生成:不是先生成视频再配音,而是音视频同步输出,画面和声效完美对齐
- 全能型选手:文生视频、图生视频、视频生视频、音频驱动视频… 基本覆盖所有视频生成场景
- 极速推理:蒸馏版仅 8 步出片(CFG=1),消费级显卡甚至 Mac 上都能跑
- 完全可训练:支持 LoRA / IC-LoRA 微调,风格/人物/声音定制不到 1 小时即可完成
- 开源协议:社区许可证,可本地部署,商用需遵守 License
模型版本
| 版本 | 说明 |
|---|---|
| dev (完整版) | 22B 全量模型,bf16,可训练 |
| distilled (蒸馏版) | 8 步快速生成,CFG=1 |
| distilled-1.1 | 蒸馏 v1.1,音效和画质进一步提升 |
| distilled-lora-384 | 蒸馏 LoRA 版,可叠加到完整模型上 |
| spatial-upscaler-x2 | 空间超分(分辨率 x2) |
| temporal-upscaler-x2 | 时间超分(帧率 x2) |
多阶段管线(高质量出片)
LTX-2.3 支持多阶段流水线:先生成低分辨率视频 → 空间超分提升清晰度 → 时间超分补帧到高 FPS,兼顾质量与速度。
快速上手
ComfyUI(推荐): ComfyUI Manager 搜索 LTXVideo 节点即可
PyTorch:
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
uv sync && source .venv/bin/activate
在线试玩: LTX Studio Playground
适合谁
- 本地部署视频生成的开发者 / 创作者
- 需要音视频同步生成的场景(无需后期配音)
- ComfyUI 工作流用户(生态支持完善)
- 需要微调定制风格/人物的团队
技术规格
- 参数量:22B
- 架构:DiT (Diffusion Transformer)
- 训练数据:Getty Images / Shutterstock 授权
- 论文:LTX-2: Efficient Joint Audio-Visual Foundation Model
暂无评论
