LTX-2.3 - 开源最强音视频一体生成模型

LTX-2.3 - 开源最强音视频一体生成模型


Lightricks出品22B DiT模型,单一模型同时生成同步视频+音频,支持图生视频/文生视频,蒸馏版8步出片

LTX-2.3 — 开源视频+音频联合生成模型

Lightricks 出品的 DiT 架构音视频基础模型,22B 参数,能在单一模型中同时生成同步的视频和音频。HuggingFace 下载量 192万+,是目前最热门的开源视频生成模型之一。

核心亮点

  • 音视频一体生成:不是先生成视频再配音,而是音视频同步输出,画面和声效完美对齐
  • 全能型选手:文生视频、图生视频、视频生视频、音频驱动视频… 基本覆盖所有视频生成场景
  • 极速推理:蒸馏版仅 8 步出片(CFG=1),消费级显卡甚至 Mac 上都能跑
  • 完全可训练:支持 LoRA / IC-LoRA 微调,风格/人物/声音定制不到 1 小时即可完成
  • 开源协议:社区许可证,可本地部署,商用需遵守 License

模型版本

版本说明
dev (完整版)22B 全量模型,bf16,可训练
distilled (蒸馏版)8 步快速生成,CFG=1
distilled-1.1蒸馏 v1.1,音效和画质进一步提升
distilled-lora-384蒸馏 LoRA 版,可叠加到完整模型上
spatial-upscaler-x2空间超分(分辨率 x2)
temporal-upscaler-x2时间超分(帧率 x2)

多阶段管线(高质量出片)

LTX-2.3 支持多阶段流水线:先生成低分辨率视频 → 空间超分提升清晰度 → 时间超分补帧到高 FPS,兼顾质量与速度。

快速上手

ComfyUI(推荐): ComfyUI Manager 搜索 LTXVideo 节点即可

PyTorch:

git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
uv sync && source .venv/bin/activate

在线试玩: LTX Studio Playground

适合谁

  • 本地部署视频生成的开发者 / 创作者
  • 需要音视频同步生成的场景(无需后期配音)
  • ComfyUI 工作流用户(生态支持完善)
  • 需要微调定制风格/人物的团队

技术规格

2200举报0Xiao.Xi10天前
点击获取 ^_^
被收录:

暂无评论