# LTX-2.3 - 开源最强音视频一体生成模型

> Lightricks出品22B DiT模型，单一模型同时生成同步视频+音频，支持图生视频/文生视频，蒸馏版8步出片

## LTX-2.3 — 开源视频+音频联合生成模型

Lightricks 出品的 **DiT 架构音视频基础模型**，22B 参数，能在单一模型中同时生成**同步的视频和音频**。HuggingFace 下载量 192万+，是目前最热门的开源视频生成模型之一。

### 核心亮点

- **音视频一体生成**：不是先生成视频再配音，而是音视频同步输出，画面和声效完美对齐
- **全能型选手**：文生视频、图生视频、视频生视频、音频驱动视频… 基本覆盖所有视频生成场景
- **极速推理**：蒸馏版仅 8 步出片（CFG=1），消费级显卡甚至 Mac 上都能跑
- **完全可训练**：支持 LoRA / IC-LoRA 微调，风格/人物/声音定制不到 1 小时即可完成
- **开源协议**：社区许可证，可本地部署，商用需遵守 License

### 模型版本

| 版本 | 说明 |
|------|------|
| **dev (完整版)** | 22B 全量模型，bf16，可训练 |
| **distilled (蒸馏版)** | 8 步快速生成，CFG=1 |
| **distilled-1.1** | 蒸馏 v1.1，音效和画质进一步提升 |
| **distilled-lora-384** | 蒸馏 LoRA 版，可叠加到完整模型上 |
| **spatial-upscaler-x2** | 空间超分（分辨率 x2） |
| **temporal-upscaler-x2** | 时间超分（帧率 x2） |

### 多阶段管线（高质量出片）

LTX-2.3 支持多阶段流水线：先生成低分辨率视频 → 空间超分提升清晰度 → 时间超分补帧到高 FPS，兼顾质量与速度。

### 快速上手

**ComfyUI（推荐）：** ComfyUI Manager 搜索 LTXVideo 节点即可

**PyTorch：**
```bash
git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
uv sync && source .venv/bin/activate
```

**在线试玩：** [LTX Studio Playground](https://console.ltx.video/playground/)

### 适合谁

- 本地部署视频生成的开发者 / 创作者
- 需要音视频同步生成的场景（无需后期配音）
- ComfyUI 工作流用户（生态支持完善）
- 需要微调定制风格/人物的团队

### 技术规格

- 参数量：22B
- 架构：DiT (Diffusion Transformer)
- 训练数据：Getty Images / Shutterstock 授权
- 论文：[LTX-2: Efficient Joint Audio-Visual Foundation Model](https://arxiv.org/abs/2601.03233)

---

**分类**：软件
**标签**：视频 · 模型 · 生成
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1821