
阿里万相2.2图生视频,27B双专家MoE架构激活仅14B,支持480P/720P,电影级画质+复杂运动,Apache 2.0开源
Wan2.2-I2V-A14B — 阿里万相图生视频MoE模型
阿里万相2.2系列中的图生视频模型,采用创新的 MoE(混合专家)架构,总参数 27B,单步激活仅 14B,兼顾画质与推理效率。
核心亮点
- MoE 双专家架构:高噪声阶段用"布局专家"负责整体构图,低噪声阶段用"细节专家"精修画面,总参数 27B 但推理算力只需 14B
- 电影级画质:训练数据标注了光照、构图、对比度、色调等维度,支持电影风格的精准控制
- 复杂运动生成:相比 Wan2.1,图像数据量增加 65.6%,视频数据量增加 83.2%,运动/语义/美学泛化能力大幅提升
- 支持 480P + 720P:单模型覆盖两种分辨率,满足不同场景需求
- Apache 2.0 开源:完全开放,商用无限制
MoE 架构详解
传统视频模型用单一网络处理整个去噪过程。Wan2.2 创新性地将去噪分两个阶段交给不同专家:
| 阶段 | 专家模型 | 职责 | 参数量 |
|---|---|---|---|
| 早期(高噪声) | High-Noise Expert | 整体布局、构图、场景结构 | ~14B |
| 后期(低噪声) | Low-Noise Expert | 画面细节、纹理、动态精修 | ~14B |
切换时机由信噪比(SNR)决定,两步各激活 14B,总参数 27B 但推理算力 ≈ 14B。
快速上手
安装:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt # torch >= 2.4.0
下载模型:
huggingface-cli download Wan-AI/Wan2.2-I2V-A14B --local-dir ./Wan2.2-I2V-A14B
图生视频:
python generate.py \
--task i2v-A14B \
--size 1280*720 \
--ckpt_dir ./Wan2.2-I2V-A14B \
--offload_model True \
--convert_model_dtype \
--image examples/i2v_input.JPG \
--prompt "描述你想要的视频效果"
单卡最低 80GB VRAM 可运行,支持
--offload_model降低显存占用。
ComfyUI 集成: 已原生支持,ComfyUI Manager 搜索 Wan2.2
Diffusers 集成: Wan2.2-I2V-A14B-Diffusers
Wan2.2 系列对比
| 模型 | 类型 | 参数 | 特色 |
|---|---|---|---|
| T2V-A14B | 文生视频 | 27B (MoE) | 480P + 720P |
| I2V-A14B | 图生视频 | 27B (MoE) | 480P + 720P |
| TI2V-5B | 文+图生视频 | 5B (Dense) | 720P@24fps,消费级显卡可跑 |
适合谁
- 需要高质量图生视频的开发者 / 创作者
- ComfyUI / Diffusers 工作流用户
- 电商产品视频、数字人、老照片动起来等 I2V 场景
- 需要本地部署、可控生成的团队
技术规格
- 架构:DiT + MoE(双专家)
- 总参数:27B / 激活参数:14B
- 文本编码器:umt5-xxl
- VAE:Wan2.1 VAE
- 分辨率:480P / 720P
- License:Apache 2.0
- 论文:Wan: Open and Advanced Large-Scale Video Generative Models
暂无评论
