Wan2.2-I2V-A14B - 阿里万相MoE图生视频模型

阿里万相2.2图生视频，27B双专家MoE架构激活仅14B，支持480P/720P，电影级画质+复杂运动，Apache 2.0开源

Wan2.2-I2V-A14B — 阿里万相图生视频MoE模型

阿里万相2.2系列中的图生视频模型，采用创新的 MoE（混合专家）架构，总参数 27B，单步激活仅 14B，兼顾画质与推理效率。

核心亮点

MoE 双专家架构：高噪声阶段用"布局专家"负责整体构图，低噪声阶段用"细节专家"精修画面，总参数 27B 但推理算力只需 14B
电影级画质：训练数据标注了光照、构图、对比度、色调等维度，支持电影风格的精准控制
复杂运动生成：相比 Wan2.1，图像数据量增加 65.6%，视频数据量增加 83.2%，运动/语义/美学泛化能力大幅提升
支持 480P + 720P：单模型覆盖两种分辨率，满足不同场景需求
Apache 2.0 开源：完全开放，商用无限制

MoE 架构详解

传统视频模型用单一网络处理整个去噪过程。Wan2.2 创新性地将去噪分两个阶段交给不同专家：

阶段	专家模型	职责	参数量
早期（高噪声）	High-Noise Expert	整体布局、构图、场景结构	~14B
后期（低噪声）	Low-Noise Expert	画面细节、纹理、动态精修	~14B

切换时机由信噪比（SNR）决定，两步各激活 14B，总参数 27B 但推理算力 ≈ 14B。

快速上手

安装：

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
pip install -r requirements.txt  # torch >= 2.4.0

下载模型：

huggingface-cli download Wan-AI/Wan2.2-I2V-A14B --local-dir ./Wan2.2-I2V-A14B

图生视频：

python generate.py \
  --task i2v-A14B \
  --size 1280*720 \
  --ckpt_dir ./Wan2.2-I2V-A14B \
  --offload_model True \
  --convert_model_dtype \
  --image examples/i2v_input.JPG \
  --prompt "描述你想要的视频效果"

单卡最低 80GB VRAM 可运行，支持 --offload_model 降低显存占用。

ComfyUI 集成： 已原生支持，ComfyUI Manager 搜索 Wan2.2

Diffusers 集成： Wan2.2-I2V-A14B-Diffusers

Wan2.2 系列对比

模型	类型	参数	特色
T2V-A14B	文生视频	27B (MoE)	480P + 720P
I2V-A14B	图生视频	27B (MoE)	480P + 720P
TI2V-5B	文+图生视频	5B (Dense)	720P@24fps，消费级显卡可跑

适合谁

需要高质量图生视频的开发者 / 创作者
ComfyUI / Diffusers 工作流用户
电商产品视频、数字人、老照片动起来等 I2V 场景
需要本地部署、可控生成的团队

技术规格

架构：DiT + MoE（双专家）
总参数：27B / 激活参数：14B
文本编码器：umt5-xxl
VAE：Wan2.1 VAE
分辨率：480P / 720P
License：Apache 2.0
论文：Wan: Open and Advanced Large-Scale Video Generative Models

1500举报0

Xiao.Xi•10天前

点击获取 ^_^

被收录：

视频 Wan2.2 A14B

暂无评论