
字节跳动开源的 3B 活跃参数原生统一多模态模型,支持图像/视频理解、生成与编辑。
项目简介
Lance 是字节跳动开源的 3B 活跃参数原生统一多模态模型,在单一框架内实现图像与视频的理解、生成和编辑。
核心能力
| 能力 | 说明 |
|---|---|
| 图像生成 | 最高 768×768 分辨率 |
| 图像编辑 | 基于文本指令的图像修改 |
| 视频生成 | 最高 480p、12 FPS |
| 视频理解 | 图像/视频内容理解 |
| 图生视频 | 支持首帧引导生成视频(Text-Image-to-Video) |
技术特点
| 特点 | 说明 |
|---|---|
| 3B 活跃参数 | 轻量高效,单卡 40GB VRAM 可推理 |
| 原生统一架构 | 理解、生成、编辑一体化,无需分阶段 pipeline |
| 从头训练 | 基于 128 张 A100 的多任务分阶段训练 |
| Gradio 界面 | 已支持图形化交互 demo |
适用场景
- 图像生成与编辑
- 短视频生成
- 多模态内容理解
资源
- 1.1k Stars,Python,Apache-2.0 License
- Hugging Face Space 已上线
- arXiv 技术报告已发布
暂无评论
