Lance — 3B 统一多模态模型

Lance — 3B 统一多模态模型


字节跳动开源的 3B 活跃参数原生统一多模态模型,支持图像/视频理解、生成与编辑。

项目简介

Lance 是字节跳动开源的 3B 活跃参数原生统一多模态模型,在单一框架内实现图像与视频的理解、生成和编辑。

核心能力

能力说明
图像生成最高 768×768 分辨率
图像编辑基于文本指令的图像修改
视频生成最高 480p、12 FPS
视频理解图像/视频内容理解
图生视频支持首帧引导生成视频(Text-Image-to-Video)

技术特点

特点说明
3B 活跃参数轻量高效,单卡 40GB VRAM 可推理
原生统一架构理解、生成、编辑一体化,无需分阶段 pipeline
从头训练基于 128 张 A100 的多任务分阶段训练
Gradio 界面已支持图形化交互 demo

适用场景

  • 图像生成与编辑
  • 短视频生成
  • 多模态内容理解

资源

  • 1.1k Stars,Python,Apache-2.0 License
  • Hugging Face Space 已上线
  • arXiv 技术报告已发布
3700举报0Xiao.Xi28天前
点击获取 ^_^
被收录:

暂无评论