Keye-VL — 8B 短视频理解大模型

Keye-VL — 8B 短视频理解大模型


快手开源 8B 多模态模型,专为短视频理解优化,Video-MME 73% 同级最强。

项目简介

Keye-VL 是快手开源的 8B 多模态大语言模型,专为短视频理解优化,同时保持强大的通用视觉语言能力。基于超过 6000 亿 token 的大规模高质量数据集训练,其中视频数据占核心比重。

核心能力

能力说明
短视频理解针对信息密集型短视频深度优化,同级最强
绝对时间感知帧率信息输入模型,对齐真实时间轴
Thinking 模式五种模式:思考 / 非思考 / 自动 / 图像思考 / 视频思考
通用图像理解图像 VQA、OCR、图表分析等通用能力不减
长视频处理支持长视频输入,视频摘要与事件定位

Benchmark 成绩

基准Keye-VL 1.5对比
Video-MME73.0%8B 级别开源第一
OpenCompass79.5超越 Qwen2.5-VL(70.9)、InternVL3(73.6)
MMMU val71.4超越 GPT-4o(70.7)
AI2D89.5超越 Qwen2.5-VL(83.9)

技术特点

  • 四阶段预训练实现扎实的视觉语言对齐
  • 两阶段后训练:指令跟随 + 高级推理
  • 五模式「冷启动」数据混合策略,含 thinking 模式
  • 快手海量短视频数据喂养,短视频场景理解碾压通用模型

适用场景

  • 短视频内容分析与摘要
  • 视频问答与事件定位
  • 直播内容审核
  • 多模态对话系统
  • 视频搜索与推荐

资源

  • Apache-2.0 License
  • Hugging Face 模型已开源
  • arXiv 技术报告已发布
1700举报0Xiao.Xi9天前
点击获取 ^_^
被收录:

暂无评论