# Keye-VL — 8B 短视频理解大模型 > 快手开源 8B 多模态模型,专为短视频理解优化,Video-MME 73% 同级最强。 ## 项目简介 Keye-VL 是快手开源的 8B 多模态大语言模型,专为短视频理解优化,同时保持强大的通用视觉语言能力。基于超过 6000 亿 token 的大规模高质量数据集训练,其中视频数据占核心比重。 ## 核心能力 | 能力 | 说明 | |------|------| | 短视频理解 | 针对信息密集型短视频深度优化,同级最强 | | 绝对时间感知 | 帧率信息输入模型,对齐真实时间轴 | | Thinking 模式 | 五种模式:思考 / 非思考 / 自动 / 图像思考 / 视频思考 | | 通用图像理解 | 图像 VQA、OCR、图表分析等通用能力不减 | | 长视频处理 | 支持长视频输入,视频摘要与事件定位 | ## Benchmark 成绩 | 基准 | Keye-VL 1.5 | 对比 | |------|------------|------| | Video-MME | 73.0% | 8B 级别开源第一 | | OpenCompass | 79.5 | 超越 Qwen2.5-VL(70.9)、InternVL3(73.6) | | MMMU val | 71.4 | 超越 GPT-4o(70.7) | | AI2D | 89.5 | 超越 Qwen2.5-VL(83.9) | ## 技术特点 - 四阶段预训练实现扎实的视觉语言对齐 - 两阶段后训练:指令跟随 + 高级推理 - 五模式「冷启动」数据混合策略,含 thinking 模式 - 快手海量短视频数据喂养,短视频场景理解碾压通用模型 ## 适用场景 - 短视频内容分析与摘要 - 视频问答与事件定位 - 直播内容审核 - 多模态对话系统 - 视频搜索与推荐 ## 资源 - Apache-2.0 License - Hugging Face 模型已开源 - arXiv 技术报告已发布 --- **分类**:源码 **标签**:视频 · 模型 · 理解 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1824