
快手开源 8B 多模态模型,专为短视频理解优化,Video-MME 73% 同级最强。
项目简介
Keye-VL 是快手开源的 8B 多模态大语言模型,专为短视频理解优化,同时保持强大的通用视觉语言能力。基于超过 6000 亿 token 的大规模高质量数据集训练,其中视频数据占核心比重。
核心能力
| 能力 | 说明 |
|---|---|
| 短视频理解 | 针对信息密集型短视频深度优化,同级最强 |
| 绝对时间感知 | 帧率信息输入模型,对齐真实时间轴 |
| Thinking 模式 | 五种模式:思考 / 非思考 / 自动 / 图像思考 / 视频思考 |
| 通用图像理解 | 图像 VQA、OCR、图表分析等通用能力不减 |
| 长视频处理 | 支持长视频输入,视频摘要与事件定位 |
Benchmark 成绩
| 基准 | Keye-VL 1.5 | 对比 |
|---|---|---|
| Video-MME | 73.0% | 8B 级别开源第一 |
| OpenCompass | 79.5 | 超越 Qwen2.5-VL(70.9)、InternVL3(73.6) |
| MMMU val | 71.4 | 超越 GPT-4o(70.7) |
| AI2D | 89.5 | 超越 Qwen2.5-VL(83.9) |
技术特点
- 四阶段预训练实现扎实的视觉语言对齐
- 两阶段后训练:指令跟随 + 高级推理
- 五模式「冷启动」数据混合策略,含 thinking 模式
- 快手海量短视频数据喂养,短视频场景理解碾压通用模型
适用场景
- 短视频内容分析与摘要
- 视频问答与事件定位
- 直播内容审核
- 多模态对话系统
- 视频搜索与推荐
资源
- Apache-2.0 License
- Hugging Face 模型已开源
- arXiv 技术报告已发布
暂无评论
