# Keye-VL — 8B 短视频理解大模型

> 快手开源 8B 多模态模型，专为短视频理解优化，Video-MME 73% 同级最强。

## 项目简介

Keye-VL 是快手开源的 8B 多模态大语言模型，专为短视频理解优化，同时保持强大的通用视觉语言能力。基于超过 6000 亿 token 的大规模高质量数据集训练，其中视频数据占核心比重。

## 核心能力

| 能力 | 说明 |
|------|------|
| 短视频理解 | 针对信息密集型短视频深度优化，同级最强 |
| 绝对时间感知 | 帧率信息输入模型，对齐真实时间轴 |
| Thinking 模式 | 五种模式：思考 / 非思考 / 自动 / 图像思考 / 视频思考 |
| 通用图像理解 | 图像 VQA、OCR、图表分析等通用能力不减 |
| 长视频处理 | 支持长视频输入，视频摘要与事件定位 |

## Benchmark 成绩

| 基准 | Keye-VL 1.5 | 对比 |
|------|------------|------|
| Video-MME | 73.0% | 8B 级别开源第一 |
| OpenCompass | 79.5 | 超越 Qwen2.5-VL(70.9)、InternVL3(73.6) |
| MMMU val | 71.4 | 超越 GPT-4o(70.7) |
| AI2D | 89.5 | 超越 Qwen2.5-VL(83.9) |

## 技术特点

- 四阶段预训练实现扎实的视觉语言对齐
- 两阶段后训练：指令跟随 + 高级推理
- 五模式「冷启动」数据混合策略，含 thinking 模式
- 快手海量短视频数据喂养，短视频场景理解碾压通用模型

## 适用场景

- 短视频内容分析与摘要
- 视频问答与事件定位
- 直播内容审核
- 多模态对话系统
- 视频搜索与推荐

## 资源

- Apache-2.0 License
- Hugging Face 模型已开源
- arXiv 技术报告已发布

---

**分类**：源码
**标签**：视频 · 模型 · 理解
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1824