筛选：

商品影音软件系统源码 Skills 游戏酷站新闻教程其它随笔

Keye-VL — 8B 短视频理解大模型

Keye-VL — 8B 短视频理解大模型

快手开源 8B 多模态模型，专为短视频理解优化，Video-MME 73% 同级最强。

项目简介

Keye-VL 是快手开源的 8B 多模态大语言模型，专为短视频理解优化，同时保持强大的通用视觉语言能力。基于超过 6000 亿 token 的大规模高质量数据集训练，其中视频数据占核心比重。

核心能力

能力	说明
短视频理解	针对信息密集型短视频深度优化，同级最强
绝对时间感知	帧率信息输入模型，对齐真实时间轴
Thinking 模式	五种模式：思考 / 非思考 / 自动 / 图像思考 / 视频思考
通用图像理解	图像 VQA、OCR、图表分析等通用能力不减
长视频处理	支持长视频输入，视频摘要与事件定位

Benchmark 成绩

基准	Keye-VL 1.5	对比
Video-MME	73.0%	8B 级别开源第一
OpenCompass	79.5	超越 Qwen2.5-VL(70.9)、InternVL3(73.6)
MMMU val	71.4	超越 GPT-4o(70.7)
AI2D	89.5	超越 Qwen2.5-VL(83.9)

技术特点

四阶段预训练实现扎实的视觉语言对齐
两阶段后训练：指令跟随 + 高级推理
五模式「冷启动」数据混合策略，含 thinking 模式
快手海量短视频数据喂养，短视频场景理解碾压通用模型

适用场景

短视频内容分析与摘要
视频问答与事件定位
直播内容审核
多模态对话系统
视频搜索与推荐

资源

Apache-2.0 License
Hugging Face 模型已开源
arXiv 技术报告已发布

1700举报0

Xiao.Xi•9天前

点击获取 ^_^

被收录：

视频模型理解

暂无评论