MiniCPM-V 4.6 - 口袋级多模态大模型,手机端部署的超高效视觉语言模型

MiniCPM-V 4.6 - 口袋级多模态大模型,手机端部署的超高效视觉语言模型


OpenBMB超轻量多模态模型,SigLIP2+Qwen3.5-0.8B,AI Index 13分,三端手机部署

MiniCPM-V 4.6 — 口袋级多模态大模型

OpenBMB 发布的 MiniCPM-V 4.6,主打"手机端部署"的超高效多模态理解模型。基于 SigLIP2-400M 视觉编码器 + Qwen3.5-0.8B 语言模型构建,能跑图、跑视频,还能跑在三端手机上。

核心亮点

  • 小模型大能力:Artificial Analysis AI Index 得分 13,超越 Qwen3.5-0.8B(10分)和 Ministral 3 3B(11分),token 成本仅为 Qwen 的 1/19
  • 视觉能力出众:在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等多模态基准上达到 Qwen3.5 2B 级别
  • 超高效架构:基于 LLaVA-UHD v4 技术,视觉编码计算 FLOPs 降低 50%+,吞吐量比 Qwen3.5-0.8B 高 ~1.5x
  • 混合压缩:支持 4x / 16x 视觉 token 压缩,灵活切换精度与速度
  • 三端全覆盖:iOS、Android、HarmonyOS 均可部署,端侧适配代码全部开源
  • 生态丰富:适配 vLLM / SGLang / llama.cpp / Ollama / SWIFT / LLaMA-Factory,提供 GGUF / BNB / AWQ / GPTQ 多种量化格式

技术参数

项目参数
视觉编码器SigLIP2-400M
语言模型Qwen3.5-0.8B
任务类型Image-Text-to-Text
许可证Apache-2.0
推理框架Transformers / vLLM / llama.cpp / Ollama

快速上手

from transformers import AutoModelForImageTextToText, AutoProcessor

processor = AutoProcessor.from_pretrained("openbmb/MiniCPM-V-4.6")
model = AutoModelForImageTextToText.from_pretrained(
    "openbmb/MiniCPM-V-4.6", torch_dtype="auto", device_map="auto"
)

messages = [{
    "role": "user",
    "content": [
        {"type": "image", "url": "https://example.com/photo.jpg"},
        {"type": "text", "text": "描述这张图片"},
    ],
}]

inputs = processor.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True,
    return_dict=True, return_tensors="pt",
    downsample_mode="16x", max_slice_nums=36,
).to(model.device)

outputs = model.generate(**inputs, downsample_mode="16x", max_new_tokens=512)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

适用场景

  • 📱 手机端 OCR / 图像理解 App
  • 🤖 嵌入式设备的视觉问答
  • 🎬 视频 content 理解与摘要
  • 🔍 轻量级多模态搜索

🔗 HuggingFace 模型卡 | GitHub | 在线 Demo

4700举报0Xiao.Xi27天前
点击获取 ^_^

暂无评论