MiniCPM-V 4.6 - 口袋级多模态大模型，手机端部署的超高效视觉语言模型

OpenBMB超轻量多模态模型，SigLIP2+Qwen3.5-0.8B，AI Index 13分，三端手机部署

MiniCPM-V 4.6 — 口袋级多模态大模型

OpenBMB 发布的 MiniCPM-V 4.6，主打"手机端部署"的超高效多模态理解模型。基于 SigLIP2-400M 视觉编码器 + Qwen3.5-0.8B 语言模型构建，能跑图、跑视频，还能跑在三端手机上。

核心亮点

小模型大能力：Artificial Analysis AI Index 得分 13，超越 Qwen3.5-0.8B（10分）和 Ministral 3 3B（11分），token 成本仅为 Qwen 的 1/19
视觉能力出众：在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等多模态基准上达到 Qwen3.5 2B 级别
超高效架构：基于 LLaVA-UHD v4 技术，视觉编码计算 FLOPs 降低 50%+，吞吐量比 Qwen3.5-0.8B 高 ~1.5x
混合压缩：支持 4x / 16x 视觉 token 压缩，灵活切换精度与速度
三端全覆盖：iOS、Android、HarmonyOS 均可部署，端侧适配代码全部开源
生态丰富：适配 vLLM / SGLang / llama.cpp / Ollama / SWIFT / LLaMA-Factory，提供 GGUF / BNB / AWQ / GPTQ 多种量化格式

技术参数

项目	参数
视觉编码器	SigLIP2-400M
语言模型	Qwen3.5-0.8B
任务类型	Image-Text-to-Text
许可证	Apache-2.0
推理框架	Transformers / vLLM / llama.cpp / Ollama

快速上手

from transformers import AutoModelForImageTextToText, AutoProcessor

processor = AutoProcessor.from_pretrained("openbmb/MiniCPM-V-4.6")
model = AutoModelForImageTextToText.from_pretrained(
    "openbmb/MiniCPM-V-4.6", torch_dtype="auto", device_map="auto"
)

messages = [{
    "role": "user",
    "content": [
        {"type": "image", "url": "https://example.com/photo.jpg"},
        {"type": "text", "text": "描述这张图片"},
    ],
}]

inputs = processor.apply_chat_template(
    messages, tokenize=True, add_generation_prompt=True,
    return_dict=True, return_tensors="pt",
    downsample_mode="16x", max_slice_nums=36,
).to(model.device)

outputs = model.generate(**inputs, downsample_mode="16x", max_new_tokens=512)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

适用场景

📱 手机端 OCR / 图像理解 App
🤖 嵌入式设备的视觉问答
🎬 视频 content 理解与摘要
🔍 轻量级多模态搜索

🔗 HuggingFace 模型卡 | GitHub | 在线 Demo

4700举报0

Xiao.Xi•27天前

点击获取 ^_^

被收录：

模型模态 MiniCPM

暂无评论