
OpenBMB超轻量多模态模型,SigLIP2+Qwen3.5-0.8B,AI Index 13分,三端手机部署
MiniCPM-V 4.6 — 口袋级多模态大模型
OpenBMB 发布的 MiniCPM-V 4.6,主打"手机端部署"的超高效多模态理解模型。基于 SigLIP2-400M 视觉编码器 + Qwen3.5-0.8B 语言模型构建,能跑图、跑视频,还能跑在三端手机上。
核心亮点
- 小模型大能力:Artificial Analysis AI Index 得分 13,超越 Qwen3.5-0.8B(10分)和 Ministral 3 3B(11分),token 成本仅为 Qwen 的 1/19
- 视觉能力出众:在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等多模态基准上达到 Qwen3.5 2B 级别
- 超高效架构:基于 LLaVA-UHD v4 技术,视觉编码计算 FLOPs 降低 50%+,吞吐量比 Qwen3.5-0.8B 高 ~1.5x
- 混合压缩:支持 4x / 16x 视觉 token 压缩,灵活切换精度与速度
- 三端全覆盖:iOS、Android、HarmonyOS 均可部署,端侧适配代码全部开源
- 生态丰富:适配 vLLM / SGLang / llama.cpp / Ollama / SWIFT / LLaMA-Factory,提供 GGUF / BNB / AWQ / GPTQ 多种量化格式
技术参数
| 项目 | 参数 |
|---|---|
| 视觉编码器 | SigLIP2-400M |
| 语言模型 | Qwen3.5-0.8B |
| 任务类型 | Image-Text-to-Text |
| 许可证 | Apache-2.0 |
| 推理框架 | Transformers / vLLM / llama.cpp / Ollama |
快速上手
from transformers import AutoModelForImageTextToText, AutoProcessor
processor = AutoProcessor.from_pretrained("openbmb/MiniCPM-V-4.6")
model = AutoModelForImageTextToText.from_pretrained(
"openbmb/MiniCPM-V-4.6", torch_dtype="auto", device_map="auto"
)
messages = [{
"role": "user",
"content": [
{"type": "image", "url": "https://example.com/photo.jpg"},
{"type": "text", "text": "描述这张图片"},
],
}]
inputs = processor.apply_chat_template(
messages, tokenize=True, add_generation_prompt=True,
return_dict=True, return_tensors="pt",
downsample_mode="16x", max_slice_nums=36,
).to(model.device)
outputs = model.generate(**inputs, downsample_mode="16x", max_new_tokens=512)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))
适用场景
- 📱 手机端 OCR / 图像理解 App
- 🤖 嵌入式设备的视觉问答
- 🎬 视频 content 理解与摘要
- 🔍 轻量级多模态搜索
🔗 HuggingFace 模型卡 | GitHub | 在线 Demo
暂无评论
