# MiniCPM-V 4.6 - 口袋级多模态大模型,手机端部署的超高效视觉语言模型 > OpenBMB超轻量多模态模型,SigLIP2+Qwen3.5-0.8B,AI Index 13分,三端手机部署 ## MiniCPM-V 4.6 — 口袋级多模态大模型 OpenBMB 发布的 **MiniCPM-V 4.6**,主打"手机端部署"的超高效多模态理解模型。基于 SigLIP2-400M 视觉编码器 + Qwen3.5-0.8B 语言模型构建,能跑图、跑视频,还能跑在三端手机上。 ### 核心亮点 - **小模型大能力**:Artificial Analysis AI Index 得分 13,超越 Qwen3.5-0.8B(10分)和 Ministral 3 3B(11分),token 成本仅为 Qwen 的 1/19 - **视觉能力出众**:在 OpenCompass、RefCOCO、HallusionBench、MUIRBench、OCRBench 等多模态基准上达到 Qwen3.5 2B 级别 - **超高效架构**:基于 LLaVA-UHD v4 技术,视觉编码计算 FLOPs 降低 50%+,吞吐量比 Qwen3.5-0.8B 高 ~1.5x - **混合压缩**:支持 4x / 16x 视觉 token 压缩,灵活切换精度与速度 - **三端全覆盖**:iOS、Android、HarmonyOS 均可部署,端侧适配代码全部开源 - **生态丰富**:适配 vLLM / SGLang / llama.cpp / Ollama / SWIFT / LLaMA-Factory,提供 GGUF / BNB / AWQ / GPTQ 多种量化格式 ### 技术参数 | 项目 | 参数 | |------|------| | 视觉编码器 | SigLIP2-400M | | 语言模型 | Qwen3.5-0.8B | | 任务类型 | Image-Text-to-Text | | 许可证 | Apache-2.0 | | 推理框架 | Transformers / vLLM / llama.cpp / Ollama | ### 快速上手 ```python from transformers import AutoModelForImageTextToText, AutoProcessor processor = AutoProcessor.from_pretrained("openbmb/MiniCPM-V-4.6") model = AutoModelForImageTextToText.from_pretrained( "openbmb/MiniCPM-V-4.6", torch_dtype="auto", device_map="auto" ) messages = [{ "role": "user", "content": [ {"type": "image", "url": "https://example.com/photo.jpg"}, {"type": "text", "text": "描述这张图片"}, ], }] inputs = processor.apply_chat_template( messages, tokenize=True, add_generation_prompt=True, return_dict=True, return_tensors="pt", downsample_mode="16x", max_slice_nums=36, ).to(model.device) outputs = model.generate(**inputs, downsample_mode="16x", max_new_tokens=512) print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:])) ``` ### 适用场景 - 📱 手机端 OCR / 图像理解 App - 🤖 嵌入式设备的视觉问答 - 🎬 视频 content 理解与摘要 - 🔍 轻量级多模态搜索 🔗 [HuggingFace 模型卡](https://huggingface.co/openbmb/MiniCPM-V-4.6) | [GitHub](https://github.com/OpenBMB/MiniCPM-o) | [在线 Demo](https://huggingface.co/spaces/openbmb/MiniCPM-V-4.6-Demo) --- **分类**:源码 **标签**:模型 · 模态 · MiniCPM **作者**:Xiao.Xi **链接**:https://octohz.com/p/1782