# Google Gemma 4 12B - 无编码器多模态大模型 > Google DeepMind 开源多模态模型,11.95B参数支持文本+图像+音频,256K上下文,原生函数调用,Apache 2.0免费商用 ## Google Gemma 4 12B — 开源多模态大模型 Google DeepMind 发布的 **Gemma 4 12B** 是 Gemma 4 家族中的「统一架构」版本,最大亮点是**无编码器(encoder-free)**设计:直接将图像和音频投射进 LLM 的嵌入空间,不需要单独的视觉/音频编码器,部署体积更小、推理延迟更低。 ### 核心特性 - **多模态原生支持**:文本 + 图像 + 音频输入,文本输出(12B 独有音频能力) - **256K 超长上下文**:混合注意力机制(滑动窗口 + 全局注意力) - **Thinking 模式**:内置推理链,可配置开关 - **函数调用**:原生支持结构化 tool use,适合 Agent 工作流 - **140+ 语言**:预训练覆盖 140 种语言,开箱支持 35+ 语言 - **Apache 2.0 开源**:完全免费商用 ### 性能基准(Instruction-Tuned) | 基准 | 得分 | |------|------| | MMLU Pro | 77.2% | | AIME 2026(无工具) | 77.5% | | LiveCodeBench v6 | 72.0% | | GPQA Diamond | 78.8% | | MMMU Pro(视觉) | 69.1% | | MATH-Vision | 79.7% | | Codeforces ELO | 1659 | 作为对比,上一代 Gemma 3 27B 在 MMLU Pro 仅 67.6%、AIME 仅 20.8%——12B 参数量做到了全面超越。 --- ## 官方版本一览 ### Dense 模型 | 模型 | 参数量 | 模态 | 上下文 | 下载量 | |------|--------|------|--------|--------| | `google/gemma-4-12B` | 11.95B | 文本+图像+音频 | 256K | ~10万 | | `google/gemma-4-12B-it` | 11.95B | 文本+图像+音频 | 256K | **43.5万** | ### QAT 量化版(官方出品) | 模型 | 说明 | 下载量 | |------|------|--------| | `google/gemma-4-12B-it-qat-q4_0-gguf` | Q4_0 GGUF 量化 | ~2.5万 | | `google/gemma-4-12B-it-qat-w4a16-ct` | W4A16 Cortex 量化 | ~7.7万 | | `google/gemma-4-12B-it-qat-q4_0-unquantized` | QAT 基础版(可再量化) | ~3,267 | | `google/gemma-4-12B-it-assistant` | Assistant 微调版 | ~1.5万 | ### 社区热门量化版 | 模型 | 格式 | 下载量 | |------|------|--------| | `unsloth/gemma-4-12b-it-GGUF` | GGUF 多量化 | **56.8万** | | `lmstudio-community/gemma-4-12B-it-GGUF` | LM Studio GGUF | ~27.2万 | | `ggml-org/gemma-4-12B-it-GGUF` | GGUF 官方 | ~14.5万 | | `unsloth/gemma-4-12B-it-qat-GGUF` | QAT GGUF | ~8.6万 | | `bartowski/gemma-4-12B-it-GGUF` | GGUF 多量化 | ~5.6万 | | `mlx-community/gemma-4-12B-it-8bit` | MLX Apple Silicon | ~2.9万 | | `cyankiwi/gemma-4-12B-it-AWQ-INT4` | AWQ INT4 | ~9万 | --- ## 快速上手 ```bash pip install -U transformers torch accelerate ``` ```python from transformers import AutoProcessor, AutoModelForMultimodalLM MODEL_ID = "google/gemma-4-12B-it" processor = AutoProcessor.from_pretrained(MODEL_ID) model = AutoModelForMultimodalLM.from_pretrained( MODEL_ID, dtype="auto", device_map="auto" ) messages = [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "用中文解释量子纠缠"}, ] inputs = processor.apply_chat_template( messages, tokenize=True, return_dict=True, return_tensors="pt", add_generation_prompt=True, enable_thinking=False ).to(model.device) outputs = model.generate(**inputs, max_new_tokens=1024) response = processor.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=False) print(processor.parse_response(response)) ``` --- ## 推荐场景 - **本地部署多模态推理**:12B 参数量适合消费级 GPU(24GB VRAM 可跑 BF16,量化后 8-12GB 即可) - **Agent / 工具调用**:原生函数调用支持,适合构建自主工作流 - **长文档处理**:256K 上下文窗口,处理超长文档无压力 - **语音识别 + 翻译**:12B 独有的原生音频能力(ASR + 语音翻译) - **视觉理解**:OCR、图表分析、文档解析、UI 理解 ## 链接 - HuggingFace 模型卡:https://huggingface.co/google/gemma-4-12B-it - Google 官方博客:https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12B/ - GitHub:https://github.com/google-gemma - 技术文档:https://ai.google.dev/gemma/docs/core --- **分类**:软件 **标签**:Google · 模型 · 模态 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1810