
prithivMLmods 出品的 Gemma 4 31B 全精度(BF16)去审查版,无量化损失,mlx-vlm 原生支持
🎯 一句话
Gemma 4 31B 的 BF16 全精度去审查版本,零量化损失,mlx-vlm 原生支持,适合追求极致质量且内存充足的 Apple Silicon 用户。
📊 核心数据
| 指标 | 数值 |
|---|---|
| 基座模型 | google/gemma-4-31b-it |
| 参数量 | 31B Dense |
| 精度 | BF16 全精度(无量化) |
| 模型体积 | ~62 GB |
| 格式 | MLX safetensors |
| 视觉 | ✅ 多模态支持(mlx-vlm) |
| License | Apache 2.0 |
🔬 去审查方法
Labonne Abliteration — 经典拒绝方向消融法:
- 由 Maxime Labonne 提出的 abliteration 方法论
- 通过有害/无害数据集对比分析,识别模型内部的"拒绝方向"
- 将该方向从模型权重中消融,实现去审查效果
- 使用
mlabonne/harmful_behaviors和mlabonne/harmless_alpaca数据集
⚡ 快速上手
# 安装(注意用 mlx-vlm,不是 mlx-lm)
pip install -U mlx-vlm
# 纯文本推理
python -m mlx_vlm.generate \
--model prithivMLmods/gemma-4-31B-it-Uncensored-MAX-MLX \
--max-tokens 512 \
--temperature 0.0 \
--prompt "你好"
# 带图片的多模态推理
python -m mlx_vlm.generate \
--model prithivMLmods/gemma-4-31B-it-Uncensored-MAX-MLX \
--max-tokens 512 \
--prompt "描述这张图片" \
--image /path/to/image.jpg
💾 硬件要求
- 最低 64GB 统一内存(模型本身 62GB + 系统 6-8GB)
- 推荐:96GB+ 舒适运行
- 256GB 机器:完美运行,内存绰绰有余
🆚 与 JANG CRACK 的区别
| Uncensored MAX(本模型) | JANG CRACK | |
|---|---|---|
| 精度 | BF16 全精度 | 5.1bit 混合量化 |
| 体积 | ~62 GB | ~21 GB |
| 最低内存 | 64GB | 32GB |
| 去审查方法 | Labonne abliteration | JANG CRACK v2(架构感知) |
| Benchmark | 无公开数据 | 93.7% HarmBench |
| Thinking Mode | 未提及 | 有专门调参支持 |
| 推理工具 | mlx-vlm | mlx-lm / vMLX |
| License | Apache 2.0 | Gemma |
🏆 适合谁
- 追求零量化损失的极致质量用户
- 有 64GB+ 内存的 Mac 用户
- 对 Labonne abliteration 方法论感兴趣的研究者
- 需要 Apache 2.0 许可证的场景
⚠️ 注意
- 62GB 体积,48GB 内存的机器跑不了
- 没有公开的 HarmBench / MMLU benchmark 数据,效果缺乏量化对比
- 社区热度较低(2 likes),验证不如 JANG CRACK 充分
- 建议与 JANG CRACK 做对比测试后选择
暂无评论
