
antirez新作:DeepSeek V4 Flash的Metal/CUDA原生推理引擎,2-bit量化128GB Mac跑百万token上下文
DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎
antirez(Redis 作者 Salvatore Sanfilippo)的新项目。一个专为 DeepSeek V4 Flash 打造的原生本地推理引擎,不是通用 GGUF 运行器,不是框架,而是针对单一模型的深度优化执行器。
为什么值得关注
- 极速推理 — Metal (macOS) + CUDA (Linux) 图执行器,Mac Studio M3 Ultra q4 量化下生成速度达 35.5 t/s,长上下文 prefill 448 t/s
- 100 万 token 上下文窗口 — KV cache 极度压缩,支持磁盘持久化,普通高端 Mac 也能跑长上下文
- 2-bit 量化可用 — 只对 MoE 路由专家做非对称量化(IQ2_XXS/Q2_K),共享专家和投影层保留原精度,128GB 内存 MacBook 即可运行
- 内置 OpenAI/Anthropic 兼容服务器 — 支持 tool calling、SSE streaming、thinking mode,可直接对接 Claude Code、opencode、Pi 等编程代理客户端
- 磁盘 KV Cache — KV cache 作为磁盘一等公民,prefix 复用跨会话、跨重启,避免重复 prefill
技术亮点
- 纯 C 实现,核心文件
ds4.c,不链接 GGML 但借鉴了 llama.cpp 的量化格式和内核 - 支持 activation steering(方向向量引导),可调控模型行为而无需微调
- 完整的 tool call 处理:exact DSML replay + canonicalization 双保险,保证 KV cache prefix 匹配
- 官方 logits 验证的测试向量,确保推理正确性
- 与 GPT 5.5 协作开发,人类主导设计和测试
适用场景
- Mac Studio / MacBook Pro (128GB+) 本地跑 DeepSeek V4 Flash
- 本地编程代理(Claude Code / opencode / Pi)的推理后端
- 长上下文 RAG / 文档分析(100万 token 上下文)
- 需要完全离线、数据不出本地的 LLM 推理
速度基准
| 设备 | 量化 | 提示长度 | Prefill | 生成 |
|---|---|---|---|---|
| MacBook Pro M3 Max 128GB | q2 | short | 58.52 t/s | 26.68 t/s |
| Mac Studio M3 Ultra 512GB | q2 | 11.7k tokens | 468.03 t/s | 27.39 t/s |
| Mac Studio M3 Ultra 512GB | q4 | short | 78.95 t/s | 35.50 t/s |
| DGX Spark GB10 128GB | q2 | 7k tokens | 343.81 t/s | 13.75 t/s |
注意: 项目目前处于 alpha 阶段,代码和模型仍在快速迭代中。
暂无评论
