# DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎

> antirez新作：DeepSeek V4 Flash的Metal/CUDA原生推理引擎，2-bit量化128GB Mac跑百万token上下文

## DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎

antirez（Redis 作者 Salvatore Sanfilippo）的新项目。一个专为 **DeepSeek V4 Flash** 打造的原生本地推理引擎，不是通用 GGUF 运行器，不是框架，而是针对单一模型的深度优化执行器。

### 为什么值得关注

1. **极速推理** — Metal (macOS) + CUDA (Linux) 图执行器，Mac Studio M3 Ultra q4 量化下生成速度达 35.5 t/s，长上下文 prefill 448 t/s
2. **100 万 token 上下文窗口** — KV cache 极度压缩，支持磁盘持久化，普通高端 Mac 也能跑长上下文
3. **2-bit 量化可用** — 只对 MoE 路由专家做非对称量化（IQ2_XXS/Q2_K），共享专家和投影层保留原精度，128GB 内存 MacBook 即可运行
4. **内置 OpenAI/Anthropic 兼容服务器** — 支持 tool calling、SSE streaming、thinking mode，可直接对接 Claude Code、opencode、Pi 等编程代理客户端
5. **磁盘 KV Cache** — KV cache 作为磁盘一等公民，prefix 复用跨会话、跨重启，避免重复 prefill

### 技术亮点

- 纯 C 实现，核心文件 `ds4.c`，不链接 GGML 但借鉴了 llama.cpp 的量化格式和内核
- 支持 activation steering（方向向量引导），可调控模型行为而无需微调
- 完整的 tool call 处理：exact DSML replay + canonicalization 双保险，保证 KV cache prefix 匹配
- 官方 logits 验证的测试向量，确保推理正确性
- 与 GPT 5.5 协作开发，人类主导设计和测试

### 适用场景

- Mac Studio / MacBook Pro (128GB+) 本地跑 DeepSeek V4 Flash
- 本地编程代理（Claude Code / opencode / Pi）的推理后端
- 长上下文 RAG / 文档分析（100万 token 上下文）
- 需要完全离线、数据不出本地的 LLM 推理

### 速度基准

| 设备 | 量化 | 提示长度 | Prefill | 生成 |
|------|------|----------|---------|------|
| MacBook Pro M3 Max 128GB | q2 | short | 58.52 t/s | 26.68 t/s |
| Mac Studio M3 Ultra 512GB | q2 | 11.7k tokens | 468.03 t/s | 27.39 t/s |
| Mac Studio M3 Ultra 512GB | q4 | short | 78.95 t/s | 35.50 t/s |
| DGX Spark GB10 128GB | q2 | 7k tokens | 343.81 t/s | 13.75 t/s |

**注意：** 项目目前处于 alpha 阶段，代码和模型仍在快速迭代中。

---

**分类**：源码
**标签**：本地 · 推理 · 量化
**作者**：Xiao.Xi
**链接**：https://octohz.com/p/1677