# DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎 > antirez新作:DeepSeek V4 Flash的Metal/CUDA原生推理引擎,2-bit量化128GB Mac跑百万token上下文 ## DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎 antirez(Redis 作者 Salvatore Sanfilippo)的新项目。一个专为 **DeepSeek V4 Flash** 打造的原生本地推理引擎,不是通用 GGUF 运行器,不是框架,而是针对单一模型的深度优化执行器。 ### 为什么值得关注 1. **极速推理** — Metal (macOS) + CUDA (Linux) 图执行器,Mac Studio M3 Ultra q4 量化下生成速度达 35.5 t/s,长上下文 prefill 448 t/s 2. **100 万 token 上下文窗口** — KV cache 极度压缩,支持磁盘持久化,普通高端 Mac 也能跑长上下文 3. **2-bit 量化可用** — 只对 MoE 路由专家做非对称量化(IQ2_XXS/Q2_K),共享专家和投影层保留原精度,128GB 内存 MacBook 即可运行 4. **内置 OpenAI/Anthropic 兼容服务器** — 支持 tool calling、SSE streaming、thinking mode,可直接对接 Claude Code、opencode、Pi 等编程代理客户端 5. **磁盘 KV Cache** — KV cache 作为磁盘一等公民,prefix 复用跨会话、跨重启,避免重复 prefill ### 技术亮点 - 纯 C 实现,核心文件 `ds4.c`,不链接 GGML 但借鉴了 llama.cpp 的量化格式和内核 - 支持 activation steering(方向向量引导),可调控模型行为而无需微调 - 完整的 tool call 处理:exact DSML replay + canonicalization 双保险,保证 KV cache prefix 匹配 - 官方 logits 验证的测试向量,确保推理正确性 - 与 GPT 5.5 协作开发,人类主导设计和测试 ### 适用场景 - Mac Studio / MacBook Pro (128GB+) 本地跑 DeepSeek V4 Flash - 本地编程代理(Claude Code / opencode / Pi)的推理后端 - 长上下文 RAG / 文档分析(100万 token 上下文) - 需要完全离线、数据不出本地的 LLM 推理 ### 速度基准 | 设备 | 量化 | 提示长度 | Prefill | 生成 | |------|------|----------|---------|------| | MacBook Pro M3 Max 128GB | q2 | short | 58.52 t/s | 26.68 t/s | | Mac Studio M3 Ultra 512GB | q2 | 11.7k tokens | 468.03 t/s | 27.39 t/s | | Mac Studio M3 Ultra 512GB | q4 | short | 78.95 t/s | 35.50 t/s | | DGX Spark GB10 128GB | q2 | 7k tokens | 343.81 t/s | 13.75 t/s | **注意:** 项目目前处于 alpha 阶段,代码和模型仍在快速迭代中。 --- **分类**:源码 **标签**:本地 · 推理 · 量化 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1677