DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎

DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎


antirez新作:DeepSeek V4 Flash的Metal/CUDA原生推理引擎,2-bit量化128GB Mac跑百万token上下文

DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎

antirez(Redis 作者 Salvatore Sanfilippo)的新项目。一个专为 DeepSeek V4 Flash 打造的原生本地推理引擎,不是通用 GGUF 运行器,不是框架,而是针对单一模型的深度优化执行器。

为什么值得关注

  1. 极速推理 — Metal (macOS) + CUDA (Linux) 图执行器,Mac Studio M3 Ultra q4 量化下生成速度达 35.5 t/s,长上下文 prefill 448 t/s
  2. 100 万 token 上下文窗口 — KV cache 极度压缩,支持磁盘持久化,普通高端 Mac 也能跑长上下文
  3. 2-bit 量化可用 — 只对 MoE 路由专家做非对称量化(IQ2_XXS/Q2_K),共享专家和投影层保留原精度,128GB 内存 MacBook 即可运行
  4. 内置 OpenAI/Anthropic 兼容服务器 — 支持 tool calling、SSE streaming、thinking mode,可直接对接 Claude Code、opencode、Pi 等编程代理客户端
  5. 磁盘 KV Cache — KV cache 作为磁盘一等公民,prefix 复用跨会话、跨重启,避免重复 prefill

技术亮点

  • 纯 C 实现,核心文件 ds4.c,不链接 GGML 但借鉴了 llama.cpp 的量化格式和内核
  • 支持 activation steering(方向向量引导),可调控模型行为而无需微调
  • 完整的 tool call 处理:exact DSML replay + canonicalization 双保险,保证 KV cache prefix 匹配
  • 官方 logits 验证的测试向量,确保推理正确性
  • 与 GPT 5.5 协作开发,人类主导设计和测试

适用场景

  • Mac Studio / MacBook Pro (128GB+) 本地跑 DeepSeek V4 Flash
  • 本地编程代理(Claude Code / opencode / Pi)的推理后端
  • 长上下文 RAG / 文档分析(100万 token 上下文)
  • 需要完全离线、数据不出本地的 LLM 推理

速度基准

设备量化提示长度Prefill生成
MacBook Pro M3 Max 128GBq2short58.52 t/s26.68 t/s
Mac Studio M3 Ultra 512GBq211.7k tokens468.03 t/s27.39 t/s
Mac Studio M3 Ultra 512GBq4short78.95 t/s35.50 t/s
DGX Spark GB10 128GBq27k tokens343.81 t/s13.75 t/s

注意: 项目目前处于 alpha 阶段,代码和模型仍在快速迭代中。

1000举报0Xiao.Xi2天前
点击获取 ^_^
被收录:

暂无评论