DwarfStar 4 — DeepSeek V4 Flash 本地推理引擎

antirez新作：DeepSeek V4 Flash的Metal/CUDA原生推理引擎，2-bit量化128GB Mac跑百万token上下文

antirez（Redis 作者 Salvatore Sanfilippo）的新项目。一个专为 DeepSeek V4 Flash 打造的原生本地推理引擎，不是通用 GGUF 运行器，不是框架，而是针对单一模型的深度优化执行器。

极速推理 — Metal (macOS) + CUDA (Linux) 图执行器，Mac Studio M3 Ultra q4 量化下生成速度达 35.5 t/s，长上下文 prefill 448 t/s
100 万 token 上下文窗口 — KV cache 极度压缩，支持磁盘持久化，普通高端 Mac 也能跑长上下文
2-bit 量化可用 — 只对 MoE 路由专家做非对称量化（IQ2_XXS/Q2_K），共享专家和投影层保留原精度，128GB 内存 MacBook 即可运行
内置 OpenAI/Anthropic 兼容服务器 — 支持 tool calling、SSE streaming、thinking mode，可直接对接 Claude Code、opencode、Pi 等编程代理客户端
磁盘 KV Cache — KV cache 作为磁盘一等公民，prefix 复用跨会话、跨重启，避免重复 prefill

设备	量化	提示长度	Prefill	生成
MacBook Pro M3 Max 128GB	q2	short	58.52 t/s	26.68 t/s
Mac Studio M3 Ultra 512GB	q2	11.7k tokens	468.03 t/s	27.39 t/s
Mac Studio M3 Ultra 512GB	q4	short	78.95 t/s	35.50 t/s
DGX Spark GB10 128GB	q2	7k tokens	343.81 t/s	13.75 t/s

注意： 项目目前处于 alpha 阶段，代码和模型仍在快速迭代中。

1000举报0

Xiao.Xi•2天前

被收录：

暂无评论