DFlash - 块扩散加速LLM推理的推测解码方案

DFlash - 块扩散加速LLM推理的推测解码方案


轻量级块扩散模型,专为 LLM Speculative Decoding 设计,支持 vLLM/SGLang/MLX,已适配 20+ 主流大模型

DFlash: Block Diffusion for Flash Speculative Decoding

DFlash 是一个轻量级块扩散模型,专为 LLM 推测解码(Speculative Decoding)设计,实现高效高质量的并行 Draft 生成。

核心亮点

  • 🚀 显著加速推理 — 通过块扩散模型并行生成 draft tokens,大幅提升 LLM 推理速度
  • 🔧 即插即用 — 支持 vLLM、SGLang、Transformers、MLX(Apple Silicon)多种后端
  • 🧠 广泛模型支持 — 已适配 20+ 主流大模型

支持模型(部分)

模型状态
Kimi-K2.5
Qwen3.5 全系列(4B~122B)
Gemma-4-26B/31B
MiniMax-M2.5
DeepSeek-V4即将支持
GLM-5.1即将支持

快速开始

# vLLM 后端安装
uv pip install -e ".[vllm]"

# SGLang 后端
uv pip install -e ".[sglang]"

# Apple Silicon MLX
pip install -e ".[mlx]"

相关链接

⭐ 3233 Stars | Python

2800举报0Xiao.Xi6天前
点击获取 ^_^
被收录:

暂无评论