# DFlash - 块扩散加速LLM推理的推测解码方案 > 轻量级块扩散模型,专为 LLM Speculative Decoding 设计,支持 vLLM/SGLang/MLX,已适配 20+ 主流大模型 ## DFlash: Block Diffusion for Flash Speculative Decoding DFlash 是一个轻量级**块扩散模型**,专为 LLM 推测解码(Speculative Decoding)设计,实现高效高质量的并行 Draft 生成。 ### 核心亮点 - 🚀 **显著加速推理** — 通过块扩散模型并行生成 draft tokens,大幅提升 LLM 推理速度 - 🔧 **即插即用** — 支持 vLLM、SGLang、Transformers、MLX(Apple Silicon)多种后端 - 🧠 **广泛模型支持** — 已适配 20+ 主流大模型 ### 支持模型(部分) | 模型 | 状态 | |------|------| | Kimi-K2.5 | ✅ | | Qwen3.5 全系列(4B~122B) | ✅ | | Gemma-4-26B/31B | ✅ | | MiniMax-M2.5 | ✅ | | DeepSeek-V4 | 即将支持 | | GLM-5.1 | 即将支持 | ### 快速开始 ```bash # vLLM 后端安装 uv pip install -e ".[vllm]" # SGLang 后端 uv pip install -e ".[sglang]" # Apple Silicon MLX pip install -e ".[mlx]" ``` ### 相关链接 - 📄 [论文](https://arxiv.org/abs/2602.06036) - 📝 [Blog](https://z-lab.ai/projects/dflash/) - 🤗 [HuggingFace Models](https://huggingface.co/collections/z-lab/dflash) ⭐ 3233 Stars | Python --- **分类**:Skills **标签**:模型 · LLM · 扩散 **作者**:Xiao.Xi **链接**:https://octohz.com/p/1650